Duplicate content là gì?
Duplicate content(nội dung trùng lặp) là nội dung có sẵn trên nhiều URL trên web. Dẫn đến các công cụ tìm kiếm không biết URL nào là bài viết chính. Do đó, họ có thể xếp hạng cả hai URL thấp hơn và ưu tiên cho các trang web khác.
Trong bài viết này, chúng tôi chủ yếu tập trung vào các nguyên nhân kỹ thuật của nội dung trùng lặp và giải pháp khắc phục. Nếu bạn muốn có góc nhìn rộng hơn về nội dung trùng lặp và tìm hiểu xem nó liên quan như thế nào đến nội dung được sao chép hoặc cắt xén hoặc thậm chí là từ khóa ăn thịt người, chúng tôi khuyên bạn nên đọc bài đăng này: Duplicate content trong SEO là gì?
Hãy minh họa điều này với một ví dụ
Nội dung trùng lặp có thể giống như bạn đang đứng ở ngã tư đường nơi biển báo chỉ hai hướng khác nhau cho cùng một điểm đến: Bạn nên đi đường nào? Tệ hơn nữa, điểm đến cuối cùng cũng khác, nhưng chỉ hơi khác một chút. Với tư cách là người đọc, bạn có thể không phiền nếu vẫn nhận được câu trả lời mà mình tìm kiếm, nhưng công cụ tìm kiếm phải chọn trang nào sẽ hiển thị trong kết quả tìm kiếm vì tất nhiên, nó không muốn hiển thị cùng một nội dung hai lần.
Giả sử bài viết của bạn về ‘ keyword x’ xuất hiện tại http://www.example.com/keyword-x/ và nội dung tương tự cũng xuất hiện tại http://www.example.com/article-category/keyword-x/ . Tình huống này không phải là hư cấu: nó xảy ra trong rất nhiều Hệ thống quản lý nội dung (Content Management Systems – CMS) hiện đại. Sau đó, giả sử bài viết của bạn đã được một số blogger chọn và một số người trong số họ liên kết đến URL đầu tiên, trong khi những người khác liên kết đến URL thứ hai. Đây là lúc vấn đề của công cụ tìm kiếm thể hiện bản chất thực sự của nó: đó là vấn đề của bạn. Nội dung trùng lặp là vấn đề của bạn vì cả hai liên kết đó đều quảng bá các URL khác nhau. Nếu tất cả chúng đều liên kết đến cùng một URL, thì cơ hội xếp hạng cho ‘keyword x’ của bạn sẽ cao hơn.
Tại sao ngăn chặn nội dung trùng lặp trên trang web của bạn?
Nội dung trùng lặp sẽ ảnh hưởng đến thứ hạng của bạn. Ít nhất, các công cụ tìm kiếm sẽ không biết nên gợi ý trang nào cho người dùng. Và kết quả là tất cả các trang mà công cụ tìm kiếm coi là trùng lặp đều có nguy cơ bị xếp hạng thấp hơn. Đó là trường hợp tốt nhất. Nếu các vấn đề về nội dung trùng lặp của bạn thực sự tồi tệ, chẳng hạn như nếu bạn có nội dung rất mỏng kết hợp với nội dung được sao chép từng từ, thì bạn thậm chí có thể phải đối mặt với một thao tác thủ công từ Google vì cố gắng đánh lừa người dùng. Vì vậy, nếu bạn muốn nội dung của mình được xếp hạng, điều thực sự quan trọng là phải đảm bảo rằng mỗi trang cung cấp một lượng nội dung độc đáo.
Tuy nhiên, đó không chỉ là vấn đề đối với các công cụ tìm kiếm. Nếu người dùng của bạn đang tìm kiếm một trang cụ thể, họ có thể thực sự khó chịu nếu họ không thể tìm thấy đúng thứ họ đang tìm kiếm. Vì vậy, cũng như nhiều khía cạnh của SEO, điều quan trọng là phải xử lý các vấn đề về nội dung trùng lặp của bạn đối với trải nghiệm người dùng cũng như tìm kiếm.
Nguyên nhân của nội dung trùng lặp
Có hàng tá lý do cho nội dung trùng lặp. Hầu hết chúng đều mang tính kỹ thuật: không mấy khi một người quyết định đặt cùng một nội dung ở hai nơi khác nhau mà không làm rõ đâu là nội dung gốc. Tất nhiên, trừ khi bạn đã nhân bản một bài đăng và xuất bản nó một cách tình cờ. Nhưng mặt khác, nó cảm thấy không tự nhiên đối với hầu hết chúng ta.
Tuy nhiên, có nhiều lý do kỹ thuật và nó chủ yếu xảy ra bởi vì các nhà phát triển không nghĩ giống như một trình duyệt hay thậm chí là một người dùng, chứ đừng nói đến một công cụ tìm kiếm – họ nghĩ giống như một lập trình viên. Lấy bài viết mà chúng tôi đã đề cập trước đó, xuất hiện trên http://www.example.com/keyword-x/ và http://www.example.com/article-category/keyword-x/. Nếu bạn hỏi nhà phát triển, họ sẽ nói nó chỉ tồn tại một lần.
Hiểu sai về khái niệm URL
Không, nhà phát triển đó không phát điên, họ chỉ đang nói một ngôn ngữ khác. Một CMS có thể sẽ cung cấp năng lượng cho trang web và trong cơ sở dữ liệu đó chỉ có một bài viết, nhưng phần mềm của trang web chỉ cho phép truy xuất cùng một bài viết đó trong cơ sở dữ liệu thông qua một số URL. Đó là bởi vì, trong mắt nhà phát triển, mã định danh duy nhất cho bài viết đó là ID mà bài viết đó có trong cơ sở dữ liệu, không phải URL. Nhưng đối với công cụ tìm kiếm, URL là mã định danh duy nhất cho một phần nội dung. Nếu bạn giải thích điều đó với nhà phát triển, họ sẽ bắt đầu gặp sự cố. Và sau khi đọc bài viết này, bạn thậm chí có thể cung cấp cho họ giải pháp ngay lập tức.
ID phiên
Bạn thường muốn theo dõi khách truy cập của mình và cho phép họ, chẳng hạn, lưu trữ các mặt hàng họ muốn mua trong giỏ hàng. Để làm được điều đó, bạn phải cung cấp cho họ một ‘phiên’. Phiên là lịch sử ngắn gọn về những gì khách truy cập đã làm trên trang web của bạn và có thể chứa những thứ như mặt hàng trong giỏ hàng của họ. Để duy trì phiên đó khi khách truy cập nhấp từ trang này sang trang khác, mã định danh duy nhất cho phiên đó – được gọi là ID phiên – cần được lưu trữ ở đâu đó. Giải pháp phổ biến nhất là làm điều đó với cookie. Tuy nhiên, các công cụ tìm kiếm thường không lưu trữ cookie.
Tại thời điểm đó, một số hệ thống quay lại sử dụng ID phiên trong URL. Điều này có nghĩa là mọi liên kết nội bộ trên trang web đều có ID phiên đó được thêm vào URL của nó và vì ID phiên đó là duy nhất cho phiên đó nên nó tạo ra một URL mới và do đó trùng lặp nội dung.
Tham số URL được sử dụng để theo dõi và sắp xếp
Một nguyên nhân khác của nội dung trùng lặp là sử dụng các tham số URL không thay đổi nội dung của trang, chẳng hạn như trong các liên kết theo dõi. Bạn thấy đấy, đối với công cụ tìm kiếm, http://www.example.com/keyword-x/ và http://www.example.com/keyword-x/?source=rss không phải là cùng một URL. Cái sau có thể cho phép bạn theo dõi xem mọi người đến từ nguồn nào, nhưng nó cũng có thể khiến bạn khó xếp hạng tốt hơn – rất nhiều tác dụng phụ không mong muốn!
Tất nhiên, điều này không chỉ dành cho các tham số theo dõi. Nó phù hợp với mọi tham số mà bạn có thể thêm vào một URL không thay đổi phần quan trọng của nội dung, cho dù tham số đó là để ‘thay đổi cách sắp xếp trên một bộ sản phẩm’ hay để ‘hiển thị một thanh bên khác’: tất cả chúng đều gây ra sự trùng lặp nội dung.
Scrapers và phân phối nội dung
Hầu hết các lý do khiến nội dung trùng lặp là do ‘lỗi’ của bạn hoặc trang web của bạn. Tuy nhiên, đôi khi, các trang web khác sử dụng nội dung của bạn, có hoặc không có sự đồng ý của bạn. Không phải lúc nào chúng cũng liên kết đến bài viết gốc của bạn và do đó, công cụ tìm kiếm không ‘hiểu’ được nó và phải xử lý một phiên bản khác của cùng một bài viết. Trang web của bạn càng trở nên nổi tiếng thì càng có nhiều người thu thập dữ liệu, làm cho vấn đề này ngày càng lớn hơn.
Thứ tự tham số
Một nguyên nhân phổ biến khác là CMS không sử dụng các URL sạch đẹp mà thay vào đó là các URL như /?id=1&cat=2, trong đó ID đề cập đến bài viết và cat đề cập đến danh mục. URL /?cat=2&id=1 sẽ hiển thị kết quả giống nhau trong hầu hết các hệ thống trang web, nhưng chúng hoàn toàn khác đối với công cụ tìm kiếm.
Phân trang bình luận
Trong WordPress yêu quý của tôi, cũng như trong một số hệ thống khác, có một tùy chọn để đánh số trang cho nhận xét của bạn. Điều này dẫn đến nội dung bị trùng lặp trên URL bài viết và URL bài viết + /comment-page-1/, /comment-page-2/, v.v.
WWW so với non-WWW
Đây là một trong những nội dung cũ nhất trong cuốn sách, nhưng đôi khi các công cụ tìm kiếm vẫn hiểu sai: Nội dung trùng lặp giữa WWW và không phải WWW, khi cả hai phiên bản trang web của bạn đều có thể truy cập được. Một tình huống khác, ít phổ biến hơn nhưng tôi cũng đã thấy là nội dung trùng lặp HTTP so với HTTPS, trong đó cùng một nội dung được cung cấp trên cả hai.
Giải pháp khái niệm: URL ‘canonical’
Lưu ý
Canonical là một thuật ngữ bắt nguồn từ truyền thống Công giáo La Mã, nơi một danh sách các sách thiêng liêng được tạo ra và được chấp nhận là chính hãng. Chúng được gọi là các sách Phúc âm kinh điển của Tân Ước. Điều trớ trêu là nhà thờ Công giáo La Mã đã mất khoảng 300 năm và vô số cuộc đấu tranh để đưa ra danh sách kinh điển đó, và cuối cùng họ đã chọn bốn phiên bản của cùng một câu chuyện…
Như chúng ta đã thấy, việc một số URL dẫn đến cùng một nội dung là một vấn đề nhưng có thể giải quyết được. Một người làm việc tại một ấn phẩm thường có thể cho bạn biết khá dễ dàng URL ‘chính xác’ cho một bài viết nhất định là gì, nhưng đôi khi khi bạn hỏi ba người trong cùng một công ty, bạn sẽ nhận được ba câu trả lời khác nhau…
Đó là một vấn đề cần giải quyết vì cuối cùng, chỉ có thể có một (URL). URL ‘chính xác’ đó cho một phần nội dung được các công cụ tìm kiếm gọi là URL chuẩn.
Xác định các vấn đề nội dung trùng lặp
Bạn có thể không biết mình có vấn đề về nội dung trùng lặp trên trang web hoặc với nội dung của mình hay không. Sử dụng Google là một trong những cách dễ nhất để phát hiện nội dung trùng lặp.
Có một số toán tử tìm kiếm rất hữu ích trong những trường hợp như thế này. Nếu bạn muốn tìm tất cả các URL trên trang web có chứa từ khóa X bài viết của bạn, bạn sẽ nhập cụm từ tìm kiếm sau vào Google:
site:example.com intitle:”Từ khóa X”
Sau đó, Google sẽ hiển thị cho bạn tất cả các trang trên example.com có chứa từ khóa đó. Bạn đặt phần tiêu đề đó của truy vấn càng cụ thể thì càng dễ dàng loại bỏ nội dung trùng lặp. Bạn có thể sử dụng phương pháp tương tự để xác định nội dung trùng lặp trên web. Giả sử tiêu đề đầy đủ của bài viết của bạn là ‘Từ khóa X – tại sao nó tuyệt vời’, bạn sẽ tìm kiếm:
intitle:”Từ khóa X – tại sao nó tuyệt vời”
Và Google sẽ cung cấp cho bạn tất cả các trang web phù hợp với tiêu đề đó. Đôi khi, thậm chí bạn nên tìm kiếm một hoặc hai câu hoàn chỉnh từ bài viết của mình, vì một số người trích xuất có thể thay đổi tiêu đề. Trong một số trường hợp, khi bạn thực hiện tìm kiếm như vậy, Google có thể hiển thị thông báo như thế này trên trang kết quả cuối cùng:
Đây là một dấu hiệu cho thấy Google đã ‘khử lừa đảo’ các kết quả. Nó vẫn chưa tốt, vì vậy bạn nên nhấp vào liên kết và xem tất cả các kết quả khác để xem liệu bạn có thể sửa một số kết quả hay không.
Giải pháp thiết thực cho nội dung trùng lặp
Khi bạn đã quyết định URL nào là URL chuẩn cho phần nội dung của mình, bạn phải bắt đầu quá trình chuẩn hóa (vâng, tôi biết, hãy thử nói to ba lần thật nhanh). Điều này có nghĩa là chúng ta phải thông báo cho các công cụ tìm kiếm về phiên bản chuẩn của một trang và để chúng tìm thấy nó càng sớm càng tốt. Có bốn phương pháp giải quyết vấn đề, theo thứ tự ưu tiên:
- Không tạo nội dung trùng lặp
- Chuyển hướng nội dung trùng lặp sang URL chuẩn
- Thêm một yếu tố liên kết chuẩn vào trang trùng lặp
- Thêm một liên kết HTML từ trang trùng lặp vào trang chuẩn
- Tránh nội dung trùng lặp
Một số nguyên nhân dẫn đến nội dung trùng lặp ở trên có cách khắc phục rất đơn giản:
- Có ID phiên trong URL của bạn không?
- Chúng thường có thể bị vô hiệu hóa trong cài đặt hệ thống của bạn.
- Bạn có đang sử dụng phân trang bình luận trong WordPress không?
- Bạn chỉ nên tắt tính năng này (trong cài đặt » thảo luận) trên 99% trang web.
- Các tham số của bạn có theo thứ tự khác không?
- Yêu cầu lập trình viên của bạn xây dựng một tập lệnh để luôn đặt các tham số theo cùng một thứ tự (điều này thường được gọi là nhà máy sản xuất URL).
- Có vấn đề về liên kết theo dõi không?
Trong hầu hết các trường hợp, bạn có thể sử dụng theo dõi chiến dịch dựa trên thẻ băm thay vì theo dõi chiến dịch dựa trên thông số.
Bạn có gặp vấn đề về WWW so với không phải WWW không?
Chọn một và gắn bó với nó bằng cách chuyển hướng cái này sang cái kia. Bạn cũng có thể đặt tùy chọn trong Công cụ quản trị trang web của Google, nhưng bạn sẽ phải yêu cầu cả hai phiên bản của tên miền.
Nếu vấn đề của bạn không dễ dàng khắc phục, thì vẫn có thể đáng để nỗ lực. Mục tiêu phải là ngăn nội dung trùng lặp xuất hiện hoàn toàn, bởi vì cho đến nay, đó là giải pháp tốt nhất cho vấn đề.
301 Chuyển hướng nội dung trùng lặp
Trong một số trường hợp, không thể ngăn hoàn toàn hệ thống bạn đang sử dụng tạo URL sai cho nội dung, nhưng đôi khi có thể chuyển hướng chúng. Nếu điều này không hợp lý với bạn (điều mà tôi có thể hiểu được), hãy ghi nhớ điều đó khi nói chuyện với nhà phát triển của bạn. Nếu bạn loại bỏ được một số vấn đề về nội dung trùng lặp, hãy đảm bảo rằng bạn chuyển hướng tất cả các URL nội dung trùng lặp cũ sang các URL chính tắc thích hợp.
Sử dụng liên kết
Đôi khi bạn không muốn hoặc không thể loại bỏ phiên bản trùng lặp của một bài viết, ngay cả khi bạn biết rằng đó là URL sai. Để giải quyết vấn đề cụ thể này, các công cụ tìm kiếm đã giới thiệu yếu tố liên kết chính tắc. Nó được đặt trong phần <head> trên trang web của bạn và có dạng như sau:
<link rel=”canonical” href=”http://example.com/wordpress/seo-plugin/” />
Trong phần href của canonical, bạn đặt đúng URL chuẩn cho bài viết của mình. Khi một công cụ tìm kiếm hỗ trợ trang chuẩn tìm thấy phần tử liên kết này, nó sẽ thực hiện chuyển hướng 301, chuyển phần lớn giá trị liên kết được thu thập bởi trang đó sang trang chuẩn của bạn.
Liên kết trở lại nội dung ban đầu
Nếu bạn không thể thực hiện bất kỳ thao tác nào ở trên, có thể do bạn không kiểm soát phần <head> của trang web mà nội dung của bạn xuất hiện trên đó, thì việc thêm một liên kết trở lại bài viết gốc ở đầu hoặc bên dưới bài viết luôn là một cách tốt. ý tưởng. Bạn có thể muốn làm điều này trong nguồn cấp dữ liệu RSS của mình bằng cách thêm một liên kết trở lại bài viết trong đó. Một số trình thu thập dữ liệu sẽ lọc liên kết đó ra, nhưng những người khác có thể để nó ở đó. Nếu Google gặp một số liên kết trỏ đến bài viết gốc của bạn, nó sẽ sớm nhận ra rằng đó là phiên bản chính tắc thực sự.
Kết luận: Duplicate content có thể sửa được và cần được sửa
Duplicate content xảy ra ở khắp mọi nơi. Tôi chưa gặp một trang web nào có hơn 1.000 trang mà không có ít nhất một vấn đề nhỏ về nội dung trùng lặp. Đó là điều bạn cần phải thường xuyên theo dõi, nhưng nó có thể sửa chữa được và phần thưởng có thể rất phong phú. Nội dung chất lượng của bạn có thể tăng cao trong bảng xếp hạng, chỉ bằng cách loại bỏ nội dung trùng lặp khỏi trang web của bạn!