File robots.txt là gì?

Table of Contents

Robots.txt là một tệp văn bản mà quản trị viên web tạo để hướng dẫn rô bốt web (thường là rô bốt công cụ tìm kiếm) cách thu thập dữ liệu các trang trên trang web của họ. Tệp robots.txt là một phần của giao thức loại trừ rô bốt (REP), một nhóm các tiêu chuẩn web quy định cách rô bốt thu thập thông tin trên web, truy cập và lập chỉ mục nội dung cũng như phân phát nội dung đó cho người dùng. REP cũng bao gồm các chỉ thị như rô bốt meta, cũng như các hướng dẫn về trang, thư mục con hoặc toàn bộ trang web về cách các công cụ tìm kiếm nên xử lý các liên kết (chẳng hạn như “follow” hoặc “nofollow”).

Trên thực tế, các tệp robots.txt cho biết liệu một số tác nhân người dùng (phần mềm thu thập dữ liệu web) có thể hoặc không thể thu thập dữ liệu các phần của trang web hay không. Các hướng dẫn thu thập thông tin này được chỉ định bằng cách “disallowing” hoặc “allowing” hành vi của một số (hoặc tất cả) user-agent.

User-agent: [user-agent name]Disallow: [URL string not to be crawled]

Cùng với nhau, hai dòng này được coi là một tệp robots.txt hoàn chỉnh — mặc dù một tệp rô bốt có thể chứa nhiều dòng tác nhân người dùng và chỉ thị (tức là nofollow, follow, crawl-delays, v.v.).

Trong tệp robots.txt, mỗi bộ chỉ thị user-agent dùng xuất hiện dưới dạng một bộ riêng biệt, được phân tách bằng dấu ngắt dòng:

Trong tệp robots.txt có nhiều user-agent, mỗi quy tắc không cho phép hoặc cho phép chỉ áp dụng cho (các user-agent) tác nhân người dùng được chỉ định trong nhóm được phân tách bằng dấu ngắt dòng cụ thể đó. Nếu tệp chứa quy tắc áp dụng cho nhiều tác nhân người dùng, trình thu thập thông tin sẽ chỉ chú ý đến (và tuân theo các chỉ thị trong) nhóm hướng dẫn cụ thể nhất.

Msnbot, discobot và Slurp đều được gọi cụ thể, vì vậy những tác nhân người dùng đó sẽ chỉ chú ý đến các lệnh trong phần của họ trong tệp robots.txt. Tất cả các tác nhân người dùng khác sẽ tuân theo các chỉ thị trong nhóm user-agent: *.

Ví dụ về robots.txt:

Dưới đây là một vài ví dụ về robots.txt đang hoạt động cho trang web www.example.com:

URL tệp robot.txt: www.example.com/robots.txt

Chặn tất cả trình thu thập dữ liệu web từ tất cả nội dung

user-agent: * Disallow: /

Việc sử dụng cú pháp này trong tệp robots.txt sẽ yêu cầu tất cả trình thu thập dữ liệu web không thu thập dữ liệu bất kỳ trang nào trên www.example.com, kể cả trang chủ.

Cho phép tất cả trình thu thập dữ liệu web truy cập vào tất cả nội dung

User-agent: * Disallow:

Việc sử dụng cú pháp này trong tệp robots.txt sẽ yêu cầu trình thu thập dữ liệu web thu thập dữ liệu tất cả các trang trên www.example.com, bao gồm cả trang chủ.

Chặn trình thu thập dữ liệu web cụ thể từ một thư mục cụ thể

User-agent: Googlebot Disallow: /example-subfolder/

Cú pháp này chỉ yêu cầu trình thu thập dữ liệu của Google (user-agent name Googlebot) không thu thập dữ liệu bất kỳ trang nào chứa chuỗi URL www.example.com/example-subfolder/.

Chặn một trình thu thập dữ liệu web cụ thể từ một trang web cụ thể

User-agent: Bingbot Disallow: /example-subfolder/blocked-page.html

Cú pháp này chỉ yêu cầu trình thu thập dữ liệu của Bing (user-agent name Bing) tránh thu thập dữ liệu trang cụ thể tại www.example.com/example-subfolder/blocked-page.html.

Robot.txt hoạt động như thế nào?

Công cụ tìm kiếm có hai công việc chính:

Thu thập thông tin trên web để khám phá nội dung;

Lập chỉ mục nội dung đó để nó có thể được phục vụ cho những người tìm kiếm đang tìm kiếm thông tin.

Để thu thập dữ liệu các trang web, công cụ tìm kiếm lần theo các liên kết để chuyển từ trang này sang trang khác — cuối cùng, thu thập dữ liệu trên nhiều tỷ liên kết và trang web. Hành vi thu thập dữ liệu này đôi khi được gọi là “spidering”.

Sau khi truy cập một trang web nhưng trước khi mở trang đó, trình thu thập dữ liệu tìm kiếm sẽ tìm tệp robots.txt. Nếu tìm thấy một tệp, trình thu thập thông tin sẽ đọc tệp đó trước khi tiếp tục qua trang. Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm sẽ thu thập thông tin, thông tin được tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web cụ thể này. Nếu tệp robots.txt không chứa bất kỳ lệnh nào không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), tệp sẽ tiếp tục thu thập thông tin khác trên trang web.

Những điều cần biết nhanh về robots.txt khác:

Để được tìm thấy, tệp robots.txt phải được đặt trong thư mục cấp cao nhất của trang web.

Robots.txt phân biệt chữ hoa chữ thường: tệp phải được đặt tên là “robots.txt” (không phải Robots.txt, robots.TXT hoặc tên khác).

Một số tác nhân người dùng (rô-bốt) có thể chọn bỏ qua tệp robots.txt của bạn. Điều này đặc biệt phổ biến với các trình thu thập dữ liệu bất chính hơn như rô-bốt phần mềm độc hại hoặc trình thu thập địa chỉ email.

File /robots.txt có sẵn công khai: chỉ cần thêm /robots.txt vào cuối bất kỳ tên miền gốc nào để xem chỉ thị của trang web đó (nếu trang web đó có tệp robots.txt!). Điều này có nghĩa là bất kỳ ai cũng có thể xem những trang bạn muốn hoặc không muốn được thu thập thông tin, vì vậy đừng sử dụng chúng để ẩn thông tin cá nhân của người dùng.

Mỗi subdomain trên một miền gốc sử dụng các tệp robots.txt riêng biệt. Điều này có nghĩa là cả blog.example.com và example.com đều phải có tệp robots.txt của riêng mình (tại blog.example.com/robots.txt và example.com/robots.txt).

Nói chung, phương pháp hay nhất là chỉ ra vị trí của bất kỳ sơ đồ trang web nào được liên kết với miền này ở cuối file robots.txt. Đây là một ví dụ:

Cú pháp robots.txt

Cú pháp robot.txt có thể được coi là “ngôn ngữ” của tệp robots.txt. Có năm thuật ngữ phổ biến mà bạn có thể bắt gặp trong tệp robot. Chúng bao gồm:

User-agent: Trình thu thập dữ liệu web cụ thể mà bạn đang cung cấp hướng dẫn thu thập dữ liệu (thường là công cụ tìm kiếm). Bạn có thể tìm thấy danh sách hầu hết các tác nhân người dùng tại đây.

Disallow: Lệnh được sử dụng để yêu cầu tác nhân người dùng không thu thập dữ liệu URL cụ thể. Mỗi URL chỉ được phép có một dòng “Không cho phép:”.

Allow (Chỉ áp dụng cho Googlebot): Lệnh cho Googlebot biết rằng nó có thể truy cập một trang hoặc thư mục con mặc dù trang mẹ hoặc thư mục con của nó có thể không được phép.

Crawl-delay: Trình thu thập thông tin phải đợi bao nhiêu giây trước khi tải và thu thập nội dung trang. Lưu ý rằng Googlebot không thừa nhận lệnh này nhưng tốc độ thu thập dữ liệu có thể được đặt trong Google Search Console.

Sitemap: Được sử dụng để gọi ra vị trí của bất kỳ sitemap(s)XML nào được liên kết với URL này. Lưu ý rằng lệnh này chỉ được hỗ trợ bởi Google, Ask, Bing và Yahoo.

Khớp mẫu

Khi nói đến các URL thực cần chặn hoặc cho phép, các file robots.txt có thể trở nên khá phức tạp vì chúng cho phép sử dụng đối sánh mẫu để bao hàm một loạt các tùy chọn URL khả thi. Cả Google và Bing đều tôn trọng hai cụm từ thông dụng có thể được sử dụng để xác định các trang hoặc thư mục con mà SEO muốn loại trừ. Hai ký tự này là dấu sao (*) và ký hiệu đô la ($).

* là ký tự đại diện đại diện cho bất kỳ chuỗi ký tự nào

$ khớp với phần cuối của URL

Google cung cấp một danh sách tuyệt vời các ví dụ và cú pháp khớp mẫu bạn có thể tham khảo tại đây.

Robot.txt đi đâu trên một trang web?

Bất cứ khi nào họ đến một trang web, các công cụ tìm kiếm và các robot thu thập dữ liệu web khác (như trình thu thập thông tin của Facebook, Facebot) sẽ biết cách tìm file robots.txt. Tuy nhiên, họ sẽ chỉ tìm tệp đó ở một nơi cụ thể: thư mục chính (thường là miền gốc hoặc trang chủ của bạn). Nếu tác nhân người dùng truy cập www.example.com/robots.txt và không tìm thấy file robots.txt ở đó, thì tác nhân đó sẽ cho rằng trang web không có tệp rô bốt và tiến hành thu thập dữ liệu mọi thứ trên trang (và thậm chí có thể trên toàn bộ trang web). Ngay cả khi trang robots.txt đã tồn tại tại ví dụ: example.com/index/robots.txt hoặc www.example.com/homepage/robots.txt, nó sẽ không bị tác nhân người dùng phát hiện và do đó trang web sẽ được xử lý như thể nó không có tệp robot nào cả.

Để đảm bảo tệp robots.txt của bạn được tìm thấy, hãy luôn đưa tệp đó vào thư mục chính hoặc miền gốc của bạn.

Tại sao bạn cần robots.txt?

Các tệp robot.txt kiểm soát quyền truy cập của trình thu thập thông tin vào các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của bạn (!!), nhưng có một số tình huống mà tệp robots.txt có thể rất hữu ích.

Một số trường hợp sử dụng phổ biến bao gồm:

Ngăn nội dung trùng lặp xuất hiện trong SERPs (lưu ý rằng meta robot thường là lựa chọn tốt hơn cho việc này)

Giữ toàn bộ các phần của trang web ở chế độ riêng tư (ví dụ: trang dàn dựng của nhóm kỹ sư của bạn)

Giữ các trang kết quả tìm kiếm nội bộ hiển thị trên SERP công khai

Chỉ định vị trí của sitemap(s) trang web

Ngăn các công cụ tìm kiếm lập chỉ mục một số tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)

Chỉ định độ trễ thu thập dữ liệu để ngăn máy chủ của bạn bị quá tải khi trình thu thập dữ liệu tải nhiều phần nội dung cùng một lúc

Nếu không có khu vực nào trên trang web của bạn mà bạn muốn kiểm soát quyền truy cập của tác nhân người dùng, thì bạn có thể hoàn toàn không cần tệp robots.txt.

Kiểm tra xem bạn có tệp robots.txt không?

Bạn không chắc mình có tệp robots.txt không? Chỉ cần nhập tên miền gốc của bạn, sau đó thêm /robots.txt vào cuối URL. Chẳng hạn, tệp robot của WebsiteGiaTot được đặt tại websitegiatot.net/robots.txt.

Nếu không có trang .txt nào xuất hiện, nghĩa là bạn hiện không có trang robots.txt (trực tiếp).

Cách tạo file robots.txt

Nếu bạn không phải là nhận viên lập trình web, thiết kế web thì bạn có thể liên hệ với bên làm web để được hỗ trợ tạo file robot.txt. Nhưng nếu bạn sử dụng dịch vụ thiết kế website wordpress thì mã nguồn mở WordPress đã có sẵn file này rồi nên bạn hoàn toàn yên tâm.

File robots.txt ảnh hưởng thế nào trong SEO?

Đảm bảo rằng bạn không chặn bất kỳ nội dung hoặc phần nào trên trang web mà bạn muốn thu thập dữ liệu.

Liên kết trên các trang bị chặn bởi robots.txt sẽ không được theo dõi. Điều này có nghĩa là 1.) Trừ khi chúng cũng được liên kết từ các trang khác có thể truy cập bằng công cụ tìm kiếm (tức là các trang không bị chặn qua robots.txt, meta robot hoặc cách khác), các tài nguyên được liên kết sẽ không được thu thập thông tin và có thể không được lập chỉ mục. 2.) Không thể chuyển vốn chủ sở hữu liên kết từ trang bị chặn đến đích liên kết. Nếu bạn có các trang mà bạn muốn chuyển quyền sở hữu, hãy sử dụng một cơ chế chặn khác ngoài robots.txt.

Không sử dụng robots.txt để ngăn dữ liệu nhạy cảm (như thông tin cá nhân của người dùng) xuất hiện trong kết quả SERP. Bởi vì các trang khác có thể liên kết trực tiếp đến trang chứa thông tin cá nhân (do đó bỏ qua chỉ thị robots.txt trên tên miền gốc hoặc trang chủ của bạn), nó vẫn có thể được lập chỉ mục. Nếu bạn muốn chặn trang của mình khỏi kết quả tìm kiếm, hãy sử dụng một phương pháp khác như bảo vệ bằng mật khẩu hoặc chỉ thị meta ngăn lập chỉ mục.

Một số công cụ tìm kiếm có nhiều user-agents. Chẳng hạn, Google sử dụng Googlebot để tìm kiếm không phải trả tiền và Googlebot-Image để tìm kiếm hình ảnh. Hầu hết các tác nhân người dùng từ cùng một công cụ tìm kiếm đều tuân theo các quy tắc giống nhau, do đó, không cần chỉ định các lệnh cho từng trình thu thập thông tin của công cụ tìm kiếm, nhưng khả năng làm như vậy sẽ cho phép bạn tinh chỉnh cách thu thập thông tin nội dung trang web của mình.

Công cụ tìm kiếm sẽ lưu nội dung robots.txt vào bộ nhớ cache, nhưng thường cập nhật nội dung đã lưu trong bộ nhớ cache ít nhất một lần mỗi ngày. Nếu bạn thay đổi tệp và muốn cập nhật tệp nhanh hơn so với hiện tại, bạn có thể gửi url robots.txt của mình tới Google.

Robots.txt so với robot meta so với x-robot

Rất nhiều robot! Sự khác biệt giữa ba loại hướng dẫn robot này là gì? Trước hết, robots.txt là một tệp văn bản thực tế, trong khi meta và x-robot là các chỉ thị meta. Ngoài những gì chúng thực sự là, cả ba đều phục vụ các chức năng khác nhau. Robots.txt quy định hành vi thu thập dữ liệu trên toàn bộ trang web hoặc thư mục, trong khi meta và x-robot có thể quy định hành vi lập chỉ mục ở cấp độ trang (hoặc thành phần trang) riêng lẻ.