Robots.txt dùng để hướng dẫn bot lập chỉ mục ở cấp độ chuyên mục và chức năng, còn thẻ meta robots lại hướng dẫn bot xử lí dữ liệu ở cấp độ của từng trang chi tiết.
Có rất nhiều cách để chặn index URL trên trang, trong đó 2 lựa chọn thường được các webmaster sử dụng là thẻ meta robots và robots.txt. Dù 2 khái niệm này nghe có vẻ “na ná” như nhau nhưng chúng lại hoàn toàn khác biệt.
Robots meta tag là code mà bạn đặt ở trong <head> của trang để hướng dẫn bot của công cụ tìm kiếm cách thu thập thông tin và lập chỉ mục website. Đoạn code của thẻ meta robots sẽ có dạng như thế này:
<meta name="robots" content="noindex" />
File Robots.txt (Robots Exclusion Standard Protocol) là 1 dạng text file để thông báo với bot của công cụ tìm kiếm biết tệp tin nào chúng có thể vào crawl data. Để sử dụng robots.txt bạn cần upload file này lên thư mục gốc (root directory) của website. Công cụ tìm kiếm hoặc các bot được nhận diện trong file robots.txt bằng user-agent. Lệnh Disallow và Allow dùng để xác định thư mục nào nên hay không nên được crawl. Bạn cũng có thể đặt vị trí của sitemap trong tệp robots.txt.
Ví dụ:
# Group 1 User-agent: Googlebot
Disallow: /nogooglebot/
# Group 2 User-agent: *
Allow: / Sitemap: http://www.example.com/sitemap.xml
Vậy khi nào nên dùng thẻ meta robots, khi nào dùng robots.txt?
Tệp robots.txt không phù hợp để loại trừ nội dung khỏi lập chỉ mục. Các liên kết đến vẫn có thể khiến nội dung được lập chỉ mục trong một số trường hợp nhất định. Google khuyên nên sử dụng tệp robotss.txt để quản lí lưu lượng thu thập thông tin và ngăn các file hình ảnh, video, audio xuất hiện trên kết quả tìm kiếm.
Bằng cách sử dụng thẻ meta robots để hướng dẫn bot noindex, bạn có thể ngăn cách trang nhất định xuất hiện trên kết quả tìm kiếm.
Lưu ý: Nếu tệp robots.txt cấm thu thập thông tin của một trang, thì trình thu thập thông tin sẽ không thể đọc các thẻ meta robots. Điều này, trong một số trường hợp nhất định, có thể dẫn đến việc trang được lập chỉ mục – đó là điều mà bạn tất nhiên muốn tránh.