Tại sao có thể tìm thấy một trang web trong kết quả tìm kiếm mặc dù nó đã bị chặn bằng robots.txt?
Đôi khi, Google sẽ hiển thị một trang bị chặn bằng robots.txt trong SERPs nếu trang đó có chứa nhiều inbound link với một anchor text cụ thể. Để ngăn chặn điều này xảy ra, bạn nên sử dụng thẻ meta robot cho URL.
Khi nào một trang bị chặn xuất hiện trong SERPs? #
Nếu trang bị chặn có nhiều liên kết đến với văn bản liên kết xác định, thì Google có thể xem nội dung của trang đủ liên quan để hiển thị URL xuất hiện trong các liên kết này trong kết quả tìm kiếm. Tuy nhiên, nội dung của URL đó vẫn chưa được Google nhận diện vì không thể thu thập được dữ liệu. Bạn có thể nhận ra các trang trong SERP đã bị chặn thông qua robots.txt với cú pháp:
User-agent: * Disallow: /a-directory/ Disallow: /a-page.html
Cách để ngăn một nội dung hiển thị trên SERPs #
Tệp robots.txt không chắc chắn ngăn được một trang web không có trong kết quả tìm kiếm. Vì thế, bạn nên sử dụng thẻ Meta Robot có giá trị NOINDEX.
Google ngày càng chú ý đến các phản hồi của người dùng.
Nếu bạn sử dụng robots.txt để chặn quyền truy cập vào trang web http://www.domain.com/chien-luoc-seo.html. Trình thu thập thông tin của Google tôn trọng yêu cầu của bạn. Do đó, Google không biết nội dung nào trong tệp chien-luoc-seo.html.
Ví dụ rằng trang này chứa rất nhiều liên kết đến từ các trang khác, nhiều liên kết sử dụng anchor text “chiến lược SEO”. Trong trường hợp này, trang web bị chặn http://www.domain.com/chien-luoc-seo.html có thể xuất hiện trong các kết quả tìm kiếm (SERPs) cho từ khóa tìm kiếm “chiến lược SEO” – mặc dù bạn đã chặn trình thu thập thông qua robots.txt.