Tệp "robots.txt" cho các công cụ tìm kiếm biết liệu chúng có thể truy cập và nhờ vậy, thu thập dữ liệu các phần trong trang web của bạn không. Tệp này phải được đặt tên là "robots.txt" và được đặt trong thư mục gốc của trang web của bạn.
Địa chỉ tệp robots.txt của chúng tôi
Tất cả các bot công cụ tìm kiếm tương thích (được biểu thị bằng biểu tượng ký tự đặc trưng *) không được truy cập và thu thập dữ liệu nội dung theo /images/ hoặc bất kỳ URL nào có đường dẫn bắt đầu bằng /search
Bạn có thể không muốn một số trang nhất định trong trang web của mình được thu thập dữ liệu bởi vì chúng có thể không hữu ích cho người dùng nếu được tìm thấy trong các kết quả tìm kiếm của công cụ tìm kiếm. Nếu bạn muốn ngăn không cho các công cụ tìm kiếm thu thập dữ liệu các trang của bạn, Công cụ Quản trị Trang web của Google có trình tạo robots.txt thân thiện để giúp bạn tạo tệp này. Lưu ý rằng nếu trang web của bạn sử dụng các tên miền phụ và bạn muốn một số trang nhất định không được thu thập dữ liệu trong tên miền phụ cụ thể, bạn sẽ phải tạo tệp robots.txt riêng biệt cho tên miền phụ đó. Để biết thêm thông tin về robots.txt, chúng tôi đề xuất Trung tâm Trợ giúp Quản trị Trang web này hướng dẫn về việc sử dụng các tệp robots.txt.
Có một số cách khác để ngăn không cho nội dung xuất hiện trong các kết quả tìm kiếm như thêm "NOINDEX" vào thẻ meta của các robot của bạn, sử dụng .htaccess để bảo vệ bằng mật khẩu các thư mục và sử dụng Công cụ Quản trị Trang web của Google để xoá nội dung đã được thu thập dữ liệu trước đó. Kỹ sư của Google Matt Cutts trình bày các cảnh báo cho mỗi phương thức chặn URL trong một video hữu ích.
- Bạn sẽ không cảm thấy yên tâm khi sử dụng robots.txt để chặn tài liệu nhạy cảm hoặc bí mật. Một lý do là các công cụ tìm kiếm có thể vẫn tham chiếu các URL bạn chặn (chỉ hiển thị URL, không phải tiêu đề hay đoạn trích) nếu ngẫu nhiên có được các liên kết đến những URL đó trên Internet (như các bản ghi tham chiếu). Cũng vậy, các công cụ tìm kiếm lừa đảo hoặc không tương thích không thừa nhận Chuẩn Loại trừ Robot có thể không tuân theo các hướng dẫn của robots.txt của bạn. Cuối cùng, người dùng tò mò có thể kiểm tra các thư mục hoặc thư mục con trong tệp robots.txt của bạn và đoán ra URL của nội dung mà bạn không muốn cho xem. Mã hoá nội dung hoặc bảo vệ bằng mật khẩu với .htaccess là lựa chọn an toàn khác.
Tránh:
• Cho phép các trang giống kết quả tìm kiếm được thu thập dữ liệu (người dùng không thích rời trang kết quả tìm kiếm và vào trang kết quả tìm kiếm khác không thêm giá trị quan trọng nào cho họ)
• Cho phép số lượng lớn các trang tự tạo với cùng nội dung hoặc nội dung chỉ hơi khác nhau được thu thập dữ liệu: "100.000 trang gần như trùng lặp này có thật sự nên nằm trong chỉ mục của công cụ tìm kiếm?"
• Cho phép các URL được tạo ra bởi các dịch vụ uỷ quyền được thu thập dữ liệu