Tệp "robots.txt" cho các công cụ tìm kiếm biết liệu chúng có thể truy cập, thu thập dữ liệu
các phần trong trang web của bạn không. Tệp này phải được đặt tên là "robots.txt" và được đặt trong
thư mục gốc của trang web của bạn.
Bạn có thể không muốn một số trang nhất định trong trang web của mình được thu thập dữ liệu bởi vì
chúng có thể không hữu ích cho người dùng nếu được tìm thấy trong các kết quả tìm kiếm của công
cụ tìm kiếm. Nếu bạn muốn ngăn không cho các công cụ tìm kiếm thu thập dữ liệu các trang của bạn,
Công cụ Quản trị Trang web của Google có trình tạo robots.txt thân thiện để giúp bạn tạo tệp này.
Tạo tệp robots.txt hiệu quả |
Lưu ý rằng nếu trang web của bạn sử dụng các tên miền phụ và bạn muốn một số trang nhất định
không được thu thập dữ liệu trong tên miền phụ cụ thể, bạn sẽ phải tạo tệp robots.txt riêng biệt cho
tên miền phụ đó.
Có một số cách khác để ngăn không cho nội dung xuất hiện trong các kết quả tìm kiếm như thêm
"NOINDEX" vào thẻ meta của các robot của bạn, sử dụng .htaccess để bảo vệ bằng mật khẩu các
thư mục và sử dụng Công cụ Quản trị Trang web của Google để xoá nội dung đã được thu thập dữ
liệu trước đó.
Các nguyên tắc hữu ích dành cho tệp robots.txt
• Sử dụng các phương thức an toàn hơn đối với nội dung nhạy cảm.
- Bạn sẽ không cảm
thấy yên tâm khi sử dụng robots.txt để chặn tài liệu nhạy cảm hoặc bí mật. Một lý do là các
công cụ tìm kiếm có thể vẫn tham chiếu các URL bạn chặn (chỉ hiển thị URL, không phải tiêu
đề hay đoạn trích) nếu ngẫu nhiên có được các liên kết đến những URL đó trên Internet
(như các bản ghi tham chiếu). Cũng vậy, các công cụ tìm kiếm lừa đảo hoặc không tương
thích không thừa nhận Chuẩn Loại trừ Robot có thể không tuân theo các hướng dẫn của
robots.txt của bạn. Cuối cùng, người dùng tò mò có thể kiểm tra các thư mục hoặc thư mục
con trong tệp robots.txt của bạn và đoán ra URL của nội dung mà bạn không muốn cho xem.
Mã hoá nội dung hoặc bảo vệ bằng mật khẩu với .htaccess là lựa chọn an toàn khác.
Tránh:
• cho phép các trang giống kết quả tìm kiếm được thu thập dữ liệu (người dùng
không thích rời trang kết quả tìm kiếm và vào trang kết quả tìm kiếm khác
không thêm giá trị quan trọng nào cho họ)
• cho phép số lượng lớn các trang tự tạo với cùng nội dung hoặc nội dung chỉ
hơi khác nhau được thu thập dữ liệu: "100.000 trang gần như trùng lặp này có
thật sự nên nằm trong chỉ mục của công cụ tìm kiếm?"
• cho phép các URL được tạo ra bởi các dịch vụ uỷ quyền được thu thập dữ liệu.
Xem thêm :
Tối ưu hóa cho hình ảnh Độ khó của từ khóa trong SEO