robots.txt LÀ GÌ? Tìm hiểu về robots.txt

84
Tệp tin robot.txt là phương thức cơ bản để nói cho một công cụ tìm kiếm biết được nơi nào nó được quét và không được quét trên website của bạn. Đa số những công cụ tìm kiếm phổ biến hiện tại đều có hỗ trợ nền tảng cơ bản mà tệp robot.txt cung cấp. Có một vài nguyên tắc được các công cụ áp dụng cũng khá hữu ích. Hướng dẫn này bao gồm tất cả những ứng dụng của robot.txt cho website. Trông thì khá đơn giản, nhưng chỉ cần một sai sót nhỏ với robot.txt cũng có thể ảnh hưởng nghiêm trọng cho website, vì thế hãy chắc rằng bạn đọc và nắm những kiến thức dưới đây thật chắc.

robot.txt là gì?

robot.txt là một tệp tin văn bản, tuân theo cú pháp chặt chẽ. Nó sẽ được quét bởi các Spider – công cụ thu thập dữ liệu của các công cụ tìm kiếm. Những Spider này, còn có tên gọi khác là Robot, vì đó mà cái tên robot.txt ra đời. Cú pháp của tệp này phải thật chuẩn xác, đơn giản vì nó chỉ dành cho hệ thống máy tính đọc.

Còn có tên gọi khác là “Robots Exclusion Protocol”, robot.txt được sinh ra từ sự hợp tác nghiên cứu của những người phát triển Spider đầu tiên. Đến nay, nó chưa thật sự có một chuẩn chính thức nào từ bất kì tổ chức uy tín nào, nhưng gần như tất cả những công cụ tìm kiếm lớn nhất hiện nay đều dùng nó.

Tệp robot.txt có tác dụng gì?

Các công cụ tìm kiếm sẽ xếp hạng trang của bạn bằng cách quét nó. Spider theo những liên kết để khám phá không ngừng nghỉ từ trang A đến B, từ B đến C,… Trước khi “con nhện” khám một trang từ tên miền mà nó chưa từng gặp trước đây, nó sẽ tìm và mở file robot.txt. Tệp robot.txt sẽ báo cho công cụ tìm kiếm biết được URL nào trong website được phép để index.

Công cụ tìm kiếm thường lưu trữ lại nội dung của robot.txt, nhưng thường sẽ quét để cập nhật lại file này vài lần một ngày. Đó là lí do khi chỉnh sửa tệp đuôi txt này, bạn sẽ thấy những thay đổi nhanh chóng.

Tôi nên đặt tệp robot.txt ở đâu?

Tệp robot.txt nên luôn luôn đặt ở đuôi của tên miền. Ví dụ, nếu tên miền của bạn là http://www.abcdefgh.com, thì nên sắp đặt là

Mã:

http://www.abcdefgh.com/robot.txt

. LƯU Ý: nếu tên miền không có “www.”, hãy chắc rằng nó cũng có đường dẫn tương tự! Điều này thì vẫn giống nhau cho HTTP và HTTPS. Khi một công cụ tìm kiếm cử một Spider đi khám một URL như:

Mã:

http://www.abcdefgh.com/test