Mục lục:
Ví dụ về robots.txt:
Dưới đây là một số ví dụ về robots.txt đang hoạt động cho trang web www.yourdomain.com :
URL của tệp Robots.txt: www.yourdomain.com/robots.txt
Đây là cách mà bạn kiểm tra được Robots.txt của bạn hoăc của đối thủ. Ví dụ đối thủ bạn không làm, thì bạn cũng biết họ như thế nào rồi đấy. Mình thấy có nhiều website hiện giờ vẫn còn chưa tối ưu website.
Việc sử dụng cú pháp này trong tệp robots.txt sẽ yêu cầu tất cả trình thu thập thông tin web không thu thập thông tin bất kỳ trang nào trên www.yourdomain.com , bao gồm cả trang chủ.
Robots.txt hoạt động như thế nào?
Công cụ tìm kiếm có hai công việc chính:
- Thu thập thông tin trên web để khám phá nội dung;
- Lập chỉ mục nội dung đó để nó có thể được cung cấp cho những người tìm kiếm đang tìm kiếm thông tin.
Để thu thập dữ liệu các trang web, các công cụ tìm kiếm đi theo các liên kết để đi từ trang này sang trang khác – cuối cùng là thu thập thông tin trên nhiều tỷ liên kết và trang web.
Bởi vì tệp robots.txt chứa thông tin về cách công cụ tìm kiếm thu thập thông tin, thông tin tìm thấy ở đó sẽ hướng dẫn hành động tiếp theo của trình thu thập thông tin trên trang web.
Nếu tệp robots.txt không chứa bất kỳ lệnh nào, không cho phép hoạt động của tác nhân người dùng (hoặc nếu trang web không có tệp robots.txt), nó sẽ tiến hành thu thập thông tin khác trên trang web.
Các tệp robots.txt nhanh chóng khác phải biết:
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://kingdomseo.vn/sitemap_index.xml
Mình nghĩ chắc đây là mẫu dễ nhất mà hầu hết khi các bạn tối ưu xong RankMath SEO hoăc Yoast SEO là đã có mẫu này.
Một số các site song ngữ sẽ có thêm đoạn song ngữ ở phần sitemap. Ví dụ
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://kingdomseo.vn/vi/sitemap_index.xml
Sitemap: https://kingdomseo.vn/en/sitemap_index.xml
Đơn giản. Ngoài còn một số mẫu khác tùy vào yêu cầu của người quản trị website. Ví dụ
Khá là dài dòng nên mình sẽ không giải thích kĩ, các bạn có thể tìm hiểu ở một số trang khác, nhưng mình thấy Robots.txt mình vừa cung cấp ở mục trên đủ dư sức rồi.
Vì căn bản ở đây việc sử dụng File Robots.txt là giúp cho việc lập chỉ mục nhanh hơn thôi. Các bạn cố gắng tập trung điểm này nhé.
Tại sao bạn cần robots.txt?
Tệp Robots.txt kiểm soát quyền truy cập của trình thu thập thông tin vào các khu vực nhất định trên trang web của bạn. Mặc dù điều này có thể rất nguy hiểm nếu bạn vô tình không cho phép Googlebot thu thập dữ liệu toàn bộ trang web của mình (!!), nhưng có một số trường hợp mà tệp robots.txt có thể rất hữu ích.
Một số trường hợp sử dụng phổ biến bao gồm:
- Ngăn nội dung trùng lặp xuất hiện trong SERP (lưu ý rằng meta rô bốt thường là lựa chọn tốt hơn cho việc này)
- Giữ toàn bộ các phần của trang web ở chế độ riêng tư (ví dụ: trang web dàn dựng của nhóm kỹ sư của bạn)
- Giữ cho các trang kết quả tìm kiếm nội bộ không hiển thị trên SERP công khai
- Chỉ định vị trí cụ thể trên sơ đồ trang web
- Ngăn các công cụ tìm kiếm lập chỉ mục các tệp nhất định trên trang web của bạn (hình ảnh, PDF, v.v.)
- Chỉ định độ trễ thu thập thông tin để ngăn máy chủ của bạn bị quá tải khi trình thu thập thông tin tải nhiều phần nội dung cùng một lúc
Lời kết
Vậy thôi, tránh bài viết trở nên dài dòng mình nghĩ đọc tới đây các bạn đã hiểu rõ tầm quan trọng của Robots.txt quan trọng như thế nào. Các bạn hãy hoàn tất nó để đảm bảo website luôn được ưu tiên với Google
Chúc các bạn thành công!
Xem thêm: Dịch vụ seo tổng thể
Dịch vụ SEO tổng thể KingdomSEO | SEO TOP 1000+ từ khóa