Cách tạo file robots.txt hoàn hảo cho WordPress | Joomla | Drupal | Magento ~ Kiếm Tiền Online

Sunday, February 4, 2024

robots.txt file văn bản đặc biệt được đặt trên thư mục gốc chứa website để chỉ định các quy tắc và hạn chế truy cập của các robot (còn gọi là web crawler, spider hoặc bot) của các công cụ tìm kiếm hoặc các robot trên Internet.

Tệp robots.txt được các công cụ tìm kiếm đọc trước khi khởi đầu quét và lập chỉ mục nội dung của trang web. Nó dùng để thông tin cho các robot biết những phần của trang web mà bạn muốn họ truy cập hoặc không truy cập.

Ví dụ, bạn có thể tiêu dùng tệp robots.txt để từ chối các robot truy cập vào các thư mục nhất định của trang web, hoặc cấu hình để chỉ cho phép truy cập vào một số phần cụ thể của trang web. Ngoài ra, tệp robots.txt cũng cung cấp thông tin về phạm vi index của các công cụ tìm kiếm và tần suất quét của chúng.

Cần lưu ý rằng tệp robots.txt chỉ là một đề nghị và không phải là một biện pháp bảo mật như nhiều người hay nhầm lẫn.

Bạn cũng nên lưu ý có thể có các robot không tuân thủ tệp robots.txt mà vẫn cào toàn bộ data của website hoặc truy cập vào toàn bộ các file để thu thập hoặc đánh cắp thông tin website (Phần này liên quan tới chính, tà hay – robot của ai điều khiển nhằm mục đích gì…)

Robot nằm ở đâu?

Như đã nói phần đầu bài file robots.txt sẽ nằm ở thư mục gốc của website cụ thể sẽ như sau:

https://truongcongthang.com/robots.txt

File robots.txt mặc định sẽ không có trên website mà quản trị viên phải tạo để khai báo các rules cho các web crawler, spider hoặc bot biết

file robots.txt nằm ở thư mục gốc

File robots.txt gồm những gì?

File robots.txt có 4 phần chính như sau:

  • User-agent – quy tắc cho robot tìm kiếm
  • Disalow – từ chối quyền truy cập
  • Allow – cho phép truy cập
  • Sitemap – URL đầy đủ của bản đồ XML

File robots.txt có đề nghị như sau:

– Mã hóa UTF-8 không có chữ ký BOM
– Tập tin có thể được truy cập bởi robot
– Máy chủ đưa ra trạng thái 200
– Kích thước lên tới 500 KB
– Một tệp cho tên miền
– Tên “robots.txt” không có chữ in hoa và chữ Cyrillic
– Tác nhân người dùng có liên quan được chỉ định trong nhóm quy tắc
– Không có xung đột giữa các chỉ thị.

Sửa file robots.txt cho WordPress

Việc tạo file robots.txt và sửa đổi file robots.txt rất đơn giản, bạn có thể đăng nhập vào hosting hoặc đăng nhập vào tài khoản FTP của bạn, tiếp theo truy cập vào vị trí chứa mã nguồn chứa website WordPress và tạo mới 1 file với tên là: robots.txt là xong

Tiếp theo bạn mở file robots.txt lên và nhập vào các thông tin như đề xuất của chúng tôi dưới đây, đây là file robots.txt tối ưu cho WordPress , các mã nguồn khác hoặc code khác vui lòng tìm hiểu thêm thông tin để tạo file robots.txt

User-agent: *Disallow: /cgi-binDisallow: /wp-adminDisallow: /wp-includesDisallow: /wp-content/cacheDisallow: /wp-content/pluginsDisallow: /wp-json/Disallow: /wp-login.phpDisallow: /wp-register.phpDisallow: /xmlrpc.phpDisallow: /license.txtDisallow: /readme.htmlDisallow: /trackback/Disallow: /comments/feed/Disallow: /*?replytocomDisallow: */rssDisallow: /author/Disallow: /?Disallow: /*?Disallow: /?s=Disallow: *&s=Disallow: /searchDisallow: /search/Disallow: *?attachment_id=Disallow: *utm=Disallow: */embedDisallow: /archive/Disallow: /wp-cron.phpDisallow: /wp-load.phpDisallow: /wp-login.php* Disallow: /customize.php* Allow: /wp-admin/admin-ajax.phpAllow: /wp-includes/*.cssAllow: /wp-includes/*.jsAllow: /wp-content/plugins/*.cssAllow: /wp-content/plugins/*.jsAllow: /*.cssAllow: /*.js# GooglebotUser-agent: Googlebot Disallow: /feed/Disallow: /feed$Disallow: /*/feed$Disallow: /feedSitemap: https://truongcongthang.com/sitemap_index.xml

Dòng đầu tiên cho biết tài nguyên có sẵn cho tất cả rô-bốt tìm kiếm (trình thu thập thông tin).

Chỉ thị không cho phép tìm kiếm hoặc lập chỉ mục các thư mục và tệp đăng ký, nguồn cấp dữ liệu RSS, trang tác giả, trang tìm kiếm và tệp đính kèm… có chữ Disallow ở đầu sẽ chặn cào

Cho phép truy cập các file js, css trong thư mục chứa plugin, cho phép truy cập các file .js và css

Cuối cùng là địa chỉ của bản đồ XML (Nhớ thay tên truongcongthang.com thành website của bạn nhé)

Lưu ý nếu bạn cho phép truy cập vào phần lưu trữ tác gì thì có thể bỏ dòng: Disallow: /author/

Lưu trữ tác giả ví dụ: https://truongcongthang.com/author/vutruso/

Nếu website của bạn đăng ký Google News thì có thể khai báo thêm

# Googlebot-NewsUser-agent: Googlebot-NewsAllow: /feedAllow: /feed/

Robots.txt cho các website tiêu dùng WooCommerce

Nếu bạn tiêu dùng plugin WooCommerce thì nên thêm vào

Disallow: /cart/Disallow: /checkout/Disallow: /*add-to-cart=*Disallow: /my-account/

Ngoài ra, nếu bạn không tiêu dùng mã nguồn mở mà tiêu dùng các CMS khác có thể tham khảo file robots.txt được đề xuất dưới đây.

File robots.txt cho OpenCart

User-agent: *Disallow: /*route=account/Disallow: /*route=affiliate/Disallow: /*route=checkout/Disallow: /*route=product/searchDisallow: /index.php?route=product/product*&manufacturer_id=Disallow: /adminDisallow: /catalogDisallow: /systemDisallow: /*?sort=Disallow: /*&sort=Disallow: /*?order=Disallow: /*&order=Disallow: /*?limit=Disallow: /*&limit=Disallow: /*?filter_name=Disallow: /*&filter_name=Disallow: /*?filter_sub_category=Disallow: /*&filter_sub_category=Disallow: /*?filter_description=Disallow: /*&filter_description=Disallow: /*?tracking=Disallow: /*&tracking=Disallow: /*compare-productsDisallow: /*searchDisallow: /*cartDisallow: /*checkoutDisallow: /*loginDisallow: /*logoutDisallow: /*vouchersDisallow: /*wishlistDisallow: /*my-accountDisallow: /*order-historyDisallow: /*newsletterDisallow: /*return-addDisallow: /*forgot-passwordDisallow: /*downloadsDisallow: /*returnsDisallow: /*transactionsDisallow: /*create-accountDisallow: /*recurringDisallow: /*address-bookDisallow: /*reward-pointsDisallow: /*affiliate-forgot-passwordDisallow: /*create-affiliate-accountDisallow: /*affiliate-loginDisallow: /*affiliatesDisallow: /*?filter_tag=Disallow: /*brandsDisallow: /*specialsDisallow: /*simpleregisterDisallow: /*simplecheckoutDisallow: *utm=Allow: /catalog/view/javascript/Allow: /catalog/view/theme/*/Sitemap: https://truongcongthang.com/sitemap_index.xml

File robots.txt cho Joomla

User-agent: *Disallow: /administrator/Disallow: /bin/Disallow: /cache/Disallow: /cli/Disallow: /components/Disallow: /includes/Disallow: /installation/Disallow: /language/Disallow: /layouts/Disallow: /libraries/Disallow: /logs/Disallow: /modules/Disallow: /plugins/Disallow: /tmp/Sitemap: https://truongcongthang.com/sitemap_index.xml

File robots.txt cho Drupal

User-agent: *Allow: /core/*.css$Allow: /core/*.css?Allow: /core/*.js$Allow: /core/*.js?Allow: /core/*.gifAllow: /core/*.jpgAllow: /core/*.jpgAllow: /core/*.jpgAllow: /core/*.svgAllow: /profiles/*.css$Allow: /profiles/*.css?Allow: /profiles/*.js$Allow: /profiles/*.js?Allow: /profiles/*.gifAllow: /profiles/*.jpgAllow: /profiles/*.jpgAllow: /profiles/*.jpgAllow: /profiles/*.svgDisallow: /core/Disallow: /profiles/Disallow: /README.txtDisallow: /web.configDisallow: /admin/Disallow: /comment/reply/Disallow: /filter/tips/Disallow: /node/add/Disallow: /search/Disallow: /user/register/Disallow: /user/password/Disallow: /user/login/Disallow: /user/logout/Disallow: /index.php/admin/Disallow: /index.php/comment/reply/Disallow: /index.php/filter/tips/Disallow: /index.php/node/add/Disallow: /index.php/search/Disallow: /index.php/user/password/Disallow: /index.php/user/register/Disallow: /index.php/user/login/Disallow: /index.php/user/logout/Sitemap: https://truongcongthang.com/sitemap_index.xml

File robots.txt cho Magento

User-agent: *Disallow: /index.php/Disallow: /*?Disallow: /checkout/Disallow: /app/Disallow: /lib/Disallow: /*.php$Disallow: /pkginfo/Disallow: /report/Disallow: /var/Disallow: /catalog/Disallow: /customer/Disallow: /sendfriend/Disallow: /review/Disallow: /*SID=

File robots.txt cho MODX CMS

User-agent: *Disallow: /*?id=Disallow: /assetsDisallow: /assets/cacheDisallow: /assets/componentsDisallow: /assets/docsDisallow: /assets/exportDisallow: /assets/importDisallow: /assets/modulesDisallow: /assets/pluginsDisallow: /assets/snippetsDisallow: /connectorsDisallow: /coreDisallow: /index.phpDisallow: /installDisallow: /managerDisallow: /profileDisallow: /search

Hy vọng bài viết sẽ cung cấp 1 lượng thông tin cần thiết và giúp ích cho nhiều người, không có cái gì làm hoàn hảo cả nên mọi người hãy điều chỉnh sao cho thích hợp với website của mình nhé.

Mọi ý kiến thắc mắc vui lòng liên hệ qua email info@truongcongthang.com để được tương trợ./

Xin cảm ơn.


0 nhận xét:

Post a Comment

Chăm sóc tóc

DUNG DỊCH TẮM GỘI KHÔ – PH
90.000₫
MẶT NẠ TÓC PHỤC HỒI HƯ TỔN PREMIUM REPAIR MASK 180G – TSUBAKI
225.000₫
BỒ KẾT HOA BƯỞI 300ML – NCT3
340.000₫
DẦU XẢ THẢO DƯỢC BỒ KẾT SẢ CHANH HOA BƯỞI 300ML – TRƯỜNG HƯNG THỊNH
100.000₫
DẦU GỘI THẢO DƯỢC BỒ KẾT SẢ CHANH HOA BƯỞI 300ML – TRƯỜNG HƯNG THỊNH
100.000₫
SERUM DƯỠNG TÓC HOA BƯỞI GIẢM GÃY RỤNG 50ML – POMELO
84.000₫

Quảng cáo

Nổi bật

Cài đặt Thanh Toán Google adsense bằng ngân hàng Vietcombank

Sau khi đã đủ điều kiện rút tiền từ Google Adsense thì bạn cần phải thêm hình thức thanh toán để Google trả tiền cho bạn.Khi kiếm tiền trên ...

a-ads

Máy tính Laptop

44.990.000đ
Laptop LG Gram 2022 17Z90Q-G.AH76A5 (Core-i7 1260P/16GB/512GB/17″ WQXGA/Win 11/Xám)
24.790.000đ
Laptop LG Gram 2021 16ZD90P-G.AX54A5 (i5-1135G7/8GB RAM/512GB SSD/16″WQXGA/Dos/Trắng)
14.590.000đ
Laptop Acer Gaming Aspire 7 A715-42G-R4ST NH.QAYSV.004 (R5 5500U/8GB RAM/256GB SSD/15.6″FHD IPS/GTX1650 4GB/Win10) – Hàng chính hãng
15.190.000đ
Laptop Acer Aspire 3 A315-58G-50S4 (Core i5 1135G7/8GB RAM/512GB/15.6″FHD/MX350 2GB/Win 10/Bạc)
21.990.000đ
Laptop Acer Swift 5 SF514-55TA-59N4 NX.A6SSV.001 (i5-1135G7/16GB RAM/1TB SSD/14″FHD_Touch/Win10/Xanh) – Hàng chính hãng
14.890.000đ
Laptop Acer Aspire 5 A514-54-59QK (Core i5 1135G7/8GB RAM/512GB/14″FHD/Win 11/Vàng)

Vay Online

Back Link

(x)
(x)
Day noi mi | Hoc noi mi | Noi mi dep | Trung tam day nghe toc | Day cat toc | Day nghe toc | Hoc cat toc | Hoc cat toc o Ha Noi | Hoc cat toc tai Ha Noi | Thuoc chua benh a sung
Dau goi Kafen | Dau xa Kafen | Giao trinh day cat toc | Mua ban rao vat | Dang rao vat | Dien dan rao vat | Rao vat mien phi | Trang rao vat