Tóm tắt 10 giây: Robots.txt = “chỉ đường cho bot đi/không đi” (kiểm soát crawl). Sitemap.xml = “danh sách URL bạn muốn Google ưu tiên” (gợi ý crawl + khám phá). Còn noindex mới là thứ để “đừng index trang này”.

“Khi nào dùng cái nào?” – checklist ra quyết định (cực thực dụng)
- Dùng Robots.txt khi bạn muốn giảm crawl rác (URL filter, query param, trang hệ thống), hoặc chặn bot truy cập một số đường dẫn không cần crawl.
- Dùng Sitemap.xml khi bạn muốn Google tìm & ưu tiên các trang quan trọng (bài viết, danh mục, trang dịch vụ, sản phẩm…) và theo dõi lỗi “Submitted URL…”.
- Dùng noindex khi bạn muốn trang không xuất hiện trên kết quả tìm kiếm (landing mỏng, trang cảm ơn, trang lọc, trang tag rác…).
Rule of thumb (chuẩn WP 2025): nếu mục tiêu là “đừng index” → noindex. Nếu mục tiêu là “đừng tốn tài nguyên crawl” → robots.txt. Nếu mục tiêu là “đây là URL chuẩn mình muốn bot ghé” → sitemap.xml.
Robots.txt khác Sitemap.xml ở bản chất như thế nào?
Robots.txt = kiểm soát CRAWL (bot có được vào hay không)
Robots.txt là file nằm ở /robots.txt (root domain). Nó nói với bot: khu vực nào được phép crawl, khu vực nào không. Google dùng robots.txt để quản lý crawl traffic và xử lý một số trường hợp tài nguyên (ảnh/video/audio) trong Search, nhưng robots.txt không phải “nút xoá index” thần thánh cho mọi URL.
Hiểu đúng một câu: Disallow ≠ Noindex. Chặn crawl không đồng nghĩa chặn index (nhất là khi URL vẫn được liên kết từ nơi khác).
Sitemap.xml = danh sách URL bạn muốn Google chú ý
Sitemap là file liệt kê URL quan trọng, có thể kèm metadata (lastmod, hreflang, video…). Google đọc sitemap để crawl hiệu quả hơn và hiểu “URL nào bạn xem là quan trọng”. Trên WordPress, bạn thường gặp:
- Core WP sitemap:
/wp-sitemap.xml(từ WP 5.5+) - Plugin sitemap (Yoast/RankMath…): thường là
/sitemap_index.xml
Thiết lập “đúng kiểu WordPress 2025” (để tránh tự bắn vào chân)
Sitemap cho WordPress: nên dùng loại nào?
Nếu site nhỏ-vừa (blog/portfolio/dịch vụ): core WP sitemap /wp-sitemap.xml thường đủ dùng.
Nếu site lớn / có nhiều taxonomy / WooCommerce: plugin sitemap thường tiện hơn (tách index, video/news sitemap, lọc loại URL, kiểm soát taxonomy/tag…).
Mẹo nhanh: chỉ chọn 1 hệ sitemap chính để submit lên Google Search Console (đừng submit cả wp-sitemap.xml lẫn sitemap_index.xml nếu chúng trùng nội dung quá nhiều, dễ loãng tín hiệu & khó debug).
Robots.txt cho WordPress: chặn gì là “hợp lý”?
Với WP, phần “an toàn & thường gặp” là chặn khu vực hệ thống như /wp-admin/ (nhưng vẫn allow admin-ajax). Tránh chặn bừa /wp-content/ vì có thể làm Google không crawl được CSS/JS/ảnh (đôi khi khiến render kém).
User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
# Hint sitemap (khuyến nghị)
Sitemap: https://example.com/sitemap_index.xml
Nếu bạn muốn tối ưu “crawl budget”, thường phải xử lý thêm: trang lọc (filter), URL có query param, trang tìm kiếm nội bộ, tag mỏng… nhưng nhớ: chặn crawl chỉ là 1 nửa câu chuyện. Nửa còn lại là internal link + cấu trúc site, để bot đi đúng đường.
Bạn có thể tham khảo cách mình đi internal link theo cụm chủ đề tại đây: Cách đi internal link theo Topic Cluster.
6 sai lầm phổ biến khiến “càng làm càng tệ”
- Chặn crawl rồi lại mong Google drop index ngay: robots.txt không phải nút “xoá index” cho mọi trường hợp.
- Noindex nhưng lại chặn robots.txt: Google không crawl được trang để thấy noindex → dễ sinh lỗi kiểu “blocked by robots.txt”.
- Nhét URL rác vào sitemap: tag mỏng, filter, trang trùng lặp… khiến sitemap phình và giảm chất lượng.
- Submit quá nhiều sitemap trùng nhau: vừa dư thừa vừa khó kiểm tra lỗi.
- Chặn CSS/JS vô tình: site render kém, đánh giá chất lượng trang có thể bị ảnh hưởng.
- Không kiểm tra bằng Search Console: làm xong để đó là cách nhanh nhất để “không biết mình sai ở đâu”.
Playbook debug (đúng cái bạn sẽ gặp ngoài đời)
Case A: “Indexed, though blocked by robots.txt”
Nếu bạn thấy kiểu cảnh báo liên quan robots.txt, hãy tự hỏi: mình đang muốn không index hay chỉ muốn không crawl?
- Nếu mục tiêu là không index → bỏ chặn robots với URL đó, gắn noindex (meta hoặc header), rồi để Google crawl lại.
- Nếu mục tiêu là không crawl nhưng vẫn “lỡ index” → cân nhắc phương án phù hợp: noindex (nếu muốn biến mất khỏi SERP) hoặc giữ robots (nếu chỉ muốn giảm crawl).
Case B: “Submitted URL marked ‘noindex’”
Nghĩa là bạn đã đưa URL vào sitemap nhưng lại đang noindex nó (hoặc bị plugin/setting gắn noindex). Việc cần làm là chọn 1 trong 2:
- Muốn index → bỏ noindex, rồi giữ URL trong sitemap.
- Không muốn index → giữ noindex, và loại URL khỏi sitemap để sitemap sạch.
Case C: Sitemap “couldn’t fetch / has errors”
Kiểm tra nhanh: sitemap có trả về HTTP 200 không? có bị cache/plugin security chặn không? có redirect vòng không? Và nhớ: trên WP đôi khi bạn có 2 sitemap (core + plugin) gây nhầm lẫn.

Best practice tối ưu (mình hay dùng khi audit WP)
- Sitemap sạch: chỉ chứa URL bạn thật sự muốn index (trang dịch vụ, bài pillar, danh mục mạnh, sản phẩm chủ lực…).
- Robots “đủ dùng”: chặn khu vực hệ thống + các khu vực tạo crawl rác (nếu bạn chắc nó không cần cho SEO).
- Internal link dẫn bot đi đúng: bot đi theo link nhanh hơn bạn tưởng. Nếu cấu trúc site rối, sitemap cũng khó cứu.
- Entity + cấu trúc nội dung: làm cho Google hiểu site bạn “về cái gì”, ưu tiên crawl/index nội dung quan trọng nhanh hơn.
Nếu bạn đang xây content theo hướng bền vững 2025, bạn có thể đọc thêm: Chiến lược Content SEO 2025 và 6 bước triển khai Entity SEO.
Muốn mình check nhanh Robots + Sitemap (để ra lỗi ở đâu và sửa gì trước)?
Thực tế, đa số site WP không “thiếu sitemap”, mà bị: sitemap bẩn, noindex sai chỗ, robots chặn nhầm, hoặc internal link khiến bot bị lạc.
Nếu bạn muốn mình audit nhanh (dễ hiểu, có checklist ưu tiên, tập trung chuyển đổi lead):
- Soát sitemap: URL nào nên giữ / nên loại
- Soát robots: chặn gì để giảm crawl rác mà không phá render
- Gợi ý cấu trúc internal link để index đều & lên top bền
Xem portfolio & liên hệ tại: iamtruong.site (bạn cũng có thể đọc thêm cách mình làm việc qua bài: “Mình đã phỏng vấn Content SEO như thế nào?”).
External links tham khảo
- Google Search Central: Robots.txt Introduction
- Google Search Central: What is a Sitemap?
- Google Search Central: Build & submit a sitemap
- Google Search Central: Block indexing with noindex
- WordPress Developer Resources: WP_Sitemaps
- Search Console Help: Sitemaps report
- Search Console Help: robots.txt report
- Sitemaps Protocol (schema)