Cách Xử Lý Duplicate Content Do Filter / Sort – Giữ SEO Sạch & Tránh Mất Crawl Budget
1. Giới thiệu
Nếu website của bạn có tính năng lọc (filter) hoặc sắp xếp (sort) sản phẩm, ví dụ:
“Giá tăng dần / giảm dần”
“Màu sắc / kích thước / thương hiệu”
“Mới nhất / bán chạy nhất”
… thì khả năng cao bạn đang tạo ra hàng trăm URL khác nhau có nội dung gần như giống hệt nhau.
Đây chính là duplicate content — một trong những vấn đề SEO kỹ thuật phổ biến nhất với website thương mại điện tử, blog có bộ lọc, hay site listing.
Bài viết này, NaviWebsite sẽ hướng dẫn bạn cách phát hiện và xử lý triệt để duplicate do filter/sort, giúp Google index chính xác, tiết kiệm crawl budget và giữ thứ hạng ổn định.
2. Duplicate content do filter / sort là gì?
Ví dụ:
Trang gốc:
https://naviwebsite.vn/ao-thun
Các URL do filter/sort sinh ra:
https://naviwebsite.vn/ao-thun?color=red
https://naviwebsite.vn/ao-thun?size=m
https://naviwebsite.vn/ao-thun?sort=price_asc
https://naviwebsite.vn/ao-thun?color=red&sort=new
➡️ Về cơ bản, nội dung sản phẩm giống nhau, chỉ khác thứ tự hoặc một số bộ lọc nhỏ → Google có thể xem đây là trùng lặp nội dung (duplicate).
Nếu không kiểm soát, Google sẽ:
Crawl lặp đi lặp lại nhiều trang tương tự,
Không hiểu đâu là bản chính → index sai URL,
Giảm hiệu suất SEO toàn site.
3. Ảnh hưởng SEO khi không xử lý duplicate
❌ Mất link juice: link bị phân tán qua nhiều URL phụ.
❌ Giảm tốc độ index: bot lãng phí crawl budget.
❌ Sai canonical / keyword cannibalization: nhiều URL cùng cạnh tranh từ khóa.
❌ Nguy cơ bị Google giảm tín nhiệm: do “thin & duplicate content”.
4. Cách phát hiện duplicate do filter / sort
🔍 Công cụ phát hiện nhanh:
Google Search Console → Coverage / Indexing
→ Xem có URL chứa?sort=hoặc?filter=được index.Screaming Frog / Sitebulb:
→ Crawl website và lọc theo URL có tham số.Ahrefs / Semrush:
→ Kiểm tra duplicate content hoặc nhiều URL cùng title/description.
💡 Tip: Bạn có thể thêm site:domain.com inurl:?sort= vào Google để xem có URL nào bị index không.
5. Cách xử lý duplicate content do filter / sort
✅ Cách 1: Sử dụng Canonical URL
Đặt canonical về trang gốc trong tất cả các URL có filter hoặc sort.
<link rel="canonical" href="https://naviwebsite.vn/ao-thun">
→ Google hiểu trang gốc là bản chính và gộp tín hiệu SEO về đó.
📍Áp dụng cho:
Các filter chỉ thay đổi cách sắp xếp (sort, view mode, v.v.)
Bộ lọc không tạo nội dung thực sự khác biệt.
✅ Cách 2: Chặn crawl bằng Robots.txt
Nếu bạn không muốn Google crawl filter/sort URL:
User-agent: *
Disallow: /*?sort=
Disallow: /*?filter=
Disallow: /*?page_size=
→ Ngăn Googlebot truy cập, nhưng không ngăn index nếu có link nội bộ trỏ đến.
📍Kết hợp với canonical để đảm bảo an toàn.
✅ Cách 3: Dùng noindex, follow cho filter URL
Thêm thẻ meta:
<meta name="robots" content="noindex,follow">
→ Google không index trang đó, nhưng vẫn theo link nội bộ để giữ link juice.
📍Áp dụng cho:
Filter tạo ra nội dung không giá trị SEO,
Không thể chặn hoàn toàn bằng robots.txt.
✅ Cách 4: Dùng Google Search Console → Parameter Handling
Vào Legacy Tools → URL Parameters, thêm tham số như:
sort = sắp xếp nội dung -> No effect on page content
filter = lọc nội dung -> Narrow page content
→ Google sẽ tự động bỏ qua các tham số không ảnh hưởng nội dung thực tế.
⚠️ Lưu ý: Google dần giảm hỗ trợ phần này, nhưng vẫn hữu ích với site lớn (E-commerce, listing…).
✅ Cách 5: Giữ lại filter có giá trị SEO thực
Không phải mọi filter đều nên loại bỏ.
Ví dụ:
?color=redcó thể có volume tìm kiếm cao,?size=xlcó thể là từ khóa riêng biệt.
➡️ Trong trường hợp này, nên tạo landing page riêng cho filter quan trọng, ví dụ:
/ao-thun-mau-do/
/ao-thun-size-xl/
→ Viết nội dung mô tả riêng, tối ưu từ khóa, thêm Schema → giúp SEO tốt thay vì bị loại bỏ.
6. Chiến lược kết hợp an toàn & hiệu quả
Mục tiêu | Giải pháp |
|---|---|
Tránh duplicate | Canonical về trang chính |
Tối ưu crawl | Robots.txt chặn sort / filter không cần thiết |
Giữ traffic filter quan trọng | Tạo landing page SEO riêng |
Giữ link juice | Noindex, follow cho filter URL |
Tăng hiểu biết của Google | Dùng sitemap chuẩn + canonical nhất quán |
💡 Best practice:
Luôn giữ canonical nhất quán giữa HTML, sitemap & header.
Dùng rel="prev"/"next" cho phân trang (pagination) để hỗ trợ cấu trúc logic.
7. Kiểm tra kết quả sau khi xử lý
Google Search Console → Inspect URL để kiểm tra canonical.
Coverage report: xác nhận filter/sort URL không còn index.
Crawl stats report: theo dõi crawl budget giảm, tập trung về các trang chính.
PageSpeed Insights: tốc độ tăng lên sau khi giảm lượng URL trùng lặp.
8. Kết luận
Duplicate content do filter / sort là “kẻ giết thầm lặng” của SEO kỹ thuật – không nhìn thấy ngay, nhưng làm giảm hiệu suất toàn site.
Giải pháp đúng là phân loại – canonical – chặn crawl hợp lý, giúp Google tập trung vào nội dung thật sự có giá trị.
👉 NaviWebsite chuyên tối ưu cấu trúc URL, canonical & xử lý duplicate content, giúp website thương mại điện tử đạt hiệu quả SEO bền vững và sạch kỹ thuật.
