Trong lĩnh vực SEO, kiến thức là vô hạn. Nếu chúng ta nắm bắt được nó, chúng ta sẽ dành phần thắng. Google hoạt động dựa trên các thuật toán, vì vậy mọi thứ đều sẽ có quy luật. Hôm nay chúng ta sẽ cùng nhau tìm hiểu về khái niệm Duplicate Content và cách thức để khắc phục vấn đề này nhé.
Mục lục
Khái niệm Duplicate Content là gì?
“Duplicate” dịch theo nghĩa tiếng Việt là sự sao chép, trùng lặp, giống nhau. Như vậy, chúng ta có thể hiểu ý nghĩa đơn thuần của “Duplicate content” là sự trùng lặp về nội dung.
Theo định nghĩa của google thì: “Nội dung trùng lặp thường đề cập tới các khối nội dung thực trong một hoặc nhiều tên miền, hoàn toàn khớp hoặc giống với nội dung khác”
Sự trùng lặp này có thể diễn ra theo 2 chiều hướng
- Ở ngay chính các bài viết trên trang web của bạn
- Hoặc bài viết của bạn trùng lặp với các bài viết ở website khác
Có thể lấy ví dụ đơn giản như: Với 2 trang web concobayla.com và concobebe.vn, cùng viết về con cò, nhưng nội dung lại giống nhau y hệt. Dù là vô tình hay cố ý thì google cũng coi đó là sự sao chép. Và rất khó để có thể đánh giá cao các trang web bị trùng lặp.
Ảnh hưởng của Duplicate Content trong SEO
Sau khi làm rõ được Duplicate Content là gì thì chắc hẳn bạn cũng đã phần nào mường tượng được ảnh hưởng của nó. Có thể khẳng định luôn, đây là ảnh hưởng xấu, thậm chí rất xấu.
Đối với chính trang web
Trong giới làm SEO vẫn thường truyền tai nhau là “Content is King”. Nghĩa là content sẽ quyết định vận mệnh của bài viết. Trang web có giữ chân được người dùng hay không? Có lượng truy cập cao hay không? Tất cả đều nhờ vào nội dung.
Khi bài viết được SEO lên top, điều đó sẽ làm tăng khả năng tiếp cận khách hàng, và đây là mục đích hướng tới của hầu hết những người làm nội dung.
Việc xếp hạng các trang web của google dựa trên các thuật toán. Mỗi ngày, google phải giải quyết hàng triệu những nội dung khác nhau. Sự giống nhau giữa các nội dung khiến google gặp khó khăn. Công cụ này sẽ không biết phải xếp hạng những nội dung này ra sao.
Mặt khác, điều này cũng liên quan đến việc sàng lọc nội dung, các bài viết trùng lặp có khả năng sẽ không được index, giúp google tiết kiệm được tài nguyên. Việc có quá nhiều kết quả tìm kiếm, sẽ khiến bộ máy của google trở nên nặng nề hơn, ảnh hưởng tới tốc độ hiển thị của kết quả. Vì vậy, không có lý gì mà google lại phải lưu trữ những kết quả trùng lặp.
Không những thế, google thường quan tâm tới trải nghiệm người dùng hơn là cảm nhận của người sở hữu trang web. Thật không hay ho gì khi mà 10 kết quả top đầu lại là 10 nội dung giống nhau.
Dạo gần đây, google có vẻ đang khắt khe hơn trong việc quản lý nội dung, nếu bạn vẫn cứng đầu sử dụng các nội dung trùng lặp, rất có thể bạn sẽ bị đá đít ra khỏi top 10. Thậm chí, là ra khỏi kết quả tìm kiếm.
Trong trường hợp tệ hơn, gã khổng lồ này có thể đưa bạn vào bộ lọc Sandbox và rất khó để bạn có thể quay trở về thời hoàng kim.
Một khi đã dính phải hình phạt, đừng tưởng chỉ cần xóa duplicate content đi là xong nhé, google là một gã thù dai, hắn có thể khiến bạn biến mất trong nhiều tháng tiếp theo đấy.
Biết sao được, đây là sân chơi của google, và nghĩa vụ của bạn là tuân thủ luật chơi của nó.
Đối với người dùng
Chính bản thân chúng ta hay bất cứ ai, mỗi ngày đều đang vào vai người dùng. Google là bộ máy tìm kiếm lớn nhất, chúng ta tìm kiếm mọi thứ ở đó, từ công thức nấu ăn, cho tới khoa học vũ trụ,…
Và chắc chắn, ai cũng đều hy vọng sẽ đọc được những thông tin thú vị, mới mẻ. Thật đáng tức giận nếu bạn truy cập 10 trang web khác nhau nhưng nội dung lại như một.
Chính vì thế, nghĩa vụ của Google và của chính những người làm nội dung là phải làm thế nào mang lại những content chất lượng, độc lạ, thì khi đó mới có thể giữ chân được người dùng.
Các loại Duplicate Content
Dựa vào vị trí các bài viết trùng lặp, có thể phân loại duplicate content thành 2 loại chính là Duplicate onpage và Duplicate offpage
Duplicate onpage
Bên cạnh việc đơn thuần các bài viết trùng lặp nhau về nội dung vì sự đãng trí của bạn thì đôi khi sự trùng lặp cũng vô tình xảy ra do nhiều nguyên nhân về mặt kỹ thuật.
- www- non www hoặc http- https: Thông thường, với một địa chỉ web, khi truy cập, nó sẽ tự động chuyển hướng thành www.vietbaixuyenviet.com, nhưng có những trường hợp bạn có thể truy cập được cả vietbaixuyenviet.com và www.vietbaixuyenviet.com. Google lại đánh giá đây là trùng lặp, trong khi www chỉ là subdomain cho vietbaixuyenviet.com mà thôi. Và tương tự với http- https cũng vậy
- Trong một số trang web, thường có nhiều danh mục và được chia thành nhiều trang để rút gọn hiển thị. Điều này khiến chúng bị lặp tiêu đề hay thẻ meta và nếu xử lý không khéo, nó cũng bị google coi là duplicate content
- Cách biến thế URL khác: Các cỗ máy tìm kiếm thường có xu hướng hoạt động tối ưu, đi theo mọi liên kết để tìm kết quả. Vì vậy, đôi khi trong lúc copy đường dẫn, bạn chỉ cần copy thiếu một chữ thôi mà kết quả vẫn cho về 1 nội dung thì khi đó, xem như bạn bị trùng lặp nội dung
Duplicate offpage
Loại trùng lặp này chủ yếu xuất phát từ nội dung
- Trùng lặp biểu mẫu sản phẩm: Sở dĩ xảy ra vấn đề này là do các trang thương mại điện tử, khi đăng bán sản phẩm thường dùng luôn phần mô tả mặt hàng của nhà sản xuất. Điều này xuất hiện ở nhiều trang web sẽ tạo ra nội dung trùng lặp.
- Cố tình sao chép nội dung: Nhiều trang web nghèo nàn về nội dung đã xây dựng website của mình bằng cách copy content của người khác về web. Kể cả khi bạn có ghi nguồn sao chép, nhưng google vẫn sẽ xem đó là trùng lặp.
Cách kiểm tra trùng lặp Content
Không phải lúc nào chúng ta cũng tự mình kiểm soát được mọi vấn đề xảy ra ở trang web của mình. Nhất là khi, bạn không tự mình thực hiện nội dung, mà thuê một người khác. Lúc này, các tools sẽ là công cụ trợ giúp hữu ích.
Đối với duplicate onpage:
- Công cụ Siteliner: Đây là một công cụ khá ổn định để kiểm tra nội dung trùng lặp trên chính trang web của bạn. Và điều tuyệt vời là nó hoàn toàn miễn phí
Công cụ này có giao diện khá dễ dùng, bạn chỉ cần copy URL trang web của bạn vào, trong vài giây, siteliner sẽ cho ra kết quả khá chi tiết.
- Công cụ Google Search Console: Đây là công cụ do chính google cung cấp cho người dùng. Thông thường, google sẽ tỏ ra là một gã khá tốt bụng khi tự động thông báo cho bạn nếu xảy ra vấn đề về trùng lặp
Đối với duplicate offpage:
Có rất nhiều các công cụ miễn phí để kiểm tra trùng lặp, đa số đều rất dễ cho bạn sử dụng. Dưới đây là top 10 công cụ đáng tin cậy mà bạn có thể lựa chọn:
- smallseotools.com
- copyscape.com
- plagium.com
- duplichecker.com
- dmca.com
- copygator.com
- plagiarisma.net
- plagspotter.com
- dustball.com
- articlechecker.com
Cách khắc phục tình trạng Duplicate Content
Bởi vì nội dung trùng lặp là một vấn đề khá nghiêm trọng đối với SEO. Mà bất kì vấn đề nào xảy ra dù do lỗi chủ quan hay khách quan thì cũng đều sẽ có cách giải quyết của nó. Chỉ là bạn có chịu sửa lỗi hay không thôi.
Sau đây sẽ là một số cách đơn giản cho bạn.
Sử dụng chuyển hướng 301
Nếu bạn có 2 bài viết trùng lặp, mà vô tình cả 2 bài viết đó có traffic khá cao, bạn tiếc, bạn không muốn xóa đi một trong hai, thì bạn có thể dùng cách này.
Tín hiệu 301 sẽ được gửi tới google, để thông báo cho họ biết đâu là trang web chính xác và cần được xếp hạng.
Cách này cũng hữu dụng đối với lỗi www- non www hoặc http-https
Sử dụng thẻ rel= “next, prev, canonical”
Về cách này, chúng tôi sẽ không giải thích dài dòng nữa mà sẽ trực tiếp đi vào ví dụ để bạn dễ hiểu
Ví dụ: Nếu bạn có một url cho trang 1 là: concobayla.com/abc/page1; url của trang 2 là concobayla.com/abc/page2,… Thì các thẻ rel lần lượt như sau:
- Trang 1: <link rel=”next” href=”https://concobayla.com/abc/page2″ />
- Trang 2: <link rel=”prev” href=”https://concobayla.com/abc” /> và <link rel=”next” href=”https://concobayla.com/abc/page3″ />
Nói đơn giản thì các trang đó nên có thêm canonical với url của nó.
Kiểm soát nội dung
Không có cách nào đơn giản và hiệu quả hơn là chính bản thân bạn phải kiểm soát nội dung của mình. Nếu bài Content SEO của bạn trùng lặp trên 40% thì đã đủ để đặt nó vào vòng nguy hiểm rồi.
Không chỉ là vấn đề về SEO, mà một nội dung độc lạ bao giờ cũng sẽ thu hút người dùng hơn cả.
Ở đây, tôi không ép bạn phải sáng tạo hoàn toàn nội dung, nhưng bạn có thể xào nấu nội dung của người khác theo cách diễn đạt của mình.
Bảo vệ nội dung của mình
Nếu bạn phát hiện ra trang web khác đánh cắp bài viết của bạn, thì đừng ngần ngại liên hệ với google để đòi quyền lợi cho mình và khẳng định với họ, đâu là bản gốc. Việc này có thể sẽ mất khá nhiều thời gian, nhưng ít ra bạn có cố gắng.
Sử dụng thẻ thuộc tính rel= canonical
Đôi khi bạn chỉ có ý định trích dẫn nội dung của trang web khác để làm sinh động thêm bài viết của mình. Nhưng bộ máy của google lại đánh giá đó là hành vi sao chép.
Hãy thanh minh với họ bằng cách sử dụng thẻ rel= canonical để chuyển tất cả các quyền về url được chỉ định mà bạn mượn nội dung từ đó. Công cụ của google sẽ nhận ra rằng, bạn chỉ sử dụng chúng để tham khảo mà không hề ăn cắp.
Như vậy, hôm nay Viết Bài Xuyên Việt đã trả lời chi tiết nhất câu hỏi Duplicate content là gì. Hy vọng, qua bài viết này bạn sẽ phần nào nắm rõ hơn các quy định để SEO bài viết của mình lên top. Chúc các bạn thành công!
Bạn có thể tham khảo dịch vụ viết bài SEO của chúng tôi để được tư vấn thêm về lỗi trùng lặp nội dung.