Czy powielona treść (duplicate content) utrudnia pozycjonowanie?

Dobra treść jest warunkiem skutecznego pozycjonowania

Powielona treść (ang. duplicate content, DC) była postrzegana jako problem istotny z perspektywy pozycjonowania  na długo przed pojawieniem się algorytmu Panda. Sposób traktowania takiej treści zmieniał się wraz z kolejnymi modyfikacjami algorytmu wyszukiwarki Google. Oto krótkie podsumowanie najważniejszych aspektów powielanej treści na podstawie wieloletnich doświadczeń branży…

Indeks uzupełniający

W pierwszych latach działania wyszukiwarki Google samo indeksowanie stron stanowiło najważniejsze wyzwanie obliczeniowe. Aby poradzić sobie z tym problemem, strony oceniane jako powielone lub cechujące się wyjątkowo niską jakością były umieszczane w dodatkowym indeksie określanym mianem indeksu uzupełniającego (ang. supplemental index). Tak kwalifikowane strony automatycznie były traktowane jak obywatele drugiej kategorii (w kontekście pozycjonowania) i jako takie traciły szansę skutecznego konkurowania o pozycje w wynikach wyszukiwania.

Mniej więcej pod koniec 2006 roku firma Google ponownie włączyła wyniki zapisane w indeksie uzupełniającym z indeksem głównym, jednak strony z indeksu uzupełniającego wciąż były filtrowane. W przypadku natrafienia na filtrowane wyniki wyszukiwarka Google każdorazowo informuje użytkownika w formie komunikatu poniżej wyników wyszukiwania. Komunikat mówi o pominięciu wyników bardzo zbliżonych do tych wyświetlonych.

Mimo że oba indeksy zostały połączone, wyniki z nieistniejącego już indeksu uzupełniającego wciąż były pomijane, co oczywiście miało zasadniczy wpływ na efekty pozycjonowania. W wielu przypadkach strony z tego indeksu rzeczywiście zawierały powieloną treść lub z innych powodów miały bardzo niską wartość – w takich przypadkach problem nie dotyczył właścicieli prawidłowo pozycjonowanych serwisów. Na tym nie kończył się jednak problem powielonej treści.

“Budżet” robota wyszukiwarki

W przypadku wyszukiwarki Google rozmowa o ograniczeniach jest zawsze utrudniona, ponieważ wszystkich interesują wartości bezwzględne, a te pozostają nieznane. Nie istnieje jeden, ściśle określony “budżet” robota wyszukiwarek rozumiany jako liczba stron analizowanych przez robota wyszukiwarki Google w ramach jednego serwisu. Okazuje się jednak, że istnieje punkt, w którym Google na jakiś czas rezygnuje z przeszukiwania serwisu, szczególnie jeśli kierujemy roboty wyszukiwarki na wyjątkowo kręte ścieżki.

O ile “budżet” robota nie jest ograniczony przez wartość bezwzględną (nawet dla pojedynczego serwisu), o tyle sam czas przeznaczany przez wyszukiwarkę na analizę naszej witryny można sprawdzić w Narzędziach dla webmasterów (wystarczy wybrać kolejno Diagnostyka Statystyki indeksowania).

Co stanie się, jeśli po napotkaniu wielu powielonych ścieżek i stron robot wyszukiwarki Google zrezygnuje z dalszej analizy? Strony, które chcielibyśmy umieścić w indeksie, nie zostaną nawet odnalezione. W najlepszym razie nie będą odwiedzane przez roboty tak często, jak sobie tego życzymy.

“Limit” indeksowania

Podobnie, nie istnieje z góry określony “limit” liczby stron jednego serwisu, które mogą się znaleźć w indeksie wyszukiwarki Google. Wydaje się jednak, że istnieje pewne dynamiczne ograniczenie zależne od autorytetu poszczególnych serwisów. Jeśli więc wykorzystujemy dostępną dla nas przestrzeń w indeksie bezwartościowymi, powielonymi stronami, siłą rzeczy wypychamy z tego indeksu ważniejsze, bardziej wartościowe strony. Jeśli na przykład nasz serwis obejmuje tysiące stron z lokalnymi wynikami wyszukiwania, Google może nie zaindeksować wszystkich ważnych stron z właściwymi produktami. Wielu właścicieli stron błędnie zakłada, że im więcej stron zostanie zaindeksowanych, tym lepiej. W wielu przypadkach prawdziwa jest raczej odwrotna zasada. Jeśli dwa serwisy mają podobną wartość, wyższą pozycję osiąga witryna z mniejszym, bardziej uporządkowanym indeksem.

Spór o kary

Na długo przed pojawieniem się osławionego algorytmu Panda co kilka miesięcy wybuchały spory o istnienie ewentualnej kary za powieloną treść. O ile kwestia ewentualnych kar jest warta rozważenia, same debaty nierzadko sprowadzały się do kwestii znaczeniowych – np. czy powielona treść powoduje lub nie kary przez duże “K”. O ile rozróżnienie na kary i filtry nie jest bez znaczenia, z perspektywy właściciela serwisu w obu przypadkach efekt jest ten sam. Jeśli strona ma niską pozycję w rankingu (lub nawet nie jest zaindeksowana) z powodu powielonej treści, mamy poważny problem (niezależnie od tego, jak go nazwiemy).

Zmiany spowodowane przez algorytm Panda

Od momentu wprowadzenia algorytmu Panda (w lutym 2011) w pewnych przypadkach skutki występowania w serwisie powielonych treści w pewnych przypadkach bywają dużo poważniejsze. W przeszłości powielona treść utrudniała indeksowanie samej treści. Strony z powieloną treścią trafiały do indeksu uzupełniającego lub były filtrowane. W większości sytuacji taka forma “karania” była w pełni uzasadniona. W skrajnych przypadkach ogromna ilość powielonej treści zaśmiecała indeks lub utrudniała działanie robotów, uniemożliwiając indeksowanie pozostałych stron witryny.

Algorytm Panda włączył kwestię powielonej treści do szerszego mechanizmu oceny jakości – problem powielonej treści może więc negatywnie wpływać na cały serwis. Wykrycie powielonej treści przez Pandę może spowodować, że nawet oryginalne, niepowielone strony stracą swoje pozycje, całkowicie wypadną z rankingu lub wręcz zostaną usunięte z indeksu. Oznacza to, że problem powielonej treści nie jest już problemem oderwanym od pozostałych aspektów pozycjonowania.

 

Mikołaj Szczepaniak