search top nagłówek

Rozwiązywanie problemów z indeksowaniem strony w Google

Jeżeli masz trudności z indeksacją strony internetowej, w tym artykule przedstawię wskazówki, które pozwolą zdiagnozować i wyeliminować problemy z indeksowaniem. Czynniki jakościowe wpływające negatywnie lub pozytywnie na proces indeksowania zostaną omówione w odrębnym artykule.

Przeczytaj: Indeksowanie stron w Google – czynniki jakościowe (artykuł w przygotowaniu)

1. Sprawdzenie stanu indeksacji

W pierwszej kolejności musisz sprawdzić aktualny stan indeksacji strony. Przejdź do wyszukiwarki Google i wpisz:

site:adrestwojejstrony.pl

Użycie jednego z zaawansowanych operatorów wyszukiwania pozwoli zwrócić wyniki w obrębie danej domeny. Na co trzeba zwrócić szczególną uwagę?

2. Dostęp do strony zablokowany przez robots.txt

Podstawową czynnością jest sprawdzenie, czy którykolwiek z wyników wyszukiwania w obrębie analizowanej domeny posiada w opisie wyniku…

Opis tego wyniku jest niedostępny z powodu robots.txt

Jeżeli powyższa informacja pojawia się pod niektórymi wynikami wyszukiwania, nie należy wpadać w panikę, albowiem część podstron na stronie celowo może zostać zablokowana przed dostępem robota Google, na przykład w celu unikania Duplicate Content, choć metoda z wykorzystaniem pliku robots jest najgorszym sposobem radzenia sobie z problemem DC. Temat Duplicate Content omawiam szczegółowo w artykule: Duplicate Content w sklepach internetowych od A do Z (artykuł w przygotowaniu).

Jeżeli w wynikach wyszukiwania widzisz powyższy opis przyporządkowany do strony głównej (całej domeny), musisz koniecznie sprawdzić zawartość pliku robots.txt. Jeżeli znajdziesz w nim tego typu zapis:

User-agent: *
Disallow: /

lub

User-agent: Googlebot
Disallow: /

Witryna jest blokowana przed dostępem robota indeksującego, w pierwszym przypadku blokada dotyczy wszystkich robotów odwiedzający witrynę (które respektują zapisy w robots.txt), w drugim – dotyczy wyłącznie robota Google.

Aby odblokować witrynę musisz podjąć interwencję, usuwając z dyrektywy Disallow prawy ukośnik (slash) lub zastąpić dyrektywę inną – Allow.

Warto w tym miejscu dodać, że blokowanie na poziomie pliku robots nie jest tożsame z zabezpieczeniem strony przed pojawieniem się w indeksie. Dodatkowo blokada na poziomie robots to tylko wskazówki dla robota indeksującego, mogą w ogóle nie zostać uwzględnione, dla przykładu, Google może zindeksować zablokowany URL, jeżeli na innych witrynach w sieci istnieją linki prowadzące do niego, dlatego sprawdzając stopień indeksowana witryny widzimy pod wynikami Opis tego wyniku jest niedostępny z powodu robots.txt. Aby zabezpieczyć URL przed wyświetleniem w indeksie, użyj innych metod (NoIndex, X-Robots-Tag).

3. Sprawdzenie robots.txt – dodatkowe uwagi

Diagnozując plik robots.txt należy dodatkowo zwrócić uwagę na:

Kod odpowiedzi serwera przy dostępie do pliku

Ważne jest, aby sprawdzenia dokonać z poziomu User-Agent robota Google. Możesz zrobić to z zewnątrz dostępnymi narzędziami, na przykład debugerem Fiddler, bezpośrednio przez przeglądarkę z wykorzystaniem dodatków podmieniających UA oraz pokazujących status odpowiedzi serwera, możesz również zdiagnozować problem poprzez Tester pliku robots.txt znajdujący się w Google Search Console [Przejdź do narzędzia]. Jeżeli kod odpowiedzi jest różny od 200 lub 304 Not Modified, należy wykonać pełną diagnostykę z wykorzystaniem dodatkowych narzędzi.

Kodowanie pliku TXT

Według dokumentacji Google plik robots.txt powinno się zapisać w standardzie ASCII lub UTF-8. Warto w tym miejscu zwrócić uwagę na pewien drobny, aczkolwiek istotny detal, mianowicie plik powinien być zapisany w standardzie bez BOM. Poniżej widok Testera pliku robots.txt dla pliku UTF-8 z BOM:

Test dla pliku robots w formacie UTF-8 BOM
Test robots.txt dla pliku zapisanego w formacie UTF-8 z BOM

Co to jest BOM? Byte Order Mark (w skrócie BOM) to nagłówek dołączany do zapisanego pliku TXT w postaci trzech znaków o wartościach EF BB BF. Jeżeli tego typu nagłówek zostanie dołączony, może w niektórych przypadkach spowodować nieprawidłowe funkcjonowanie początkowych reguł zawartych w pliku. Dla spokoju duszy i ciała zawsze po wgraniu nowego robots, należy pobrać go ręcznie i sprawdzić, czy nie ma informacji o błędach. W razie wykrycia BOM, musisz zmodyfikować plik na przykład w Notepad++ przy wykorzystaniu opcji Format => Koduj w UTF-8 (bez BOM), po czym zapisać i podmienić plik na serwerze. Pamiętaj! Po wgraniu nowej wersji pliku, każdorazowo używaj Testera.

Wielkość liter w URL

Google rozróżnia adresy URL pisane z wielkiej i małej litery, dlatego jeśli blokujesz określoną część strony, zweryfikuj poprawność adresu poprzez Tester robots.txt. Poniżej przykładowy test dla adresów wewnętrznej wyszukiwarki search oraz Search.

Test blokowania robots.txt - URL z małej litery
Test robots.txt dla adresu pisanego z małej litery

Widzimy, że dla adresu pisanego z małej litery reguła blokowania zostaje zastosowana, w przypadku adresu pisanego z wielkiej litery już nie.

Test blokowania robots.txt - URL z wielkiej litery
Test robots.txt dla adresu pisanego z wielkiej litery

Dodatkowe informacje związane z dobrymi praktykami związanymi z robots.txt znajdziesz w dokumentacji Google.

Weryfikacja metatagu robots

Kolejnym krokiem, który należy uczynić jest wyświetlenie kodu strony oraz zweryfikowanie tagu robots. Poniżej wygląd metatagu z dyrektywą noindex:

<meta name="robots" content="noindex"/>

Możesz również spotkać poniższy zapis:

<meta name="googlebot" content="noindex">

Pierwszy ma zastosowanie dla większości robotów indeksujących, drugi dotyczy wyłącznie robota Google.

Jaka jest różnica pomiędzy NoIndex a robots.txt

Różnica jest subtelna, jak wspomniano wcześniej, jeżeli Google znajdzie blokowany adres URL na innej witrynie i tak może go zindeksować i umieścić w wynikach wyszukiwania, mimo zastosowania blokady w robots, natomiast zastosowanie tagu noindex spowoduje, że adres URL w ogóle nie zostanie wyświetlony w wynikach Google.

Uwaga! Jeśli chcesz blokować podstrony za pomocą tagu noindex nie używaj jednocześnie do tego robots.txt – aby „zobaczyć” noindex, robot musi odwiedzić stronę, pobrać zawartość i ją przetworzyć, w przypadku blokady na poziomie robots, noindex nigdy nie zostanie uwzględnione.

Weryfikacja nagłówka HTTP

Tag noindex może być zaimplementowany na poziomie serwera. Aby sprawdzić czy strona nie jest blokowana tą metodą można użyć dowolnego debugera, zmienić User-Agent na GoogleBot Crawler, następnie z poziomu przeglądarki otworzyć wybrany adres URL.

X Robots Tag noindex
Nagłówek odpowiedzi dla X-Robots-Tag: noindex

Na liście odszukaj żądany adres i wyświetl nagłówek odpowiedzi. Jeśli znajdziesz w nagłówku X-Robots-Tag: noindex – sprawa jest jasna, usunięcie implementacji pozwoli rozwiązać problem. Przed usunięciem dokładnie zbadaj sprawę, albowiem niektóre pliki np. PDF z kopią strony „do druku” standardowo nie powinny być indeksowane. Więcej o unikaniu Duplicate Content przeczytasz w innym artykule.

Priorytetyzacja blokady indeksowania

Które z metod blokowania są ważniejsze od innych? Poniżej znajdziesz listę według priorytetu…

  1. Google Search Console – blokada indeksowania przesłana do Google za pośrednictwem narzędzia, można ją odwołać z poziomu Search Console lub wskutek wygaśnięcia blokady, zazwyczaj do 90 dni od założenia blokady, chyba że prośba o wyindeksowanie zostanie przesłana, przy obecności w kodzie strony tagu noindex, wówczas wyindeksowanie jest permanentne (oczywiście da się przywrócić do indeksu stronę, która została w ten sposób wyindeksowana).
  2. Robots.txt – gdy robot odwiedza Twoją stronę, wpierw sprawdza plik czy ma zezwolenie na indeksowanie. Co ciekawe w przypadku robota Google, plik robots nie jest pobierany i aktualizowany przy każdej wizycie, dlatego modyfikując plik pamiętaj, aby poprzez Tester robots.txt przesłać do Google najnowszą jego wersję. Tylko wtedy będzie pewność, że najnowsze zmiany zostaną zastosowane już od kolejnej wizyty robota na stronie. Więcej informacji o procedurze przesyłania znajdziesz tutaj.
  3. Tag noindex w nagłówku odpowiedzi HTTP (X-Robots-Tag) – należy użyć dowolnego debugera, który przy dostępie do danego adresu URL wyświetli nagłówek odpowiedzi. W nagłówku szukaj dyrektywy X-Robots-Tag: noindex.
  4. Tag noindex w kodzie witryny – aby robot mógł pobrać zawartości kodu, nie może być blokady w robots.txt.

Pytania i odpowiedzi

W tej sekcji artykułu znajdziesz najczęstsze pytania i odpowiedzi dotyczące indeksowania strony internetowej. Jeśli nie znalazłeś odpowiedzi na swoje pytanie, zapytaj w komentarzu lub skontaktuj się ze mną poprzez formularz lub e-mail.

Jak często Google indeksuje strony?

Częstotliwość odwiedzin robota Google uzależniona jest od wielu czynników, do najważniejszych należą:

  • Jakość strony – przejrzysta struktura, dodatkowe elementy ułatwiające poruszanie się robota po stronie, jakość i unikalność treści, brak błędów, minimalizacja przekierowań, błędy certyfikatów oraz inne czynniki techniczne.
  • Infrastruktura serwerowa (jakość hostingu) – pozorne błędy 404, dużo błędów HTTP 500, długi czas odpowiedzi serwera, otoczenie.
  • Stopień podlinkowania strony oraz typ i jakość linków przychodzących.
  • Częstotliwość publikacji – czym częściej pojawia się nowa treść na stronie, tym częstotliwość odwiedzin i szansa na szybkie indeksowanie rośnie, pod warunkiem zachowania przejrzystej struktury strony i wyeliminowania błędów indeksowania.
  • Ustawienia szybkości indeksowania w Google Search Console.

Szczegółowe informacje na temat błędów indeksowania oraz statystyki indeksowania znajdziesz w Google Search Console, sekcja Indeksowanie.

Jak sprawdzić liczbę zaindeksowanych stron w Google?

Liczbę zindeksowanych stron możesz sprawdzić przy pomocy operatora site, patrz punkt pierwszy o sprawdzaniu stanu indeksacji. Jednak, jeżeli chcesz mieć dokładniejsze wyniki, należy wykorzystać raport o stanie indeksowania w Google Search Console.

Zaindeksowano łącznie - Raport
Raport stan indeksowania w Google Search Console

Aby poznać szczegóły, zaloguj się do konsoli Google i przejdź do: Indeks Google => Stan indeksowania. Więcej informacji znajdziesz również w sekcji: Indeksowanie => Mapy witryn.

Po jakim czasie Google indeksuje stronę?

Jeżeli strona nie ma kary od Google, pojawi się w indeksie od kilku minut do kilku dni, od złożenia prośby o zindeksowanie. W przypadku zgłoszenia ręcznego, pierwsze wyniki mogą pojawić się już w kilka minut od przesłania prośby, natomiast w przypadku użycia innych metod, czas może wydłużyć się do kilku dni.

Zwróć jednak uwagę, że Google unika indeksowania niskiej jakości stron lub kopii witryn. Podobnie jest w przypadku, gdy czas odpowiedzi serwera jest długi. Więcej o czynnikach jakościowych przeczytasz w oddzielnym artykule.

Czy funkcja Pobierz jako Google działa dla subdomen?

Tak, możesz tej funkcji używać również dla podstron dostępnych w danej subdomenie, jednakże uprzednio subdomenę musisz dodać do Google Search Console i ją pomyślnie zweryfikować.

Mariusz Kołacz

Marketingiem internetowym zajmuje się od 2008 roku, a informatyką i nowymi technologiami od ponad 15 lat. Tworzę narzędzia marketingowe, piszę teksty, a po godzinach lubię przeczytać dobrą książkę z zakresu medycyny lub parapsychologii. Dowiedz się, jak możesz rozwinąć swój biznes korzystając z SEO, SEM, Social Media oraz automatyzacji marketingu.