Crawler – to właśnie o niego wciąż się rozchodzi. Niezależnie od tego, jak go nazywamy; pająkiem, botem, czy pełzaczem, jest to słynny robot wyszukiwarki. Zgłębiając wiedzę o marketingu internetowym, słyszymy o nim wszędzie. Więc omówmy rolę crawlerów w zarówno w sieci, jak i w SEO.
Czym jest crawler – definicja robotów wyszukiwarki
Crawler – w polskim tłumaczeniu jest gąsienicą, ale nazywany jest również pełzaczem, pająkiem, botem. Robot indeksujący, to złożony program wyszukiwarki internetowej, który działa na zasadzie określonych algorytmów oraz schematów na podstawie protokołu HTTP i HTTPS. Został stworzony w celu zbierania informacji niezbędnych, do oceny przydatności witryn internetowych oraz ich indeksowania i przekazywania wyszukiwarce.
Dzięki funkcjonowaniu robotów możliwe jest prawidłowe działanie wyszukiwarek internetowych, takich jak Google czy Bing. Wykonują szereg działań, aby zapewnić dobrą widoczność, sprawne działanie techniczne, a także umożliwiają analizę SEO witryn i tym samym ich konkurencyjność. Ten zaawansowany program, a raczej szereg programów zapewnia wyszukiwarkom regularne i aktualne dane, które są podstawą ich funkcjonowania.
Jak działają crawlery? – ich role i zadania
Crawlery rozpoczynają swoje działanie od zebrania adresów URL tworzących grupę docelową. Taki zestaw adresów, nazywany jest seeds (nasiona). Działa poruszając się stopniowo po stronie, korzystając z kodu i indeksując wszystko, co znajduje się po drodze. Analizuje elementy stron, a poruszając się w jej obrębie, odwiedza linki zewnętrzne i wewnętrzne, tworząc mapę internetu.
Analiza witryny internetowej przez roboty, to sczytywanie wszystkiego, począwszy od nagłówków http, opisów obrazków, meta tagów, treści, danych strukturalnych a kończąc na błędach technicznych, jakie mogą wystąpić na stronie. Odwiedzają każdą podstronę, którą są w stanie wychwycić, tym samym zbierając informacje na temat domeny.
Crawler rozpoczyna skanowanie, od sitemap, która zawarta jest w pliku robots.txt. To właśnie tam znajdują się reguły i komendy, dzięki którym wiedzą, jak poruszać się po stronie. Jest to szansa dla właściciela domeny, aby naprowadzić roboty na istotne z punktu widzenia SEO podstrony, lub zablokować dostęp, dla pustych podstron np. za pomocą błędu 404. Jednak nie powinno się korzystać z tego w nadmiarze, gdyż boty google tracą cenny crawl budaget napotykając na swojej drodze błędy. Lepiej, żeby zbieranie informacji o stronach przebiegało płynnie i bez zakłóceń.
Przykładność podczas optymalizacji stron, szczególnie bardzo rozbudowanych, zaowocuje w przyszłości dobrą widocznością w wyszukiwarce. W innym wypadku bot zeskanuje wszystkie napotkane błędy techniczne, duplikacje czy puste strony i przekaże je wyszukiwarce. Wykorzysta także niepotrzebnie crawl budget, co może odbić się na przyszły indeksacjach.
Rodzaje web crawlerów
W sieci istnieją różne rodzaje crawlerów, a wszystko zależy od ich roli i sposobu działania. Z kolei to, jak działają roboty, związane jest ze sposobem, w jaki poruszają się po stronach. Wyróżniamy różne rodzaje crowlów:
- Full crawl – przeszukuje całą zawartość domeny. Zwykle działa podczas pierwszej wizyty na stronie, lub kiedy zachodzą na niej istotne zmiany. Jest to najbardziej czasochłonne działanie, dlatego nie stosuje się go zbyt często.
- Incremental crawl – to właśnie on jest zazwyczaj w obiegu. Indeksuje tylko nowo powstałe podstrony.
- Recrawl – ponownie odwiedza strony, aby sprawdzić, czy mają aktualne dane. Dzięki niemu wyszukiwarka ma bierzące informacje i może przeciwstawiać się oszustwom w sieci.
- Shallow crawl – ma zasięg do kilku stron znajdujących się od strony głównej. Jest zatem dość przewidywalny, w swoich działaniach.
- Deep crawl – ma z kolei bardzo rozległe działanie i penetruje każdy zakamarek domeny. Słynie z dużej wykrywalności błędów.
- Fresh crawl – jak słusznie podpowiada nazwa, sprawdza nowości. Zaczyna pracę, gdy pojawiają się nowe informacje czy artykuły. Działa na zasadzie segregowania treści i opiera się na pozycji w Truskrunk – czyli źródłach o wysokiej randze pożyteczności.
Kolejną kategorią, na jaką możemy podzielić jest ich rola. Każda część internetu ma własne pająki. Skupiając się na wyszukiwarce Google, możemy zaobserwować roboty:
- Googlebot – pierwowzór,zbierający i indeksujący dane dla wyszukiwarki. Jego rolą jest aktualizacja indeksu Google i systemtyczne skanowanie witryn;
- Googlebot -News – tak, jak wskazuje jego nazwa, działa dla wyszukiwarki Google News i zbiera aktualności z sieci;
- Googlebot-Image – specjalizujący się w zbieraniu danych z obrazów do „Grafiki” Google;
- Googlebot-Video – zbiera treści multimedialne dla wyszukiwarki Google;
- Adsbot Google – specjalizuje się w danych Google Ads;
- Googlebot Mobile/Googlebot Smatphone – zoptymalizowany aby sprawdzać dostosowanie do urządzeń mobilnych według wytycznych Google.
Web crawlery służą również do innych zadań w sieci. Roboty indeksujące, wykorzystuje się do specjalistycznych zadań, które mogą wspomóc optymalizację stron internetowych:
- monitorowanie treści – używane, przez różnego rodzaju agencje zajmujące się treścią. Monitorują nowe publikacje, tematy, artykuły, publikowane w sieci, czy przez konkurencję.
- SEO – służące do wykrywania błędów na stronach internetowych, by móc je wyeliminować i zwiększyć swoje szanse na dobrą pozycję w wynikach wyszukiwania Google np. Screaming Frog, Ahrefs bot;
- archiwizacja – wykorzystywane w celu zarchiwizowania danych, które mają zniknąć z sieci np.Archiwes Wayback Machine;
- transakcje – stosowane, w celu testowania przebiegu zakupów czy płatności;
- specjalistyczne – stworzone specjalnie dla danego typu stron w sieci, lub przez konkretne firmy, np. amazon crawlerczy ebay crawler;
- Focused crawler – wykorzystywany do przeszukiwania zasobów internetowych na wybrany temat w specjalnych kategoriach np. rolnictwo, prawo, edukacja.
Crawler i jego wpływ na pozycjonowanie
Podstawą jest właśnie dobrze zoptymalizowana witryna pod kątem wyszukiwarki, więc nie możemy tutaj pominąć robotów. Działają one na podstawie pliku robots.txt – czyli mapie, dzięki której wiedzą, w jaki sposób się poruszać. Dlatego dobre wdrożenie pliku i wyeliminowanie błędów to absolutna podstawa.
Ważne są takie elementy jak meta tagi, opisy obrazków, nagłówki, bo to je właśnie odczytają crawlery, nie czytają strony, tak jak ludzie. Są zorientowane, na poszczególne elementy strony, np. czy tytuły współgrają z tekstem, na funkcjonalność czy ilość i rodzaj słów kluczowych. Dlatego warto orientować się, w jak roboty skanują stronę i na co należy zwrócić uwagę.
Kolejną ważną kwestią są unikatowe i wartościowe treści, którymi wypełnimy zawartość strony. Jest to absolutny wyznacznik pozycji w wysługiwaniach i nie może go zabraknąć. Duplikacja, czy plagiat są wykluczone. Należy też pamiętać o tagach nofollow i sitemap, które ograniczają dostęp np. do powtarzających się opisów produktowych.
Dostosowanie strony do urządzeń mobilnych jest obecnie priorytetowo traktowane przez Google. Coraz częściej przemieszczamy się po sieci za pośrednictwem smartphonów i tabletów, więc nie może to umknąć naszej uwadze.
Wyznacznikiem jakości jest też wygoda użytkowania. Czas ładowania się witryny, czy poszczególnych elementów graficznych, również ma wpływ na opinię robotów. Dostosowując parametry obrazów do odpowiedniego rozmiaru, zmniejszamy ryzyko takiej sytuacji. Stosując odpowiedni układ tekstu i dbając o atrakcyjność przekazu, dajemy sygnał robotom, że dbamy o wartościowy przekaz.
Znaczenie ma również linkowanie. Zróżnicowany profil linków na stronie pozytywnie wpływa na roboty, o ile pozyskane linki są wartościowe. Z kolei oznaczanie linków, które nie mają wartości dla pozycjonowania oraz zgodnie z wytycznymi Google linków reklamowych i afiliacyjnych, to plus dla odpowiedniego pozycjonowania.
Roboty wyszukiwarki mogą być również pomocne w optymalizacji, a mowa tutaj o wykorzystywaniu crawlerów na korzyść użytkownika.
Narzędzia crwal wspomagające SEO
Narzędzi do pozycjonowania stron jest wiele. Niektóre wspomagają się wykorzystywaniem crawleów. Oto kilka narzędzi, które przydają się podczas optymalizacji:
- Google Search Conole – narzędzie, które ma wiele zastosowań, pomagają zoptymalizować stronę, w sposób kompatybilny z Google. W związku z tym możemy mieć pewność że działamy tak, jak oczekują tego Googleboty;
- Screaming frog SEO spider – jedno z popularniejszych narzędzi do audytu SEO, opierające swoją prace na botach;
- Ahrefs – to jedno z najbardziej rozbudowanych narzędzi które dysponuje ogromną bazą danych, a wraz z nią crawlerem, dzięki któremu można przeprowadzić audyt linków domeny.
- Botify – narzędzie do wykrywania błędów SEO;
- DeepCrowl – pozwala na wykonanie technicznej analizy strony;
- Moz Pro – kolejne narzędzie, które pozwala wykryć błędy crawlowania i dostosowaniem strony pod wyszukiwarki.
Prywatność z punktu widzenia web crawlera
Crawler to program komputerowy, nie czyta tekstu, a analizuje informacje. Mimo zaawansowanych systemów, które mają za zadanie chronić dane użytkowników to roboty mogą nie być w stanie rozróżnić wrażliwych informacji, szczególnie jeśli znajdą je w widocznym miejscu. Dlatego zazwyczaj stosuje się rotots.txt, żeby takie treści zabezpieczyć. Warto na bieżąco sprawdzać zabezpieczenie danych wrażliwych.
Zdarza się także, że crawlery zbyt często odwiedza strony internatowe, co skutkuje przeciążeniem serwera. Jednak takie działanie można ograniczyć odpowiednimi zapisami w Polityce prywatności np. przestrzeganie reguł pliku robots.txt, czy unikanie połączeń w tym samym momencie. Można też uregulować częstotliwość takich wizyt, ponieważ działanie robotów powinno być w miarę regularne.
Zasady optymalizacji strony a crawlery
Optymalizując stronę internetową, trzeba pamiętać o tym, jak działa crawler, jak porusza się po niej i na co zwracają szczególną uwagę. Jego zadaniem jest gromadzenie informacji i od nas zależy, jakie informacje uzyska. Dlatego w pierwszej kolejności trzeba zastanowić się, czy ma on mieć pełny dostęp do strony, czy nie. A wszystkie istotne informacje określić w sitemap. Szczególnie wskazanie tych konkretnych podstron, które dadzą najlepszą widoczność w wynikach wyszukiwania .
- zabezpieczyć prywatne dane osobowe i inne dane wrażliwe,
- zadbać o odpowiednią strukturą witryny z zapisem w robots.txt,
- unikać duplikacji treści,
- zminimalizować występowanie błędów 404,
- dobrze oznaczyć paginację stron,
- skrócić czas ładowania witryny ograniczając skrypty Javascript,
- dbać o słowa kluczowe i ich odpowiednią ilość (oczywiście nie stosować ich w nadmiarze),
- wykorzystywać unikatowe i jakościowe treści,
- stosować skrupulatnie przygotowane opisy obrazków.
Przetwarzanie danych, które crawler pobiera powinno odbywać się bez zakłóceń. Można łatwo zaobserwować, że wszystkie czynności, które wykonujemy w kontekście SEO, służą po prostu robotom wyszukiwarek i ułatwiają im aktualizację danych o naszej domenie.
Skąd dowiedzieć się o wizycie crawlera?
Informację o tym, czy web crawler odwiedził naszą stronę uzyskamy robiąc Analizę logów serwera. Na wykonanie takiej analizy są dwie możliwości:
- Ręczna analiza logów – poprzez panel administracyjny swojej domeny, pozwoli wykryć, ile razy i z jaką częstotliwością google crawlery wysyłają żądania do tej strony.
- Narzędzia do analizy – które pozwalają na przetwarzanie danych o logach serwera (Splunk, ELK Stack, Graylog ) oraz Google Search Console – umożliwia analizę wraz z raportem dotyczącym sposobu poruszania się robotów.
Informacja o wizycie google crawlera, otwiera przed właścicielem możliwości. Niektóre z narzędzi do analizy logów są w stanie wyłapać, kiedy i jaki rodzaj robotów odwiedził domenę. Dzięki temu możemy ustalić częstotliwość wizyt. Raport Google Serach Console daje informację nie tylko o rodzaju pełzaczy i czasie odwiedzin, ale także o drodze, którą się przemieszczały i konkretnych przeskanowanych podstronach. Jest to spora dawka wiedzy, jaką można wykorzystać do optymalizacji SEO.
Podsumowując, to google crawler decyduje o widoczności strony
Robot internetowy google służy do indeksowania stron internetowych, grafiki, wiadomości, video i dostosowania do urządzeń mobilnych. Jego rola jest ściśle związana z działaniem wyszukiwarki. Naszą rolą jest optymalizacja witryny i konfiguracja strony pod działanie robotów. Są jednak narzędzia, gdzie wykorzystanie crawlerów ma na celu pomoc przy użytkownikom, np. narzędzia Google Search Console. Każdy ma jakieś korzyści z działania crawlerów. Ciekawe jest śledzenie nowinek o programach i narzędziach, które potrafią analizować coraz większe ilości danych np. o robotach, pokazując nowe technologiczne możliwości. Szczególnie, pasjonatom SEO.