Plik robots.txt – co to jest, jak działa i jak go stworzyć?

Plik robots.txt – co to jest, do czego służy i jak go stworzyć?

Definicja Plik Robots.txt – zacznijmy od podstaw

Czym jest plik robots.txt? Na początku, że jest to plik tekstowy, który znajduje się w witrynie internetowej. Roboty wyszukiwarki mają dostęp do katalogu, który ma w sobie informacje, o miejscach, które mogą odwiedzać i o tych, które są zablokowane. Ten zestaw reguł w pliku robots.txt. to dyrektywa Robots exclusion protocol, wewnętrzny regulamin domeny, stworzony po to, żebyś mógł decydować, co pojawi się w wynikach wyszukiwania.

Na grafice widnieje reklama freelancera specjalizującego się w SEO. Tekst brzmi: „Freelancer SEO” „Pozycjonowanie stron internetowych” „Bartłomiej Lewicki”. Mężczyzna na zdjęciu nosi białą koszulę i zegarek, a jego ręce są skrzyżowane. Tło ma kolorystykę niebiesko-białą, co nadaje profesjonalny charakter.

Jak działa i do czy każdy musi mieć robots.txt?

Właściciele stron internetowych, nie zawsze muszą tworzyć robots.txt. Jest on przeznaczony dla większych serwisów, które posiadają wiele podstron w swojej domenie. Wynika to z jego przeznaczenia. Ma on za zadanie blokować, lub udostępniać strony dla robotów indeksujących. Właścicielom stron internetowych nie zawsze chcą indeksować całą zawartość domeny, gdyż mogłoby to pochłonąć bardzo wiele czasu, źle wpłynąć na SEO i crawl budget.

Co oznacza crawl budget i czy dotyczy wszystkich?

Być może jest to dla Ciebie nowy zwrot, ale jeśli posiadasz swój adres URL, warto się z nim zapoznać. Crawl budget – to wyznacznik ilości czasu (określony budżet czasu), jaki Google może poświęcić twojej witrynie. Więc, w sytuacji, gdy masz bardzo wiele stron, a część z nich nie jest istotna (strony techniczne, duplikaty, puste strony), to roboty indeksujące wykorzystują carl budaget niepotrzebnie. Rezultatem może być wolne ładowanie strony, lub spadek w wynikach wyszukiwania Google. Od czasu do czasu warto sprawdzić wykorzystanie tego czasu, ponieważ jest to istotna część analizy SEO. Służą do tego popularne narzędzia, które posiadają tę funkcję np. Google Searach Console, czy Screaming Frog. Można także przejrzeć logi serwera i zobaczyć, na które podstrony najczęściej zaglądają roboty Google.

Jak stworzyć robots.txt?

Jeśli posiadasz stronę internetową, być może robots.txt został już zainstalowany. Robot.txt znajduje się  adresem URL:

                                         Twojadomena.pl/robots.txt

Jeśli nie, istnieje kilka sposobów, żeby zapisać robots.txt na stronach internetowych: 

  • Tworzenie pliku robots.txt, poprzez wpisanie:
  1. Musi mieć nazwę robots.txt.
  2. Powinien być plikiem tekstowym w formacie UTF –8 ze znakami ASCII.3.
  3. Musi znaleźć się w katalogu głównym hosta strony (nie może być w podkatalogu).
  4. W witrynie może być tylko jeden robot.txt.
  5. Txt. może być również opublikowany w subdomenie.
  6. Można go opublikować dla portu niestandardowego.

Trzeba pamiętać, że dotyczy on tylko ścieżki, do której został dodany. Każdy host czy port, czy ścieżka mają swój odrębny katalog. 

  • Stworzenie katalogu robot.txt. poprzez generator kodów – w sieci istnieje mnóstwo stron z generatorami kodów robots.txt. Wystarczy znaleźć odpowiedni program dla siebie i wpisać tam nazwę twojej strony oraz nazwy botów do zablokowania, np. googlebot. 
To zdjęcie przedstawia osobę stojącą na świeżym powietrzu, mającą skrzyżowane ramiona i ubraną w białą koszulę. W tle widać marinę z zacumowanymi łodziami oraz budynki w oddali. Scena jest jasna i przejrzysta, co sugeruje przyjemny dzień.

Co zamieścić w pliku robots.txt?

Ten katalog został stworzony po to, aby w nim zamieścić szereg reguł w pliku dla robotów wyszukiwarki. Zazwyczaj plik robots.txt zawiera dwie komendy. Mówią one czy robot Google może skanować konkretną podstronę, czy nie, ponieważ roboty wyszukiwarki mogą poruszać się po każdym elemencie witryny:

User – agent: * roboty wyszukiwarki 

  • * – informacja dotyczy wszystkich robotów, oprócz AdsBoot (należy je wskazać). Jest to wieloznaczny symbol. Można go wykorzystać, jako całej ścieżki, prefiksu i sufiks. Stosuje się go do wszystkich symboli, oprócz sitemap.

User – agent: *

Allow / element do odblokowania/

Disallow /elementy, które mogą być odwiedzane przez roboty/

sitemap : https://www.example.com /sitemap.xml – mapa strony

User – agent – co to jest?

Każda przeglądarka, która chce się z tobą połączyć, jest identyfikowana poprzez specjalny ciąg znaków tekstowych – to właśnie jest User-agent. Również roboty wyszukiwarki mają swoje user-agent tak, żeby mogły zostać zidentyfikowane:

  • GoogleBot/ 2.1
  • AdsBot-Google
  • GoogleBot-News
  • MediaPartner-Google
  • AdsBot-Google-Mobile-Apps
  • Google-Video/ 1.0
  • Google-Images/1.0

Przetestowanie robots.txt

Teraz gdy już mamy gotowy robots.txt, pozostało sprawdzić, czy wszystko działa poprawnie i zobaczyć, czy roboty wyszukiwarki Google działają według wskazanych reguł. Do tego celu możemy wykorzystać narzędzia z sieci web.

Jeśli posiadasz swoje konto w Google Search Console, możesz testować roboty pod tym linkiem: https://support.google.com/webmasters/answer/6062598?hl=pl.

Jeśli nie masz takiej możliwości, test możesz wykonać tutaj: https://technicalseo.com/tools/robots-txt/.

Pamiętaj, że z pomocą programów możesz sprawdzić jeden adres jednocześnie. 

Plik robots.txt jest jednym z elementów, którym warto poświęcić czas – w końcu to my decydujemy, co mogą sprawdzać roboty Google, a które elementy objąć ochroną i wykluczyć z obiegu.

Gdy tworzymy mapę strony i wpisujemy robots.txt, to tak jakby, wciąż projektujemy swoje domeny  i powstaje z tego dokładna informacja o strukturze strony. W sytuacji, gdy mamy dużo podstron, może to zdecydowanie ułatwić znajdowanie podstron, które powinny być indeksowane. W ten sposób podkręcimy SEO. Z drugiej strony, zdecydować, że jakaś strona jest zablokowana na takie czynności. Zawartość pliku pokazuje, o chcemy zachować dla siebie. To daje nam większą kontrolę nad zawartością naszych serwisów i możliwość decydowania, jak prezentować elementy strony w wyszukiwarce.