Instrukcje

Plik robots.txt: co to jest i jak go skonfigurować

Редакція Spilno Agency | 12 maj 2026 | 8 min czytania 13 wyświetleń

Plik robots.txt: co to jest i jak go skonfigurować

robots.txt to prosty plik tekstowy umieszczony w katalogu głównym witryny, który informuje roboty wyszukiwarek (crawlery), które strony lub sekcje mogą — lub nie powinny — być skanowane. Nie jest obowiązkowy, ale dla każdej witryny z więcej niż kilkoma podstronami stanowi podstawowe narzędzie zarządzania budżetem crawlowania i ochrony przed niechcianą indeksacją.

Poprawnie skonfigurowany robots.txt to pierwsza linia ochrony budżetu crawlowania. Nie zastępuje noindex, ale razem dają pełną kontrolę nad tym, co trafia do indeksu wyszukiwarki.

Czym jest plik robots.txt?

robots.txt to plik tekstowy implementujący protokół Robots Exclusion Protocol (REP), standard wprowadzony w 1994 roku. Musi być umieszczony w katalogu głównym domeny: https://site.com/robots.txt. Każdy crawler sprawdza ten plik przed rozpoczęciem skanowania witryny.

Plik zawiera zestawy reguł skierowane do konkretnych botów — Googlebot, Bingbot, AhrefsBot i innych. Możesz pisać osobne bloki reguł dla każdego bota lub jeden wspólny za pomocą User-agent: *.

Przykład minimalnego pliku robots.txt

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php
Sitemap: https://site.com/sitemap_index.xml

Po co jest potrzebny plik robots.txt?

Istnieje kilka kluczowych powodów:

Ochrona stron administracyjnych. Panele logowania, koszyk, konto użytkownika — nie powinny trafiać do wyników wyszukiwania
Ochrona budżetu crawlowania. Google przydziela każdej witrynie ograniczony czas skanowania. Jeśli bot marnuje go na strony filtrów lub duplikaty — ważne strony są crawlowane rzadziej
Zapobieganie duplikacji treści. Parametryczne URL (np. ?sort=price&order=asc) mogą generować setki prawie identycznych stron. Blokowanie przez robots.txt lub canonical rozwiązuje ten problem
Wskazanie crawlerom na sitemapę. Dyrektywa Sitemap przyspiesza odkrywanie nowych stron

Składnia i dyrektywy pliku robots.txt

robots.txt używa prostej składni wiersz po wierszu. Każdy wiersz to jedna dyrektywa. Puste wiersze rozdzielają bloki reguł dla różnych botów.

User-agent

Określa, do którego crawlera stosują się reguły poniżej. Użyj *, aby objąć wszystkie boty.

User-agent: Googlebot
User-agent: *

Disallow

Mówi crawlerowi, że nie może odwiedzić wskazanej ścieżki. Pusta wartość (Disallow:) oznacza brak blokad.

Disallow: /wp-admin/
Disallow: /checkout/
Disallow: /private/

Allow

Jawnie zezwala na konkretną ścieżkę, nawet gdy katalog nadrzędny jest zablokowany przez Disallow.

Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

Sitemap

Podaje adres URL mapy XML witryny. Możesz dodać kilka wierszy Sitemap.

Sitemap: https://site.com/sitemap_index.xml

Crawl-delay

Ustawia pauzę (w sekundach) między żądaniami bota. Obsługiwana przez Bing — nie przez Googlebot (użyj ustawień częstotliwości crawlowania w GSC).

User-agent: Bingbot
Crawl-delay: 2

Przykłady pliku robots.txt

Witryna WordPress

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-login.php
Disallow: /xmlrpc.php
Disallow: /?s=
Disallow: /feed/
Allow: /wp-admin/admin-ajax.php

Sitemap: https://site.com/sitemap_index.xml

Sklep internetowy

User-agent: *
Disallow: /cart/
Disallow: /checkout/
Disallow: /my-account/
Disallow: /wp-admin/
Disallow: /?orderby=
Disallow: /?filter_
Allow: /wp-admin/admin-ajax.php

Sitemap: https://shop.com/sitemap_index.xml

Strona firmowa (w pełni otwarta)

User-agent: *
Disallow:

Sitemap: https://company.com/sitemap.xml

Jak przetestować plik robots.txt?

Testowanie jest obowiązkowe przed każdą zmianą w pliku robots.txt.

Google Search Console. Ustawienia → Tester robots.txt. Wpisz adres URL — GSC pokaże, czy crawlowanie jest dozwolone i która reguła obowiązuje
Bezpośrednie sprawdzenie. Otwórz https://twojastrona.pl/robots.txt w przeglądarce — upewnij się, że plik jest dostępny i zawiera oczekiwane reguły
Sprawdzenie terminalem. curl -s https://twojastrona.pl/robots.txt — szybka inspekcja zawartości
Screaming Frog lub Google Rich Results Test. Do sprawdzenia dostępności zasobów CSS, JS i obrazów dla crawlerów

robots.txt vs. noindex: jaka jest różnica?

To dwa odrębne mechanizmy o różnych konsekwencjach — mylenie ich to częsty błąd SEO.

robots.txt Disallow — uniemożliwia crawlerowi odwiedzenie URL. Jeśli jednak strona jest już zaindeksowana lub wskazują na nią linki zewnętrzne, URL może pozostać w wynikach wyszukiwania
noindex (meta tag lub nagłówek X-Robots-Tag) — pozwala botowi odwiedzić stronę, ale nakazuje mu jej nie indeksować. To niezawodny sposób na usunięcie strony z wyników wyszukiwania
Ważne: jeśli strona jest zablokowana w robots.txt i ma też tag noindex — bot nie może odczytać noindex, bo nigdy nie odwiedza strony. Odblokuj crawlowanie, żeby sygnał noindex zadziałał

Typowe błędy w pliku robots.txt

Przypadkowe zablokowanie całej witryny. Disallow: / dla wszystkich botów to najpoważniejszy błąd — witryna znika z wyszukiwarki
Blokowanie CSS i JavaScript. Google potrzebuje dostępu do arkuszy stylów i skryptów, aby renderować strony. Zablokowany CSS = Google widzi witrynę jako uszkodzoną
Konflikt robots.txt z noindex. Zablokowana strona nie może przekazać sygnału noindex — bot jej po prostu nie czyta
Kilka ścieżek w jednym wierszu. Disallow: /admin/ /checkout/ to błędna składnia. Każda ścieżka wymaga osobnego wiersza Disallow
Problemy z wielkością liter. Nazwy dyrektyw (User-agent, Disallow) są wrażliwe na wielkość pierwszej litery
Plik robots.txt poza katalogiem głównym. Plik w /blog/robots.txt nie będzie odczytany przez Googlebot

Checklista robots.txt

Plik robots.txt jest w katalogu głównym domeny (site.com/robots.txt)
Każdy blok User-agent wskazuje konkretnego bota lub *
Ścieżki administracyjne są zablokowane: /wp-admin/, /checkout/, /my-account/
CSS i JavaScript NIE są zablokowane
Dyrektywa Sitemap wskazuje aktualną mapę XML witryny
Plik nie zawiera Disallow: / dla Googlebot lub *
Plik przetestowany w Google Search Console
Strony wymagające noindex są otwarte do crawlowania
Crawl-delay ustawiony dla Bing jeśli potrzebny
Wszystkie zmiany udokumentowane i przetestowane w środowisku deweloperskim

Najczęściej zadawane pytania

Czy plik robots.txt jest wymagany?

Nie, plik robots.txt nie jest obowiązkowy. Bez niego crawlery będą skanować całą witrynę. Jednak dla stron z panelami administracyjnymi, koszykami czy profilami użytkowników plik robots.txt jest niezbędny, aby zapobiec indeksacji stron technicznych.

Czy robots.txt blokuje strony w wynikach Google?

Nie. Dyrektywa Disallow blokuje wyłącznie crawlowanie — nie usuwa strony z indeksu. Jeśli zablokowany adres URL ma linki zewnętrzne, Google może go zaindeksować bez odwiedzania treści. Aby całkowicie wykluczyć stronę, użyj meta tagu noindex lub nagłówka X-Robots-Tag.

Jak sprawdzić poprawność pliku robots.txt?

Skorzystaj z Google Search Console → Ustawienia → Tester robots.txt. Wpisz adres URL, aby sprawdzić, czy crawlowanie jest dozwolone. Możesz też sprawdzić plik terminalem: curl -s https://twojastrona.pl/robots.txt

Czy WordPress potrzebuje własnego pliku robots.txt?

WordPress generuje domyślny plik robots.txt przez wirtualne API. Dla pełnej kontroli — blokady wp-admin, udostępnienia zasobów wtyczek, dodania adresu sitemapy — zastąp go fizycznym plikiem lub skonfiguruj przez Yoast SEO albo Rank Math.

Jaka jest różnica między robots.txt a noindex?

robots.txt kontroluje crawlowanie: mówi robotom, czy mogą odwiedzić URL. noindex kontroluje indeksację: pozwala robotowi odwiedzić stronę, ale nakazuje jej nie indeksować. Blokada crawlowania przez robots.txt nie gwarantuje usunięcia URL z indeksu, jeśli już tam jest.

Bezpłatny audyt pliku robots.txt

Potrzebujesz audytu pliku robots.txt lub pełnego przeglądu technicznego SEO? Spilno Agency przeanalizuje konfigurację crawlowania, naprawi błędy i zoptymalizuje plik pod maksymalną efektywność.

Редакція Spilno Agency Spilno Agency Wszystkie artykuły autora →

← Powrót do bloga