Czy Twoja strona blokuje roboty wyszukiwarek?

Podaj adres strony i dowiedz się, czy roboty wyszukiwarek są na niej blokowane przez tagi meta, plik robots.txt lub nagłówki HTTP.

<br />

Blokowanie robotów wyszukiwarek

Czy jako właściciel strony internetowej zastanawiałeś się kiedyś, w jaki sposób wyszukiwarki internetowe znajdują wszystko o Twoich stronach, nawet jeśli nie “promowałeś” ich specjalnie w mediach społecznościowych lub na innych stronach? Odpowiedzią są roboty wyszukiwarek.

Roboty wyszukiwarek to małe programy, które lądują na stronach internetowych i podążają za umieszczonymi na nich linkami, aby zebrać informacje o stronie. Informacje te są następnie dodawane do baz danych takich wyszukiwarek. Możesz się zastanawiać, dlaczego wyszukiwarki używają takich robotów. Otóż w ten sposób wiedzą, które strony internetowe mogą dostarczyć informacji związanych ze słowami kluczowymi wpisywanymi przez użytkowników.

Czym są roboty wyszukiwarek?

Znane w języku angielskim pod wieloma nazwami, takimi jak wanderers, crawlers, bots i spiders, roboty wyszukiwarek są narzędziami używanymi przez popularne wyszukiwarki, takie jak Google, Microsoft Bing i Yahoo do budowania swoich baz danych. Roboty te w sposób automatyczny odwiedzają strony internetowe, poruszają się po nich i wyodrębniają informacje w celu odszyfrowania opisu strony.

Wyszukiwarkę uznaje się za wydajną, jeśli szybko dostarcza wyniki na zapytania użytkowników. Aby to osiągnąć, powinna posiadać obszerną bazę danych, zawierającą informacje o wszystkim, co jest publikowane w Internecie. Roboty wyszukiwarek pomagają w zbieraniu takich informacji. Gromadzą one szczegóły takie jak nagłówki stron, meta tagi, metadane oraz treści słowne i przekazują je do baz danych wyszukiwarek, dzięki czemu mogą one oferować odpowiedzi szybciej niż inne konkurencyjne wyszukiwarki.

Jakie są niektóre popularne roboty wyszukiwarek?

Niektóre z popularnych robotów wyszukiwarek obejmują:

Googlebot
Slurp bot
Bing bot
Baidu spider
DuckDuck bot
Exabot
Sogou spider
Yandex bot
Alexa crawler

Dlaczego właściciel strony miałby zablokować roboty wyszukiwarek?

Chociaż posiadanie robotów wyszukiwarek indeksujących Twoją witrynę pomogłoby Ci tylko w uzyskaniu lepszej pozycji w rankingu pod względem domeny, którą się zajmujesz, niektórzy właściciele stron internetowych przechowują na swoich stronach poufne informacje i chcą, aby były one prywatne i bezpieczne. To właśnie tutaj pojawia się kwestia bezpieczeństwa, ponieważ boty wyszukiwarek nie mogą odróżnić publicznych i prywatnych treści internetowych.

Innym powodem, dla którego właściciel strony internetowej chciałby, aby takie boty trzymały się z dala od jego treści, jest zapobieganie powielaniu całej witryny lub jej zawartości, ponieważ będzie to miało negatywny wpływ na jego SEO.

Z tych przyczyn, właściciele stron internetowych często chcą ograniczyć dostęp do swoich stron internetowych poprzez banowanie lub blokowanie robotów indeksujących, zwłaszcza gdy strona jest w trybie wystawowym. Tryb ten umożliwia konfigurację i podgląd strony przed uruchomieniem serwera, więc blokowanie botów podczas tego procesu jest często sugerowane.

Jak zablokować roboty wyszukiwarek?

Istnieją trzy sposoby na zablokowanie botów:

1. Meta tagi

Meta tagi to krótkie komunikaty określające zawartość witryny, które pojawiają się wyłącznie w kodzie źródłowym strony. Umożliwiają one programistom przekazanie parametrów dla robotów indeksujących, zapobiegających indeksowaniu witryny.

Możesz zablokować roboty indeksujące na etapie tworzenia witryny poprzez użycie następującego meta tagu w swoim kodzie źródłowym:
<meta name="robots" content="noindex,nofollow">

Uwaga: Kiedy witryna będzie już aktywna, koniecznie usuń ten znacznik, ponieważ sprawi on, że twoje strony będą niewidoczne dla WSZYSTKICH wyszukiwarek. Meta tagi działają najlepiej tylko podczas procesu budowania strony internetowej, aby uniknąć kradzieży treści.

2. Pliki robots.txt

Pliki robots.txt są zwykłymi plikami tekstowymi ASCII, które ograniczają dostęp robotów indeksujących do pewnych części witryny, takich jak określone pliki i foldery. Jeśli chcesz zablokować pewne konkretne dane na swojej stronie internetowej, skorzystaj z tej metody.

Aby użyć pliku robots.txt, otwórz nowy plik w Notatniku (lub innym prostym edytorze tekstu) i wpisz poniższe słowa, aby zablokować dostęp botów do całej witryny:
User-agent: * Disallow: /

Następnie zapisz plik w swoim katalogu głównym i upewnij się, że nazwa pliku to robots.txt (wszystko małymi literami).

3. Nagłówek HTTP

Nagłówek HTTP, lub X-Robots-Tag, jest ulepszoną wersją meta tagów, która ułatwia dodawanie ich do każdej strony. Metoda ta pozwala na określenie i ustawienie wartości dla całej witryny za jednym razem.

Możesz użyć następującego kodu:
Header set X-Robots-Tag "noindex, nofollow"

Uwaga: Jeśli nie usuniesz tego z kodu źródłowego swojej witryny po jej uruchomieniu, strona zostanie ukryta przed WSZYSTKIMI przeglądarkami internetowymi.

Jak sprawdzić czy Roboty Wyszukiwarek są zablokowane na konkretnym adresie URL?

Podobnie jak to ma miejsce w przypadku blokowania robotów wyszukiwarek, istnieją trzy sposoby, w jakie można sprawdzić, czy są one zablokowane dla danej witryny:

Przejrzyj kod źródłowy HTML witryny, aby znaleźć meta tag lub X-Robots-Tag
Sprawdź zawartość pliku robots.txt dla danej witryny
Przeskanuj nagłówki HTTP

Jeśli żadna z powyższych metod nie zadziała, możesz rozważyć skorzystanie z darmowego narzędzia powyżej.