Krótki przegląd botów internetowych, czyli co oprócz ludzi generuje ruch na stronie

Już od ponad dwóch lat na stronie zainstalowany jest skrypt statystyk, dzięki któremu mam możliwość podglądania kto do mnie trafia. Jak pewnie każdy, kto miał dostęp do statystyk jakiejkolwiek strony wie oprócz ludzi trafiają się też różnego rodzaju boty. Niektóre źródła mówią nawet, że my – ludzie staliśmy się w sieci mniejszością! Większość osób przeglądających internet nie ma świadomości istnienia prawie żadnego z nich (zwykły user zna najwyżej Googlebota, coniektórzy być może jeszcze słyszeli o Bingbocie). Jako administrator tej małej bo małej, ale jednak witryny mam szansę dowiedzieć się na temat działalności tych złodziei transferu nieco więcej.

W internecie niewiele można się dowiedzieć o dużej ich części, czasami jedynym źródłem są fora intenetowe, na których inny admin szuka odpowiedzi na to czym jest dany bot i czy ewentualnie należy go blokować. Postarałem się zebrać informacje o tych, które mnie odwiedziły w bliższej lub odleglejszej przeszłości, więc niektóre mogły już przestać działać. Zaczynamy od najbardziej oczywistej pozycji jaką jest bot Google.

Googlebot

Tu nie ma się co rozpisywać: jest to bot opracowany i hostowany przez Google i ma na celu zbieranie danych do googlowej wyszukiwarki. Występuje też w wariantach Mobile i Images. Przykładowe UserAgenty: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html), Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_1 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/4.0.5 Mobile/8B117 Safari/6531.22.7 (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html), Googlebot-Image/1.0.

Bingbot

W zasadzie niczym nie różni się od Googlebota, zajmuje się indeksowaniem z tym, że dla konkurencyjnego rozwiązania od Microsoftu – Binga. Przykładowy UserAgent: Mozilla/5.0 (compatible; bingbot/2.0; +http://www.bing.com/bingbot.htm).

MSNbot

Bot, który służył do indeksowania sieci dla wyszukiwarki MSN. Obecnie został zastąpiony przez Bingbota. Przykładowy UserAgent: msnbot-media/1.1 (+http://search.msn.com/msnbot.htm).

MJ12Bot

Dość aktywny ostatnio bot. Na stronie dołączonej do UserAgenta można się dowiedzieć, że działa on w celu stworzenia wyszukiwarki. Nie ma on stałego adresu lub grupy adresów IP, może być uruchomiony przez każdego. Kto wie może będzie kiedyś konkurencją dla Google. Na razie wśród najaktywniejszych botów zajmuje miejsce trzecie, zaraz za Googlebotem i Bingbotem. Przykładowy UserAgent: Mozilla/5.0 (compatible; MJ12bot/v1.4.2; http://www.majestic12.co.uk/bot.php?+).

Twiceler

Bot wraz z towarzyszącą mu wyszukiwarką: cuil.com został stworzony przez byłych pracowników Google. Od początku swojej działalności wzbudzał kontrowersje wśród administratorów. Nie można go było zablokować przez plik robots.txt. Bot zniknął z sieci w 2010 roku. Przykładowy UserAgent: Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html).

Yahoo! Slurp, YandexBot, Baiduspider

Boty indeksujące dla wyszukiwarek odpowiednio Yahoo!, rosyjskiego Yandexa oraz chińskiego Baidu. Działają podobnie jak boty Google czy Binga. Przykładowe UserAgenty: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp), Mozilla/5.0 (compatible; YandexBot/3.0; +http://yandex.com/bots), Baiduspider+(+http://www.baidu.com/search/spider.htm).

Dot TK – spider

Niewiele można znaleźć w Google na temat tego bota. Sądząc po nazwie odwiedza on tylko strony w domenie .tk. Bardzo prawdopodobne, że należy do registara tej domeny. Przykładowy UserAgent: Mozilla/5.0 (X11; U; Linux x86_64; en-US; rv:1.9.0.5) Gecko/2010033101 Gentoo Firefox/3.0.5 (Dot TK – spider 3.0).

W3C Validator

Bot sprawdzający poprawność HTMLa oraz CSSa na stronach. Jeżeli znalazł się w logach to znaczy, że ktoś sprawdzał czy strona nie zawiera błędów składniowych. Przykładowy UserAgent: W3C_Validator/1.1.

Speedy Spider

Trzeci małoznany bot, którego celem jest stworzenie wyszukiwarki. Dostarcza dane do strony entireweb.com. Wydaje się, że respektuje wpisy z robots.txt i nie przynosi większych szkód dla stron. Przykładowy UserAgent: Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US) Speedy Spider (http://www.entireweb.com/about/search_tech/speedy_spider/).

ia_archiver

Bot należący do Alexa – rankingu najpopularniejszych stron. Zbiera dane w celu dostarczenia informacji o danej stronie. Przykładowy UserAgent: ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com).

Search17Bot

Czwarty już bot , o którym mało kto słyszał a którego zadaniem jest dostarczenie danych wyszukiwarce. Strona linkowana w UA informuje, że bot stosuje się do wpisów w robots.txt. Przykładowy UserAgent: Mozilla/5.0 (compatible; Search17Bot/1.1; http://www.search17.com/bot.php).

Website Explorer

Tym botem zaczynamy grupę dość tajemniczych programów. Google nie zwraca na jego temat żadnych czytelnych informacji, większość wyników po wyszukaniu UserAgenta jest w języku japońskim co pozwala sądzić, że to jest źródło tego bota. Ostrożnym radzę zablokować. Przykładowy UserAgent: Website Explorer/0.9.9.9.

GSLFbot

Ten bot również nie przedstawia na swój temat żadnych informacji. Wyszukując go w Googlach można się dowiedzieć, że nie respektuje pliku robots.txt oraz może powodować DoS – zalecany ban. Przykładowy UserAgent: GSLFbot.

SWAT Crawler

Rodzimy projekt krakowskiego AGH. Jest to tak jak dwa poprzednie bot program dość tajemniczy. Na stronie AGH trudno znaleźć informacje do czego jest on wykorzystywany. Jedyne co udało mi się o nim dowiedzieć to rozwinięcie skrótu SWAT – System Wyszukiwania i Analizy Treści. Biorąc pod uwagę ostatnie zamieszanie ze stworzonym przez ową uczelnię projektem INDECT można przypuszczać, że bot ten ma z nim jakiś związek. Przykładowy UserAgent: SWAT Crawler. AGH University project. In case of problem contact: opal@tempus.metal.agh.edu.pl. Thanks..

NetcraftSurveyAgent

Bot, którego celem zdaje się być tworzenie statystyk użycia poszczególnych daemonów www. Poza tym nie informuje o tym do czego służy jak robi np. Search17 czy Speedy Spider oraz używa AmazonAWS przez co dla wielu witryn staje się niedostępny, gdyż chmura ta jest źródłem wielu innych botów niekoniecznie tworzących wyszukiwarki. Przykładowy UserAgent: Mozilla/5.0 (compatible; NetcraftSurveyAgent/1.0; +info@netcraft.com).

XML Sitemaps Generator

Służy do generowania map witryn. Jego odwiedziny oznaczają, że ktoś stworzył właśnie mapę witryny. Taka mapa może posłużyć jako mapa dla Google Webmaster Tools, więc dobrze jest się upewnić, że witryna jest tam zweryfikowana dla naszego konta. Przykładowy UserAgent: Mozilla/5.0 (compatible; XML Sitemaps Generator; http://www.xml-sitemaps.com) Gecko XML-Sitemaps/1.0.

facebookexternalhit

A teraz czas na najciekawszy chyba okaz w tym zestawieniu. Po odwiedzinach tego oto bota mogłoby się wydawać, że Facebook planuje konkurować z Google na polu wyszukiwarek. Nic bardziej mylnego. Po odwiedzeniu podlinkowanej strony dowiadujemy się, że ktoś właśnie podzielił się na Facebooku linkiem do naszej witryny. Dla mnie osobiście jako osobie, która nie ma tam swojego konta jest to bardzo przydatna informacja, ale czy wysyłając do znajomego link do jakiejś mało popularnej strony chcielibyście, aby jej admin został natychmiast o tym fakcie poinformowany. Ja niekoniecznie. Z drugiej jednak strony taka informacja nie jest w stanie pomóc w odszukaniu osoby, która to zrobiła, więc nie narusza to niczyjej prywatności, której zresztą użytkownicy tego portalu i tak nie mają. Przykładowy UserAgent: facebookexternalhit/1.1 (+http://www.facebook.com/externalhit_uatext.php).

Czy to już wszystko?

Oczywiście, że nie. W internecie krąży tak wiele różnego rodzaju botów, że trudno byłoby zebrać je wszystkie i napisać na temat każdego z nich choćby dwóch zdań. Zawarłem tylko te, które odwiedziły kiedyś tę stronę. Już przy samym wyszukiwaniu informacji o nich można się zorientować, że to tylko wierzchołek góry lodowej. Poza tymi, które identyfikują się swoją nazwą można też znaleźć takie, które przedstawiają się jako zwykłe przeglądarki a także te używające standardowych agentów bibliotek takich jak Indy czy też perlowych lub pythonowych. Niektóre ich UA to: Mozilla/3.0 (compatible; Indy Library), libwww-perl/5.823, Python-urllib/2.6, gnu-classpath/0.98 (libgcj/4.4.5). Niestety te boty, które należą do którejś z tych dwóch grup zazwyczaj nie robią to w celu indeksowania witryn, ale często szukają podatności jak pewien “chińczyk” lub kopiują treść witryn w celu serwowania treści u siebie w towarzystwie nachalnych reklam przynoszących nie do końca uczciwe zyski. Niestety przed nimi nie ma praktycznie żadnego skutecznego zabezpieczenia. Można banować UserAgenty należące do wymienionych bibliotek lub konkretne adresy IP, ale to nigdy nie rozwiąże problemu do końca.

Posted in Uncategorized | Tagged , , , , , , , , , , , , , , , | Leave a comment