Akú prácu robia pavúky vyhľadávačov? Hľadanie informácií na webe

Pri pohľade na protokoly servera niekedy môžete pozorovať nadmerný záujem vyhľadávacích robotov o stránky. Ak sú roboty užitočné (napríklad indexovanie robotov PS), zostáva len pozorovať, aj keď sa zvyšuje zaťaženie servera. Stále však existuje veľa sekundárnych robotov, ktorých prístup na stránku nie je potrebný. Pre seba a pre vás, drahý čitateľ, som zhromaždil informácie a previedol ich na pohodlný tablet.

Kto sú vyhľadávacie roboty

vyhľadávací robot, alebo ako sa tiež nazývajú, robot, crawler, pavúk - nič viac ako program, ktorý vyhľadáva a skenuje obsah stránok kliknutím na odkazy na stránkach. Vyhľadávacie roboty nie sú len pre vyhľadávače. Napríklad služba Ahrefs používa pavúky na zlepšenie údajov o spätných odkazoch, Facebook vykonáva webové zoškrabovanie kódu stránky na zobrazenie odkazov s nadpismi, obrázkami a popismi. Web scraping je zhromažďovanie informácií z rôznych zdrojov.

Používanie názvov pavúkov v súbore robots.txt

Ako vidíte, každý seriózny projekt súvisiaci s vyhľadávaním obsahu má svojich pavúkov. A niekedy je naliehavou úlohou obmedziť prístup niektorých pavúkov na lokalitu alebo jej oddelené sekcie. Môžete to urobiť prostredníctvom súboru robots.txt v koreňovom adresári stránky. Viac o nastavovaní roboty som písal skôr, odporúčam prečítať.

Upozorňujeme, že súbor robots.txt a jeho príkazy môžu vyhľadávacie roboty ignorovať. Smernice sú len pokyny pre roboty.

Smernicu pre vyhľadávacieho robota môžete nastaviť pomocou sekcie – výzva na používateľského agenta tohto robota. Sekcie pre rôznych pavúkov sú oddelené jedným prázdnym riadkom.

User-agent: Googlebot Allow: /

User-agent: Googlebot

povoliť: /

Vyššie uvedené je príkladom volania na hlavný prehľadávač Google.

Pôvodne som plánoval pridať do tabuľky záznamy o tom, ako sa vyhľadávacie roboty identifikujú v protokoloch servera. Ale keďže tieto údaje sú pre SEO málo dôležité a pre každý token agenta môže existovať niekoľko typov záznamov, bolo rozhodnuté vystačiť si len s názvom robotov a ich účelom.

Vyhľadávacie roboty G o o g l e

user-agent	Funkcie
Googlebot	Hlavný indexový prehľadávač pre stránky optimalizované pre PC a smartfóny
Mediálni partneri – Google	Robot reklamnej siete AdSense
API-Google	API – používateľský agent Google
AdsBot-Google	Kontroluje kvalitu reklám na webových stránkach určených pre PC
AdsBot-Google-Mobile	Kontroluje kvalitu reklám na webových stránkach určených pre mobilné zariadenia
Obrázok Googlebota (Googlebot)	Indexuje obrázky na stránkach lokality
Googlebot News (Googlebot)	Hľadajú sa stránky na pridanie do Google News
Googlebot Video (Googlebot)	Indexuje obsah videa
AdsBot-Google-Mobile-Apps	Kontroluje kvalitu reklám v aplikáciách zariadenia so systémom Android, funguje na rovnakých princípoch ako bežný AdsBot

Vyhľadávacie roboty, ktoré indexujem

user-agent	Funkcie
Yandex	Keď je tento token agenta špecifikovaný v súbore robots.txt, žiadosť sa odošle všetkým robotom Yandex
YandexBot	Hlavný indexovací robot
YandexDirect	Sťahuje informácie o obsahu partnerských stránok YAN
YandexImages	Indexuje obrázky stránok
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Stiahne dokumenty na analýzu prítomnosti rozloženia pre mobilné zariadenia
YandexMedia	Robot indexuje multimediálne údaje
YandexNews	Indexer Yandex.News
YandexPagechecker	Validátor mikroúdajov
YandexMarket	robot Yandex.Market;
YandexCalenda	Robot Yandex.Calendar
YandexDirectDyn	Generuje dynamické bannery (priame)
YaDirectFetcher	Sťahuje stránky s reklamami na kontrolu ich dostupnosti a objasnenie tém (YAN)
YandexAccessibilityBot	Sťahuje stránky, aby skontroloval ich dostupnosť pre používateľov
YandexScreenshotBot	Vytvorí snímku (snímku obrazovky) stránky
YandexVideoParser	Pavúk služby Yandex.Video
YandexSearchShop	Sťahuje YML súbory katalógov produktov
YandexOntoDBAPI	Robot odozvy na objekt sťahuje dynamické údaje

Ďalšie populárne vyhľadávacie roboty

user-agent	Funkcie
Baiduspider	Čínsky vyhľadávač Baidu spider
cliqzbot	Robot anonymného vyhľadávača Cliqz
AhrefsBot	Vyhľadávací robot Ahrefs (analýza odkazov)
Genieo	Servisný robot Genieo
bingbot	Prehľadávač vyhľadávacieho nástroja Bing
Slurp	Prehľadávač pre vyhľadávače Yahoo
DuckDuckBot	Webový prehľadávač PS DuckDuckGo
facebot	Facebook robot na prehľadávanie webu
WebAlta (WebAlta Crawler/2.0)	Vyhľadávací prehľadávač PS WebAlta
BomboraBot	Skenuje stránky zapojené do projektu Bombora
CCBot	Prehľadávač založený na Nutch, ktorý používa projekt Apache Hadoop
MSNBot	Bot PS MSN
Mail.Ru	Prehľadávač vyhľadávacieho nástroja Mail.Ru
ia_archiver	Sťahovanie údajov pre službu Alexa
Teoma	Opýtajte sa servisného robota

Vyhľadávacích robotov je veľa, vybral som len tých najpopulárnejších a najznámejších. Ak existujú roboty, s ktorými ste sa stretli v dôsledku agresívneho a trvalého prehľadávania stránok, uveďte to v komentároch, pridám ich tiež do tabuľky.

Roboty vyhľadávačov, niekedy označované ako pavúky alebo prehľadávače, sú softvérové moduly vyhľadávanie webových stránok. Ako fungujú? čo vlastne robia? Prečo sú dôležité?

So všetkým rozruchom okolo optimalizácie pre vyhľadávače a indexových databáz vyhľadávacích nástrojov si možno myslíte, že roboty musia byť skvelé a silné bytosti. Nepravda. Roboty vyhľadávacích nástrojov majú iba základné funkcie podobné tým, ktoré používali staršie prehliadače, pokiaľ ide o to, aké informácie dokážu na stránke rozpoznať. Rovnako ako prvé prehliadače, roboty jednoducho nemôžu robiť určité veci. Roboty nerozumejú rámom, Flash animáciám, obrázkom alebo JavaScriptu. Nemôžu vstúpiť do sekcií chránených heslom a nemôžu kliknúť na všetky tlačidlá, ktoré sú na stránke. Môžu sa zaseknúť v procese indexovania dynamických adries URL a byť veľmi pomalí, až sa zastavia a sú bezmocní v porovnaní s navigáciou JavaScript.

Ako fungujú roboty vyhľadávačov?

Webové prehľadávače by sa mali považovať za automatizované programy na dolovanie údajov, ktoré surfujú na webe pri hľadaní informácií a odkazov na informácie.

Keď po návšteve stránky Odoslať URL zaregistrujete do vyhľadávača inú webovú stránku, do poradia na prezeranie stránok robotom sa pridá nová URL. Aj keď si stránku nezaregistrujete, veľa robotov nájde vašu stránku, pretože na tú vašu sú odkazy z iných stránok. To je jeden z dôvodov, prečo je dôležité budovať popularitu odkazov a umiestňovať odkazy na iné tematické zdroje.

Keď prídu na vašu stránku, roboty najprv skontrolujú, či existuje súbor robots.txt. Tento súbor informuje roboty, ktoré časti vašej lokality nemajú byť indexované. Zvyčajne to môžu byť adresáre obsahujúce súbory, ktoré robota nezaujímajú alebo by o nich nemal vedieť.

Roboty ukladajú a zhromažďujú odkazy z každej stránky, ktorú navštívia, a neskôr tieto odkazy sledujú na iné stránky. Všetky celosvetovej sieti zostavené z odkazov. Prvotnou myšlienkou vytvorenia internetovej siete bolo, že bude možné sledovať odkazy z jedného miesta na druhé. Takto sa pohybujú roboty.

Vynaliezavosť indexovania stránok v reálnom čase závisí od inžinierov vyhľadávacích nástrojov, ktorí vynašli metódy používané na vyhodnocovanie informácií prijímaných robotmi vyhľadávacích nástrojov. vložené do databázy vyhľadávač, informácie sú dostupné používateľom, ktorí vykonávajú vyhľadávanie. Keď používateľ vyhľadávacieho nástroja zadá hľadaný výraz, vykoná sa séria rýchlych výpočtov, aby sa zabezpečilo, že sa skutočne vráti správna sada stránok pre najrelevantnejšiu odpoveď.

Môžete si pozrieť, ktoré stránky vašej lokality už navštívil vyhľadávací robot, riadený súbormi denníka servera alebo výsledky štatistického spracovania súboru denníka. Identifikáciou robotov môžete vidieť, kedy navštívili váš web, ktoré stránky a ako často. Niektoré roboty sa dajú ľahko identifikovať podľa ich mien, napríklad Googlebot Google. Iné sú viac skryté, ako napríklad Inktomis Slurp. V protokoloch možno nájsť aj iné roboty a je možné, že ich nebudete vedieť okamžite identifikovať; niektoré z nich môžu byť dokonca ľuďmi ovládané prehliadače.

Okrem identifikácie jedinečných prehľadávačov a počítania ich návštev vám štatistiky môžu ukázať aj agresívne prehľadávače, ktoré požierajú šírku pásma alebo prehľadávače, ktoré nechcete navštíviť svoju stránku.

Ako čítajú stránky vášho webu?

Keď indexový prehľadávač navštívi stránku, prehľadá jej viditeľný text, obsah rôznych značiek zdrojový kód vaša stránka (značka názvu, metaznačky atď.), ako aj hypertextové odkazy na stránke. Súdiac podľa slov odkazov, vyhľadávač rozhodne, o čom stránka je. Na výpočet kľúčových bodov stránky, ktoré „hrajú úlohu“, sa používa veľa faktorov. Každý vyhľadávací nástroj má svoj vlastný algoritmus na vyhodnocovanie a spracovanie informácií. V závislosti od toho, ako je robot nakonfigurovaný, sú informácie indexované a následne doručené do databázy vyhľadávacieho nástroja.

Potom sa informácie doručené do indexových databáz vyhľadávacieho nástroja stanú súčasťou vyhľadávacieho nástroja a procesu hodnotenia databázy. Keď návštevník zadá požiadavku, vyhľadávač prejde celú databázu, aby vrátil konečný zoznam, ktorý je relevantný Vyhľadávací dopyt.

Databáza vyhľadávače sú starostlivo spracované a zarovnané. Ak už ste v databáze, roboti vás budú pravidelne navštevovať, aby zhromaždili akékoľvek zmeny na stránkach a ubezpečili sa, že majú najnovšie informácie. Počet návštev závisí od nastavení vyhľadávača, ktoré sa môže líšiť v závislosti od jeho typu a účelu.

Vyhľadávacie roboty niekedy nedokážu indexovať webovú stránku. Ak vaša stránka spadla alebo ju navštevuje veľký počet návštevníkov, robot môže byť bezmocný pri pokuse o jej indexovanie. Keď sa to stane, stránku nie je možné opätovne indexovať v závislosti od toho, ako často ju robot navštevuje. Vo väčšine prípadov sa o to roboty, ktoré sa nedokázali dostať na vaše stránky, pokúsia neskôr v nádeji, že vaša stránka bude čoskoro dostupná.

Mnoho prehľadávačov nemožno identifikovať, keď si prezeráte protokoly. Možno vás navštevujú, ale záznamy hovoria, že niekto používa prehliadač Microsoft atď. Niektoré roboty sa identifikujú pomocou názvu vyhľadávača (googlebot) alebo jeho klonu (Scooter = AltaVista).

V závislosti od toho, ako je robot nakonfigurovaný, sú informácie indexované a následne doručené do databáz vyhľadávacích nástrojov.

Databázy vyhľadávačov podliehajú zmenám v rôznych časoch. Dokonca aj adresáre, ktoré majú sekundárne výsledky vyhľadávania, používajú údaje robotov ako obsah svojich webových stránok.

V skutočnosti roboty nevyužívajú vyhľadávače len na vyššie uvedené účely. Existujú roboty, ktoré kontrolujú databázy na nový obsah, navštevujú starý obsah databázy, kontrolujú, či sa odkazy zmenili, sťahujú celé stránky na prehliadanie atď.

Z tohto dôvodu vám čítanie protokolových súborov a sledovanie výsledkov vyhľadávacieho nástroja pomáha sledovať indexovanie vašich projektov.

vyhľadávací robot nazýva sa špeciálny program vyhľadávacieho nástroja, ktorý je určený na zadávanie (indexovanie) stránok nájdených na internete a ich stránok do databázy. Používajú sa aj názvy: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princíp činnosti

Vyhľadávací robot je program typu prehliadača. Neustále prehľadáva sieť: navštevuje indexované (jemu už známe) stránky, sleduje odkazy z nich a nachádza nové zdroje. Keď sa nájde nový zdroj, robot ho pridá do indexu vyhľadávacieho nástroja. Vyhľadávací robot tiež indexuje aktualizácie na stránkach, ktorých frekvencia je pevná. Napríklad web, ktorý sa aktualizuje raz týždenne, navštívi pavúk s takouto frekvenciou a obsah na spravodajských weboch je možné indexovať v priebehu niekoľkých minút od zverejnenia. Ak na stránku nevedie žiadny odkaz z iných zdrojov, potom, aby sa prilákali vyhľadávacie roboty, musí byť zdroj pridaný prostredníctvom špeciálneho formulára (Google Webmaster Center, Yandex Webmaster Panel atď.).

Typy vyhľadávacích robotov

Pavúky Yandex:

Yandex/1.01.001 I je hlavný indexovací robot,
Yandex/1.01.001 (P) - indexuje obrázky,
Yandex/1.01.001 (H) - nájde zrkadlá stránok,
Yandex/1.03.003 (D) - určuje, či sa stránka pridaná z panela správcu webu zhoduje s parametrami indexovania,
YaDirectBot/1.0 (I) - indexuje zdroje z reklamnej siete Yandex,
Yandex/1.02.000 (F) — indexuje obľúbené ikony stránok.

Google Spiders:

Googlebot je hlavný robot,
Googlebot News – prehľadáva a indexuje správy,
Google Mobile – indexuje webové stránky pre mobilné zariadenia,
Googlebot Images – vyhľadáva a indexuje obrázky,
Googlebot Video – indexuje videá,
Google AdsBot – kontroluje kvalitu vstupnej stránky,
Google Mobile AdSense a Google AdSense – indexuje stránky reklamnej siete Google.

Iné vyhľadávače tiež používajú niekoľko typov robotov, ktoré sú funkčne podobné tým, ktoré sú uvedené.

1.1.1. Komponenty vyhľadávacieho nástroja

Informácie na webe sa nielen dopĺňajú, ale aj neustále menia, ale o týchto zmenách nikto nikomu nehovorí. Neprítomný jeden systém zadávanie informácií, ktoré sú súčasne dostupné všetkým používateľom internetu. Preto s cieľom štruktúrovať informácie a poskytnúť používateľom pohodlné prostriedky na vyhľadávanie údajov boli vytvorené vyhľadávače.

Vyhľadávače sú odlišné typy. Niektorí z nich hľadajú informácie podľa toho, čo do nich ľudia vkladajú. Môžu to byť adresáre, kde sú informácie o stránkach, ich Stručný opis alebo recenzie zadávajú redaktori. Vyhľadávajú sa medzi týmito popismi.

Posledne menované zhromažďujú informácie na webe pomocou špeciálne programy. Ide o vyhľadávače, ktoré sa spravidla skladajú z troch hlavných komponentov:

Index;

vyhľadávač.

agent, alebo bežnejšie - pavúk, robot (v anglickej literatúre - spider, crawler), pri hľadaní informácií obchádza sieť alebo určitú jej časť. Tento robot vedie zoznam adries (URL), ktoré môže navštíviť a indexovať, sťahuje dokumenty zodpovedajúce odkazom a analyzuje ich v pravidelných intervaloch pre každý vyhľadávací nástroj. Výsledný obsah stránok robot uloží v kompaktnejšej podobe a prenesie do Indexu. Ak sa pri analýze stránky (dokumentu) nájde nový odkaz, robot ho pridá do svojho zoznamu. Preto môže robot nájsť akýkoľvek dokument alebo stránku, ktorá má odkazy. A naopak, ak stránka alebo akákoľvek jej časť žiadne nemá vonkajšie odkazy, robot ho nemusí nájsť.

Robot nie je len zberač informácií. Má dosť rozvinutú „inteligenciu“. Roboty môžu vyhľadávať stránky určitého subjektu, vytvárať zoznamy stránok zoradené podľa návštevnosti, extrahovať a spracovávať informácie z existujúcich databáz a môžu sledovať odkazy rôznych hĺbok hniezdenia. Ale v každom prípade odovzdajú všetky nájdené informácie do databázy (Indexu) vyhľadávača.

Vyhľadávacie roboty sú rôzne druhy:

? Pavúk(pavúk) je program, ktorý sťahuje webové stránky rovnakým spôsobom ako prehliadač používateľa. Rozdiel je v tom, že prehliadač zobrazuje informácie obsiahnuté na stránke (text, grafika atď.), zatiaľ čo pavúk nemá žiadne vizuálne komponenty a pracuje priamo s HTML textom stránky (podobne ako to, čo uvidíte, ak zapnite zobrazenie HTML kódu vo svojom prehliadači).

? Crawler(crawler, "cestujúci" pavúk) - zvýrazní všetky odkazy prítomné na stránke. Jeho úlohou je na základe odkazov alebo na základe vopred definovaného zoznamu adries určiť, kam má ísť pavúk ďalej. Prehľadávač po nájdených odkazoch hľadá nové dokumenty, ktoré sú pre vyhľadávač stále neznáme.

? Indexer analyzuje stránku na jednotlivé časti a analyzuje ich. Vyberajú sa a analyzujú sa rôzne prvky stránky, ako napríklad text, nadpisy, štrukturálne a štýlové prvky, špeciálne servisné značky HTML atď.

Index- je to časť vyhľadávača, v ktorej sa hľadajú informácie. Index obsahuje všetky údaje, ktoré mu odovzdali roboty, takže veľkosť indexu môže dosiahnuť stovky gigabajtov. V skutočnosti index obsahuje kópie všetkých stránok navštívených robotmi. Ak robot zistí zmenu na stránke, ktorú už indexoval, odošle aktualizované informácie do Indexu. Mala by nahradiť existujúcu, no v niektorých prípadoch sa v Indexe objaví nielen nová stránka, ale zostane aj stará stránka.

vyhľadávač je samotné rozhranie, pomocou ktorého návštevník komunikuje s Indexom. Prostredníctvom rozhrania používatelia zadávajú svoje požiadavky a dostávajú odpovede a majitelia stránok ich registrujú (a táto registrácia je ďalším spôsobom, ako sprostredkovať adresu vašej stránky robotovi). Pri spracovaní dopytu vyhľadávací nástroj vyberie zodpovedajúce stránky a dokumenty z mnohých miliónov indexovaných zdrojov a usporiada ich podľa dôležitosti alebo relevantnosti pre dopyt.