Hľadajte pavúky. Vyhľadávací robot

Ahojte všetci! Dnes vám poviem, ako funguje vyhľadávací robot. Dozviete sa tiež, čo sú vyhľadávacie roboty. Ich účel a vlastnosti.

Na začiatok mi dovoľte začať s definíciou.

Vyhľadávací robot- je to druh programu, ktorý navštevuje hypertextové odkazy, extrahuje všetky nasledujúce dokumenty z konkrétneho zdroja a zadáva ich do indexu vyhľadávacieho nástroja.

Každý vyhľadávací robot má svoje jedinečné meno - Crawler, Spider atď.

Čo robí vyhľadávací robot?

Ako som povedal, každý robot má svoje jedinečné meno a podľa toho každý vykonáva svoju špecifickú prácu, alebo povedzme účel.

Pozrime sa, aké funkcie vykonávajú:

Žiadosť o prístup na stránku;
Žiadosť o spracovanie a extrakciu stránok;
Žiadosť o analýzu obsahu;
vyhľadávanie odkazov;
Monitorovanie aktualizácií;
Žiadosť o údaje RSS (zber obsahu);
Indexovanie.

Napríklad Yandex má niekoľko robotov, ktoré samostatne indexujú, analyzujú a zhromažďujú informácie o nasledujúcich údajoch:

Video;
Snímky;
Zrkadlo stránky;
XML súbory;
súbor robots.txt;
Komentáre;

Vo všeobecnosti vyhľadávací robot v skutočnosti iba navštevuje internetové zdroje a zbiera potrebné údaje, ktoré potom odovzdá indexátorovi vyhľadávacieho nástroja.

Je to indexer vyhľadávacieho nástroja, ktorý spracováva prijaté údaje a správne zostavuje index vyhľadávacieho nástroja. Dokonca by som povedal, že robot je „kuriér“, ktorý iba zbiera informácie.

Ako sa roboty správajú a ako ich ovládať

Rozdiely medzi správaním robota a jednoduchého používateľa na stránke sú nasledovné:

1. Po prvé, týka sa to ovládateľnosti. V prvom rade si robot vyžiada od vášho hostingu () súbor robots.txt, ktorý označuje, čo je možné indexovať a čo nie.

2. Zvláštnym rozdielom medzi robotom je rýchlosť. Medzi každou žiadosťou, ktorá sa týka dvoch rôzne dokumenty ich rýchlosť je v sekundách a dokonca v zlomkoch sekundy.

Aj na to existuje špeciálne pravidlo, ktoré je možné v súbore robots.txt špecifikovať tak, že robot vyhľadávače obmedziť požiadavky, čím sa zníži zaťaženie blogu.

3. Tiež by som rád poznamenal ich nepredvídateľnosť. Keď robot navštívi váš blog, jeho akcie sa nedajú sledovať, nie je možné zistiť, odkiaľ prišiel atď. Funguje podľa vlastného princípu a v poradí, v akom je zostavený indexovací front.

4. A ešte jedna vec, keď robot v prvom rade venuje pozornosť hypertextu a textové dokumenty a nie na žiadne súvisiace súbory CSS štýl a tak ďalej.

Chcete vidieť, ako vaša blogová stránka vyzerá v očiach vyhľadávacieho robota? Jednoducho vo svojom prehliadači vypnite Flash, obrázky a štýly.

A uvidíte, že akýkoľvek vyhľadávací robot indexuje iba HTML kód stránky, bez akýchkoľvek obrázkov alebo iného obsahu.

A teraz je čas hovoriť o tom, ako ich spravovať. Ako som už povedal, roboty je možné ovládať pomocou špeciálneho súboru robots.txt, do ktorého môžete napísať pokyny a výnimky, ktoré potrebujeme na kontrolu ich správania na vašom blogu.

vyhľadávací robot volal špeciálny program akýkoľvek vyhľadávací nástroj, ktorý je určený na zadávanie do databázy (indexovanie) stránok nájdených na internete a ich stránok. Používajú sa aj názvy: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princíp činnosti

Vyhľadávací robot je program typu prehliadača. Neustále prehľadáva sieť: navštevuje indexované (jemu už známe) stránky, sleduje odkazy z nich a nachádza nové zdroje. Keď sa nájde nový zdroj, robot ho pridá do indexu vyhľadávacieho nástroja. Vyhľadávací robot tiež indexuje aktualizácie na stránkach, ktorých frekvencia je pevná. Napríklad web, ktorý sa aktualizuje raz týždenne, navštívi pavúk s takouto frekvenciou a obsah na spravodajských weboch je možné indexovať v priebehu niekoľkých minút od zverejnenia. Ak na stránku nevedie žiadny odkaz z iných zdrojov, potom, aby sa prilákali vyhľadávacie roboty, musí byť zdroj pridaný prostredníctvom špeciálneho formulára (Google Webmaster Center, Yandex Webmaster Panel atď.).

Typy vyhľadávacích robotov

Pavúky Yandex:

Yandex/1.01.001 I je hlavný indexovací robot,
Yandex/1.01.001 (P) - indexuje obrázky,
Yandex/1.01.001 (H) - nájde zrkadlá stránok,
Yandex/1.03.003 (D) - určuje, či sa stránka pridaná z panela správcu webu zhoduje s parametrami indexovania,
YaDirectBot/1.0 (I) - indexuje zdroje z reklamnej siete Yandex,
Yandex/1.02.000 (F) — indexuje obľúbené ikony stránok.

Google Spiders:

Googlebot je hlavný robot,
Googlebot News – prehľadáva a indexuje správy,
Google Mobile – indexuje webové stránky pre mobilné zariadenia,
Googlebot Images – vyhľadáva a indexuje obrázky,
Googlebot Video – indexuje videá,
Google AdsBot – kontroluje kvalitu vstupnej stránky,
Google Mobile AdSense a Google AdSense – indexuje stránky reklamnej siete Google.

Iné vyhľadávače tiež používajú niekoľko typov robotov, ktoré sú funkčne podobné tým, ktoré sú uvedené.

zvyčajne vyhľadávač je stránka, ktorá sa špecializuje na vyhľadávanie informácií, ktoré zodpovedajú kritériám dopytu používateľa. Hlavnou úlohou takýchto stránok je organizovať a štruktúrovať informácie v sieti.

Väčšina ľudí, ktorí využívajú služby vyhľadávača, sa nikdy nečuduje, ako presne stroj funguje, hľadajúc potrebné informácie z hlbín internetu.

Pre bežného používateľa siete nie je samotný koncept princípov fungovania vyhľadávacích nástrojov kritický, pretože algoritmy, ktoré riadia systém, sú schopné uspokojiť potreby osoby, ktorá nevie, ako vytvoriť optimalizovaný dopyt, keď hľadanie potrebných informácií. Ale pre webového vývojára a špecialistov zaoberajúcich sa optimalizáciou webových stránok je jednoducho potrebné mať aspoň počiatočné koncepty štruktúry a princípov vyhľadávačov.

Každý vyhľadávač pracuje na presných algoritmoch, ktoré sú prísne dôverné a sú známe len úzkemu okruhu zamestnancov. Pri navrhovaní stránky alebo jej optimalizácii je však nevyhnutné vziať do úvahy všeobecné pravidlá fungovania vyhľadávačov, o ktorých sa hovorí v tomto článku.

Napriek tomu, že každý PS má svoju vlastnú štruktúru, po dôkladnom preštudovaní ich možno kombinovať do základných, zovšeobecňujúcich komponentov:

Modul indexovania

Indexovací modul – Tento prvok obsahuje tri ďalšie komponenty (boty):

1. Pavúk (pavúk robot) - sťahuje stránky, filtruje tok textu a extrahuje z neho všetky interné hypertextové odkazy. Spider navyše ukladá dátum stiahnutia a názov odpovede servera, ako aj URL – adresu stránky.

2. Crawler (crawling robot spider) – analyzuje všetky odkazy na stránke a na základe tejto analýzy určí, ktorú stránku navštíviť a ktorú sa neoplatí navštíviť. Rovnakým spôsobom prehľadávač nájde nové zdroje, ktoré by mal PS spracovať.

3. indexátor (Robot-indexer) - zaoberá sa analýzou internetových stránok stiahnutých pavúkom. V tomto prípade je samotná stránka rozdelená do blokov a analyzovaná indexátorom pomocou morfologických a lexikálnych algoritmov. Rôzne časti webovej stránky spadajú pod analýzu indexátora: nadpisy, texty a ďalšie servisné informácie.

Všetky dokumenty spracované týmto modulom sú uložené v databáze vyhľadávača, ktorá sa nazýva systémový index. Okrem samotných dokumentov obsahuje databáza aj potrebné servisné údaje - výsledok starostlivého spracovania týchto dokumentov, podľa ktorého vyhľadávač plní požiadavky používateľov.

vyhľadávací server

ďalšie, veľmi dôležitý komponent systémy - vyhľadávací server, ktorého úlohou je spracovať požiadavku používateľa a vygenerovať stránku s výsledkami vyhľadávania.

Pri spracovaní požiadavky používateľa vyhľadávací server vypočíta hodnotenie relevantnosti vybratých dokumentov vzhľadom na požiadavku používateľa. Toto hodnotenie určuje pozíciu, ktorú webová stránka zaujme vo výsledkoch vyhľadávania. Každý dokument, ktorý vyhovuje kritériám vyhľadávania, sa zobrazí na stránke s výsledkami ako úryvok.

Úryvok je Stručný opis stránku vrátane názvu, odkazu, kľúčových slov a stručných textových informácií. Na základe úryvku môže používateľ vyhodnotiť relevantnosť stránok vybraných vyhľadávačom k jeho dopytu.

Najdôležitejším kritériom, ktorým sa vyhľadávací server riadi pri hodnotení výsledkov dopytu, je nám už známy indikátor TCI ().

Všetky opísané komponenty PS sú drahé a veľmi náročné na zdroje. Výkon vyhľadávacieho nástroja priamo závisí od účinnosti interakcie týchto komponentov.

Páčil sa vám článok? Prihláste sa na odber noviniek blogu alebo zdieľajte na sociálnych sieťach a ja vám odpoviem

6 komentárov k príspevku “Vyhľadávače sú ich roboty a pavúky”

Tieto informácie som hľadal už dlho, ďakujem.

Odpoveď

Som rád, že sa tvoj blog neustále vyvíja. Takéto príspevky len zvyšujú popularitu.

Odpoveď

Niečo som pochopil. Otázka znie, závisí PR nejako od TIC?

Ako fungujú roboty vyhľadávačov

Vyhľadávací robot (pavúk, bot) je a malý program, schopný navštíviť milióny webových stránok bez účasti operátora a skenovať gigabajty textov. Čítanie strán a ukladanie ich textových kópií je prvou fázou indexovania nových dokumentov. Treba poznamenať, že roboty vyhľadávačov nevykonávajú žiadne spracovanie prijatých údajov. Ich úlohou je iba uchovávať textové informácie.

Viac videí na našom kanáli - naučte sa internetový marketing so SEMANTICOU

Zoznam vyhľadávacích robotov

Zo všetkých vyhľadávacích nástrojov zapojených do skenovania Runet má Yandex najväčšiu zbierku robotov. Za indexovanie sú zodpovedné nasledujúce roboty:

hlavný indexovací robot, ktorý zhromažďuje údaje z webových stránok;
robot schopný rozpoznať zrkadlá;
Vyhľadávací robot Yandex, ktorý indexuje obrázky;
pavúk prehliadajúci stránky stránok akceptovaných v YAN;
robot skenuje ikony favicon;
niekoľko pavúkov, ktoré určujú dostupnosť stránok lokality.

Hlavný vyhľadávací robot Google zhromažďuje textové informácie. V podstate sa pozerá na html súbory, analyzuje JS a CSS v pravidelných intervaloch. Dokáže akceptovať všetky typy obsahu povolené na indexovanie. PS Google má pavúka, ktorý ovláda indexovanie obrázkov. K dispozícii je tiež vyhľadávací robot - program, ktorý podporuje fungovanie mobilná verzia Vyhľadávanie.

Pozrite sa na stránku očami vyhľadávacieho robota

Na opravu chýb v kóde a iných nedostatkov môže správca webu zistiť, ako web vidí vyhľadávací robot. Túto možnosť poskytuje Google PS. Budete musieť prejsť do nástrojov správcu webu a potom kliknúť na kartu „skenovať“. V okne, ktoré sa otvorí, vyberte riadok „prehliadať ako Googlebot“. Ďalej musíte do vyhľadávacieho formulára zadať adresu skúmanej stránky (bez uvedenia domény a protokolu http://).

Výberom príkazu „získať a zobraziť“ bude správca webu schopný vizuálne posúdiť stav stránky webu. Ak to chcete urobiť, musíte kliknúť na začiarkavacie políčko „požiadať o zobrazenie“. Otvorí sa okno s dvoma verziami webového dokumentu. Správca webu sa dozvie, ako vidí stránku bežný návštevník a v akej forme je dostupná vyhľadávaciemu pavúku.

Tip: Ak analyzovaný webový dokument ešte nie je indexovaný, môžete použiť príkaz „pridať do indexu“ >> „prehľadávať iba túto adresu URL“. Pavúk analyzuje dokument za niekoľko minút, v blízkej budúcnosti sa webová stránka objaví vo výsledkoch vyhľadávania. Mesačný limit žiadostí o indexovanie je 500 dokumentov.

Ako ovplyvniť rýchlosť indexovania

Keď správca webu zistí, ako fungujú vyhľadávacie roboty, bude môcť svoju stránku propagovať oveľa efektívnejšie. Jedným z hlavných problémov mnohých mladých webových projektov je slabá indexácia. Roboty vyhľadávačov sa zdráhajú navštevovať neautoritatívne internetové zdroje.
Zistilo sa, že rýchlosť indexovania priamo závisí od intenzity aktualizácie stránky. Pravidelné pridávanie jedinečných textových materiálov pritiahne pozornosť vyhľadávača.

Na urýchlenie indexovania môžete použiť sociálne záložky a službu twitter. Odporúča sa vygenerovať súbor Sitemap a nahrať ho do koreňového adresára webového projektu.

Na internete je viac ako sto miliónov zdrojov a milióny požadované stránky nám nikdy nebudú známe. Ako nájsť kvapku, ktorú potrebujeme v tomto oceáne? Tu nám prichádza na pomoc. Vyhľadávanie ou stroj. Toto pavúk, a len on vie, čo a na akom mieste webu má.

Vyhľadávanie nové stroje internet ach, toto sú stránky špeciálne navrhnuté tak, aby vám pomohli nájsť potrebné informácie V globálnej siete World Wide Web. Existujú tri hlavné funkcie, rovnaké pre všetky Vyhľadávanie nové stroje:

- Vyhľadávanie ovikov na zadané kľúčové slová "hľadaj" na internete;
- indexované adresy Vyhľadávanie ovikami spolu so slovami;
- indexované webové stránky tvoria základ, ktorý Vyhľadávanie oviki poskytujú používateľom Vyhľadávanie A Kľúčové slová alebo ich kombinácie.

najprv Vyhľadávanie Hoviki dostával až 2 000 žiadostí denne a indexoval státisíce stránok. Dnes sa počet žiadostí za deň pohybuje v stovkách miliónov stránok a desiatkach miliónov.

P vyhľadávače až World Wide Web.

najprv Vyhľadávanie ovikami internet a existovali programy "gopher" a "Archie". Indexovali súbory umiestnené na pripojenom internet servery, čím sa opakovane skracuje čas pre Vyhľadávanie potrebné dokumenty. Koncom 80. rokov schopnosť pracovať v internet neklesol na schopnosť používať Archieho, gophera, Veronicu a podobne Vyhľadávanie nové programy.

Dnes web sa stala najžiadanejšou časťou internet a väčšina internet používatelia vykonávajú Vyhľadávanie iba v World Wide Web (www).

robot- pavúk

Program robota použitý v Vyhľadávanie nové stroje, nazýva sa aj "pavúk", pavúk(pavúk), vykoná proces vytvorenia zoznamu slov nájdených na stránke wed-resource. Proces sa nazýva Prehľadávanie webu(plazenie). Vyhľadávanie Nový pavúk prezerá množstvo ďalších stránok, zostavuje a opravuje zoznam užitočných slov, t.j. mať nejaký význam, váhu.

Cesta cez Vyhľadávanie u na sieti pavúk (pavúk) začína najväčším serverom a najpopulárnejšími webovými stránkami. Po obídení takejto stránky a indexovaní všetkých nájdených slov začne prehľadávať iné stránky pomocou nájdených odkazov. Týmto spôsobom robot pavúk zachytáva celý webový priestor.

Zakladatelia Google, Sergey Brin a Laurence Page, uvádzajú príklad práce Google pavúk ov. Je ich viacero. Vyhľadávanie začína tri pavúk ami. Jeden pavúk podporuje pripojenie až 300 strán súčasne. Špičkové zaťaženie, štyri pavúk a sú schopné spracovať až sto strán za sekundu, pričom generujú návštevnosť približne 600 kB/s. Zapnuté tento moment, keď si toto prečítate, možno sa vám tie čísla budú zdať smiešne.

Kľúčové slová pre robota vyhľadávacieho nástroja

Vlastník webového zdroja chce byť zvyčajne zahrnutý Vyhľadávanie nové výsledky pre požadované Vyhľadávanie ach slová. Tieto slová sa nazývajú kľúč s. Kľučev Slová definujú podstatu obsahu webovej stránky. A Meta Tagy s tým pomáhajú. Potom ponúknu vyhľadávaciemu robotovi na výber kľúč slová použité na indexovanie stránky. Neodporúčame však pridávať metaznačky k obľúbeným dopytom, ktoré nesúvisia s obsahom samotnej stránky. Roboty vyhľadávačov bojujú proti tomuto fenoménu a budete mať šťastie, ak vynecháte meta tagy kľúč inými slovami, ktoré nezodpovedajú obsahu stránok.

Meta tagy sú veľmi užitočným nástrojom, keď kľúč Prvé slová z nich sa v texte strany niekoľkokrát opakujú. Ale nepreháňajte to, existuje šanca, že robot vezme stránku za dvere.

Algoritmy indexovania vyhľadávačov

Algoritmy Vyhľadávanie Hoviks sa zameriava na efektivitu konečného výsledku, ale každý má k tomu iný prístup. Lycos Vyhľadávanie Nové roboty indexujú slová v názve (nadpise), odkazoch (odkazoch) a až sto často používaných slov na stránke a každé slovo z prvých 20 riadkov obsahu stránky.

Googlebot berie do úvahy umiestnenie slova na stránke (v prvku body). Slová služobných oddielov, ako napr titulky, názov, metaznačky et al., označuje za obzvlášť dôležité, s vylúčením citosloviec „a“, „an“ a „the.“.

Iné Vyhľadávanie oviki môže mať trochu iný spôsob prístupu k indexovaniu slov používaných pre Vyhľadávanie nové požiadavky používateľov.