Roboty vyhľadávačov. Vyhľadávače ich roboty a pavúky Vyhľadávajte pavúky

vyhľadávací robot nazýva sa špeciálny program vyhľadávacieho nástroja, ktorý je určený na zadávanie (indexovanie) stránok nájdených na internete a ich stránok do databázy. Používajú sa aj názvy: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princíp činnosti

Vyhľadávací robot je program typu prehliadača. Neustále prehľadáva sieť: navštevuje indexované (jemu už známe) stránky, sleduje odkazy z nich a nachádza nové zdroje. Keď sa nájde nový zdroj, robot ho pridá do indexu vyhľadávacieho nástroja. Vyhľadávací robot tiež indexuje aktualizácie na stránkach, ktorých frekvencia je pevná. Napríklad web, ktorý sa aktualizuje raz týždenne, navštívi pavúk s takouto frekvenciou a obsah na spravodajských weboch je možné indexovať v priebehu niekoľkých minút od zverejnenia. Ak na stránku nevedie žiadny odkaz z iných zdrojov, potom, aby sa prilákali vyhľadávacie roboty, musí byť zdroj pridaný prostredníctvom špeciálneho formulára (Google Webmaster Center, Yandex Webmaster Panel atď.).

Typy vyhľadávacích robotov

Pavúky Yandex:

  • Yandex/1.01.001 I je hlavný indexovací robot,
  • Yandex/1.01.001 (P) - indexuje obrázky,
  • Yandex/1.01.001 (H) - nájde zrkadlá stránok,
  • Yandex/1.03.003 (D) - určuje, či sa stránka pridaná z panela správcu webu zhoduje s parametrami indexovania,
  • YaDirectBot/1.0 (I) - indexuje zdroje z reklamnej siete Yandex,
  • Yandex/1.02.000 (F) — indexuje obľúbené ikony stránok.

Google Spiders:

  • Googlebot je hlavný robot,
  • Googlebot News – prehľadáva a indexuje správy,
  • Google Mobile – indexuje webové stránky pre mobilné zariadenia,
  • Googlebot Images – vyhľadáva a indexuje obrázky,
  • Googlebot Video – indexuje videá,
  • Google AdsBot – kontroluje kvalitu vstupnej stránky,
  • Google Mobile AdSense a Google AdSense – indexuje stránky reklamnej siete Google.

Iné vyhľadávače tiež používajú niekoľko typov robotov, ktoré sú funkčne podobné tým, ktoré sú uvedené.

zvyčajne vyhľadávač je stránka, ktorá sa špecializuje na vyhľadávanie informácií, ktoré zodpovedajú kritériám dopytu používateľa. Hlavnou úlohou takýchto stránok je organizovať a štruktúrovať informácie v sieti.

Väčšina ľudí, ktorí využívajú služby vyhľadávača, sa nikdy nečuduje, ako presne stroj funguje, hľadajúc potrebné informácie z hlbín internetu.

Pre bežného používateľa siete nie je samotný koncept princípov fungovania vyhľadávacích nástrojov kritický, pretože algoritmy, ktoré riadia systém, sú schopné uspokojiť potreby osoby, ktorá nevie, ako vytvoriť optimalizovaný dopyt, keď hľadanie potrebných informácií. Ale pre webového vývojára a špecialistov zaoberajúcich sa optimalizáciou webových stránok je jednoducho potrebné mať aspoň počiatočné koncepty štruktúry a princípov vyhľadávačov.

Každý vyhľadávač pracuje na presných algoritmoch, ktoré sú prísne dôverné a sú známe len úzkemu okruhu zamestnancov. Pri navrhovaní stránky alebo jej optimalizácii je však nevyhnutné vziať do úvahy všeobecné pravidlá fungovania vyhľadávačov, o ktorých sa hovorí v tomto článku.

Napriek tomu, že každý PS má svoju vlastnú štruktúru, po dôkladnom preštudovaní ich možno kombinovať do základných, zovšeobecňujúcich komponentov:

Modul indexovania

Indexovací modul – Tento prvok obsahuje tri ďalšie komponenty (boty):

1. Pavúk (pavúk robot) - sťahuje stránky, filtruje tok textu a extrahuje z neho všetky interné hypertextové odkazy. Spider navyše ukladá dátum stiahnutia a názov odpovede servera, ako aj URL – adresu stránky.

2. Crawler (crawling robot spider) – analyzuje všetky odkazy na stránke a na základe tejto analýzy určí, ktorú stránku navštíviť a ktorú sa neoplatí navštíviť. Rovnakým spôsobom prehľadávač nájde nové zdroje, ktoré by mal PS spracovať.

3. indexátor (Robot-indexer) - zaoberá sa analýzou internetových stránok stiahnutých pavúkom. V tomto prípade je samotná stránka rozdelená do blokov a analyzovaná indexátorom pomocou morfologických a lexikálnych algoritmov. Rôzne časti webovej stránky spadajú pod analýzu indexátora: nadpisy, texty a ďalšie servisné informácie.

Všetky dokumenty spracované týmto modulom sú uložené v databáze vyhľadávača, ktorá sa nazýva systémový index. Okrem samotných dokumentov obsahuje databáza aj potrebné servisné údaje - výsledok starostlivého spracovania týchto dokumentov, podľa ktorého vyhľadávač plní požiadavky používateľov.

vyhľadávací server

ďalšie, veľmi dôležitý komponent systémy - vyhľadávací server, ktorého úlohou je spracovať požiadavku používateľa a vygenerovať stránku s výsledkami vyhľadávania.

Pri spracovaní požiadavky používateľa vyhľadávací server vypočíta hodnotenie relevantnosti vybratých dokumentov vzhľadom na požiadavku používateľa. Toto hodnotenie určuje pozíciu, ktorú webová stránka zaujme vo výsledkoch vyhľadávania. Každý dokument, ktorý vyhovuje kritériám vyhľadávania, sa zobrazí na stránke s výsledkami ako úryvok.

Úryvok je Stručný opis stránku vrátane názvu, odkazu, kľúčových slov a stručných textových informácií. Na základe úryvku môže používateľ vyhodnotiť relevantnosť stránok vybraných vyhľadávačom k jeho dopytu.

Najdôležitejším kritériom, ktorým sa vyhľadávací server riadi pri hodnotení výsledkov dopytu, je nám už známy indikátor TCI ().

Všetky opísané komponenty PS sú drahé a veľmi náročné na zdroje. Výkon vyhľadávacieho nástroja priamo závisí od účinnosti interakcie týchto komponentov.

Páčil sa vám článok? Prihláste sa na odber noviniek blogu alebo zdieľajte na sociálnych sieťach a ja vám odpoviem


6 komentárov k príspevku “Vyhľadávače sú ich roboty a pavúky”

    Tieto informácie som hľadal už dlho, ďakujem.

    Odpoveď

    Som rád, že sa tvoj blog neustále vyvíja. Takéto príspevky len zvyšujú popularitu.

    Odpoveď

    Niečo som pochopil. Otázka znie, závisí PR nejako od TIC?

    Dobrý deň, priatelia! Dnes sa dozviete, ako fungujú vyhľadávacie roboty Yandex a Google a akú funkciu vykonávajú pri propagácii webových stránok. Tak, poďme!

    Vyhľadávače robia túto akciu s cieľom nájsť desať WEB projektov z milióna stránok, ktoré majú kvalitnú a relevantnú odpoveď na dopyt používateľa. Prečo len desať? Pretože pozostáva len z desiatich pozícií.

    Vyhľadávajte priateľov robotov, správcov webu a používateľov

    Prečo je dôležité navštíviť stránku pomocou vyhľadávacích robotov, je už jasné a prečo je to pre používateľa? Je to tak, aby používateľ otvoril iba tie stránky, ktoré odpovedajú na jeho požiadavku v plnom rozsahu.

    Vyhľadávací robot- veľmi flexibilný nástroj, dokáže nájsť stránku, dokonca aj tú, ktorá bola práve vytvorená, a vlastník tejto stránky ešte nebol zapojený do . Preto sa tento robot nazýval pavúk, môže si natiahnuť labky a dostať sa kdekoľvek na virtuálnom webe.

    Je možné ovládať vyhľadávacieho robota vo vašich záujmoch?

    Sú chvíle, keď niektoré stránky nie sú zahrnuté do vyhľadávania. Je to spôsobené najmä tým, že táto stránka ešte nebola zaindexovaná vyhľadávacím robotom. Samozrejme, skôr či neskôr si túto stránku všimne vyhľadávací robot. Chce to však čas a niekedy aj dosť času. Tu však môžete pomôcť vyhľadávaciemu robotovi rýchlejšie navštíviť túto stránku.

    Ak to chcete urobiť, môžete umiestniť svoje stránky do špeciálnych adresárov alebo zoznamov, sociálnych sietí. Vo všeobecnosti na všetkých stránkach, kde vyhľadávací robot jednoducho žije. Napríklad v sociálnych sieťach je aktualizácia každú sekundu. Skúste si nárokovať svoju stránku a vyhľadávací robot príde na vašu stránku oveľa rýchlejšie.

    Z toho vyplýva jedno, no hlavné pravidlo. Ak chcete, aby vaše stránky navštevovali roboty vyhľadávačov, je potrebné, aby pravidelne dostávali nový obsah. V prípade, že si všimnú, že sa obsah aktualizuje, stránka sa vyvíja, navštívia váš internetový projekt oveľa častejšie.

    Každý vyhľadávací robot si môže zapamätať, ako často sa mení váš obsah. Hodnotí nielen kvalitu, ale aj časové intervaly. A ak sa materiál na stránke aktualizuje raz za mesiac, príde na stránku raz za mesiac.

    Ak sa teda stránka aktualizuje raz týždenne, vyhľadávací robot príde raz za týždeň. Ak aktualizujete stránku každý deň, vyhľadávací robot navštívi stránku každý deň alebo každý druhý deň. Existujú stránky, ktoré sú indexované do niekoľkých minút po aktualizácii. Toto sociálne médiá, agregátory správ a stránky, ktoré uverejňujú niekoľko článkov denne.

    Ako dať robotovi úlohu a niečo mu zakázať?

    Hneď na začiatku sme sa dozvedeli, že vyhľadávače majú viacero robotov, ktorí vykonávajú rôzne úlohy. Niekto hľadá obrázky, niekto odkazy a podobne.

    Pomocou špeciálneho súboru môžete ovládať akéhokoľvek robota robots.txt . Práve z tohto súboru sa robot začína zoznamovať so stránkou. V tomto súbore môžete určiť, či môže robot indexovať stránku, ak áno, ktoré sekcie. Všetky tieto inštrukcie môžu byť vytvorené pre jedného alebo všetkých robotov.

    Školenie propagácie webových stránok

    Získajte viac informácií o zložitosti propagácie webových stránok SEO vo vyhľadávačoch systémy Google a Yandex, hovorím na svojom Skype. Zvýšil som návštevnosť všetkých svojich WEB projektov a mám z toho vynikajúce výsledky. Môžem ťa to naučiť, ak máš záujem!

    Priatelia, ešte raz vás zdravím! Teraz budeme analyzovať, čo sú vyhľadávacie roboty a podrobne sa porozprávame o vyhľadávacom robote Google a o tom, ako sa s nimi spriateliť.

    Najprv musíte pochopiť, čo sú vyhľadávacie roboty vo všeobecnosti, nazývajú sa tiež pavúky. Akú prácu robia pavúky vyhľadávačov?

    Sú to programy, ktoré kontrolujú webové stránky. Prezerajú si všetky príspevky a stránky na vašom blogu, zbierajú informácie, ktoré potom prenášajú do databázy vyhľadávača, pre ktorý pracujú.

    Nemusíte poznať celý zoznam vyhľadávacích robotov, najdôležitejšie je vedieť, že Google má teraz dvoch hlavných pavúkov, ktorí sa nazývajú „panda“ a „tučniak“. Bojujú s nekvalitným obsahom a nevyžiadanými odkazmi a vy musíte vedieť, ako ich útoky odraziť.

    Vyhľadávací robot google panda bol vytvorený s cieľom propagovať vo vyhľadávaní iba kvalitný materiál. Všetky stránky s nízkou kvalitou obsahu sú nižšie vo výsledkoch vyhľadávania.

    Prvýkrát sa tento pavúk objavil v roku 2011. Pred jeho objavením bolo možné propagovať akúkoľvek stránku publikovaním veľkého množstva textu v článkoch a použitím obrovského množstva Kľúčové slová. Spoločne tieto dve techniky nepriniesli kvalitný obsah na popredné miesta vo výsledkoch vyhľadávania, ale dobré stránky klesali vo výsledkoch vyhľadávania.

    "Panda" okamžite urobila poriadok tým, že skontrolovala všetky stránky a umiestnila všetkých na ich správne miesta. Hoci bojuje s nekvalitným obsahom, už teraz sa dajú propagovať aj malé stránky s kvalitnými článkami. Hoci predtým bolo zbytočné takéto stránky propagovať, nedokázali konkurovať gigantom, ktorí majú veľké množstvo obsahu.

    Teraz zistíme, ako sa vyhnúť sankciám „pandy“. Najprv musíme pochopiť, čo sa jej nepáči. Už som písal vyššie, že bojuje so zlým obsahom, ale aký text je pre ňu zlý, poďme na to, aby sme toto na svojej stránke nezverejňovali.

    Vyhľadávací robot Google sa snaží zabezpečiť, aby v tomto vyhľadávači boli vydávané len kvalitné materiály pre uchádzačov. Ak máte články, v ktorých je málo informácií a nie sú na pohľad príťažlivé, tak tieto texty urýchlene prepíšte, aby sa k vám „panda“ nedostala.

    Kvalitný obsah môže byť veľký aj malý, ale ak pavúk uvidí dlhý článok s množstvom informácií, bude z toho pre čitateľa väčší úžitok.

    Potom treba poznamenať duplicitu, inými slovami plagiát. Ak si myslíte, že budete prepisovať cudzie články na svoj blog, môžete so svojou stránkou okamžite skoncovať. Kopírovanie sa prísne trestá použitím filtra a plagiátorstvo sa kontroluje veľmi jednoduché, napísal som článok na túto tému ako skontrolovať jedinečnosť textov.

    Ďalšia vec, ktorú si treba všimnúť, je presýtenosť textu kľúčovými slovami. Kto si myslí, že napíše článok z rovnakých kľúčových slov a dostane sa na prvé miesto vo výsledkoch vyhľadávania, je na veľkom omyle. Mám článok o tom, ako skontrolovať relevantnosť stránok, určite si ho prečítajte.

    A čo k vám môže prilákať „pandu“, sú staré články, ktoré sú morálne zastarané a neprinášajú na stránku návštevnosť. Je potrebné ich aktualizovať.

    Existuje aj vyhľadávací robot Google „tučniak“. Tento pavúk bojuje proti spamu a nevyžiadaným odkazom na vašom webe. Tiež vypočítava zakúpené odkazy z iných zdrojov. Preto, aby ste sa tohto vyhľadávacieho robota nebáli, nemali by ste kupovať odkazy, ale zverejňovať kvalitný obsah, aby na vás ľudia odkazovali sami.

    Teraz sformulujme, čo je potrebné urobiť, aby stránka vyzerala dokonale očami vyhľadávacieho robota:

    • Ak chcete vytvoriť kvalitný obsah, pred písaním článku si najprv dobre preštudujte tému. Potom musíte pochopiť, že ľudí táto téma skutočne zaujíma.
    • Použite konkrétne príklady a obrázky, vďaka tomu bude článok živý a zaujímavý. Rozdeľte text na malé odseky, aby sa dal ľahko čítať. Ak napríklad otvoríte stránku s vtipmi v novinách, ktoré z nich si prečítate ako prvé? Prirodzene, každý číta najskôr krátke texty, potom dlhšie a v neposlednom rade dlhé nánožníky.
    • Pandin obľúbený hnidopich nie je relevantný pre článok, ktorý obsahuje zastarané informácie. Zostaňte naladení na aktualizácie a zmeny textov.
    • Sledujte hustotu kľúčových slov, vyššie som napísal, ako určiť túto hustotu, v službe, o ktorej som hovoril, dostanete presný počet požadovaných kľúčov.
    • Neplagiujte, každý vie, že nemôžete kradnúť veci alebo text iných ľudí - je to to isté. Za krádež budete zodpovedný tým, že sa dostanete pod filter.
    • Napíšte texty aspoň na dvetisíc slov, potom bude takýto článok vyzerať informatívne očami robotov vyhľadávačov.
    • Neodchádzajte od témy na svojom blogu. Ak prevádzkujete blog o zarábaní peňazí na internete, nemusíte tlačiť články o vzduchovkách. To môže znížiť hodnotenie vášho zdroja.
    • Krásne navrhnite články, rozdeľte ich do odstavcov a pridajte obrázky, aby sa vám čítali príjemne a nechceli rýchlo opustiť stránku.
    • Keď kupujete odkazy, urobte ich na najzaujímavejšie a najužitočnejšie články, ktoré budú ľudia skutočne čítať.

    Teraz už viete, akú prácu robia roboty vyhľadávačov a môžete sa s nimi spriateliť. A čo je najdôležitejšie, vyhľadávací robot Google a „panda“ a „tučniak“ ste podrobne študovali.

    1.1.1. Komponenty vyhľadávacieho nástroja

    Informácie na webe sa nielen dopĺňajú, ale aj neustále menia, ale o týchto zmenách nikto nikomu nehovorí. Neprítomný jeden systém zadávanie informácií, ktoré sú súčasne dostupné všetkým používateľom internetu. Preto s cieľom štruktúrovať informácie a poskytnúť používateľom pohodlné prostriedky na vyhľadávanie údajov boli vytvorené vyhľadávače.

    Vyhľadávače existujú odlišné typy. Niektorí z nich hľadajú informácie podľa toho, čo do nich ľudia vkladajú. Môžu to byť adresáre, do ktorých redaktori zadávajú informácie o stránkach, ich stručný popis alebo recenzie. Vyhľadávajú sa medzi týmito popismi.

    Posledne menované zhromažďujú informácie na webe pomocou špeciálne programy. Ide o vyhľadávače, ktoré sa spravidla skladajú z troch hlavných komponentov:

    Index;

    vyhľadávač.

    agent, alebo bežnejšie - pavúk, robot (v anglickej literatúre - spider, crawler), pri hľadaní informácií obchádza sieť alebo určitú jej časť. Tento robot vedie zoznam adries (URL), ktoré môže navštíviť a indexovať, sťahuje dokumenty zodpovedajúce odkazom a analyzuje ich v pravidelných intervaloch pre každý vyhľadávací nástroj. Výsledný obsah stránok robot uloží v kompaktnejšej podobe a prenesie do Indexu. Ak sa pri analýze stránky (dokumentu) nájde nový odkaz, robot ho pridá do svojho zoznamu. Preto môže robot nájsť akýkoľvek dokument alebo stránku, ktorá má odkazy. A naopak, ak stránka alebo akákoľvek jej časť žiadne nemá vonkajšie odkazy, robot ho nemusí nájsť.

    Robot nie je len zberač informácií. Má dosť rozvinutú „inteligenciu“. Roboty môžu vyhľadávať stránky určitého subjektu, vytvárať zoznamy stránok zoradené podľa návštevnosti, extrahovať a spracovávať informácie z existujúcich databáz a môžu sledovať odkazy rôznych hĺbok hniezdenia. Ale v každom prípade odovzdajú všetky nájdené informácie do databázy (Indexu) vyhľadávača.

    Vyhľadávacie roboty existujú rôzne druhy:

    ? Pavúk(pavúk) je program, ktorý sťahuje webové stránky rovnakým spôsobom ako prehliadač používateľa. Rozdiel je v tom, že prehliadač zobrazuje informácie obsiahnuté na stránke (text, grafika atď.), zatiaľ čo pavúk nemá žiadne vizuálne komponenty a pracuje priamo s HTML textom stránky (podobne ako to, čo uvidíte, ak zapnite zobrazenie HTML kódu vo svojom prehliadači).

    ? Crawler(crawler, "cestujúci" pavúk) - zvýrazní všetky odkazy prítomné na stránke. Jeho úlohou je na základe odkazov alebo na základe vopred definovaného zoznamu adries určiť, kam má ísť pavúk ďalej. Prehľadávač po nájdených odkazoch hľadá nové dokumenty, ktoré sú pre vyhľadávač stále neznáme.

    ? Indexer analyzuje stránku na jednotlivé časti a analyzuje ich. Vyberajú sa a analyzujú sa rôzne prvky stránky, ako napríklad text, nadpisy, štrukturálne a štýlové prvky, špeciálne servisné značky HTML atď.

    Index- je to časť vyhľadávača, v ktorej sa hľadajú informácie. Index obsahuje všetky údaje, ktoré mu odovzdali roboty, takže veľkosť indexu môže dosiahnuť stovky gigabajtov. V skutočnosti index obsahuje kópie všetkých stránok navštívených robotmi. Ak robot zistí zmenu na stránke, ktorú už indexoval, odošle aktualizované informácie do Indexu. Mala by nahradiť existujúcu, no v niektorých prípadoch sa v Indexe objaví nielen nová stránka, ale zostane aj stará stránka.

    vyhľadávač je samotné rozhranie, pomocou ktorého návštevník komunikuje s Indexom. Prostredníctvom rozhrania užívatelia zadávajú svoje požiadavky a dostávajú odpovede a majitelia stránok ich registrujú (a táto registrácia je ďalším spôsobom, ako sprostredkovať adresu vašej stránky robotovi). Pri spracovaní dopytu vyhľadávací nástroj vyberie zodpovedajúce stránky a dokumenty z mnohých miliónov indexovaných zdrojov a usporiada ich podľa dôležitosti alebo relevantnosti pre dopyt.



Načítava...
Hore