Milyen munkát végeznek a keresőpók? Információ keresése a weben

A szervernaplókat átnézve néha túlzott érdeklődést tapasztalhat a keresőrobotok webhelyei iránt. Ha a botok hasznosak (például a PS robotjainak indexelése), akkor csak megfigyelni kell, még akkor is, ha a szerver terhelése nő. De még mindig sok másodlagos robot van, amelyek hozzáférése nem szükséges az oldalhoz. Magamnak és neked, kedves olvasó, információkat gyűjtöttem, és kényelmes táblagéppé alakítottam át.

Kik a keresőrobotok

kereső bot, vagy ahogy más néven, robot, lánctalpas, pók – nem több, mint olyan program, amely az oldalakon található hivatkozásokra kattintva megkeresi és ellenőrzi az oldalak tartalmát. A keresőrobotok nem csak a keresőmotorok számára készültek. Például az Ahrefs szolgáltatás pókokat használ a visszamutató hivatkozások adatainak javítására, a Facebook pedig az oldal kódjának webes lekaparását végzi el, hogy címekkel, képekkel és leírásokkal együtt megjelenítse a hivatkozások újraküldését. A webkaparás különböző forrásokból származó információk gyűjtése.

Póknevek használata a robots.txt fájlban

Mint látható, minden komoly, tartalomkereséssel kapcsolatos projektnek megvannak a maga pókjai. És néha sürgős feladat korlátozni egyes pókok hozzáférését a webhelyhez vagy annak oldalához külön szakaszok. Ezt a webhely gyökérkönyvtárában található robots.txt fájlon keresztül lehet megtenni. A robotok beállításáról korábban írtam bővebben, javaslom, hogy olvassa el.

Kérjük, vegye figyelembe, hogy a robots.txt fájlt és direktíváit a keresőrobotok figyelmen kívül hagyhatják. Az irányelvek csak iránymutatások a robotok számára.

A keresőrobothoz direktívát állíthat be a szakasz segítségével – fellebbezés a robot felhasználói ügynökéhez. A különböző pókokhoz tartozó szakaszokat egy üres sor választja el.

User-agent: Googlebot Engedélyezés: /

Felhasználói ügynök: Googlebot

lehetővé teszi: /

A fenti egy példa a Google fő robotjának hívására.

Kezdetben azt terveztem, hogy bejegyzéseket adok a táblázathoz arról, hogy a keresőrobotok hogyan azonosítják magukat a szervernaplókban. Ám mivel ezeknek az adatoknak a SEO szempontjából kevés a jelentősége, és minden ügynök tokenhez többféle rekord is tartozhat, úgy döntöttünk, hogy csak a botok nevével és céljával boldogulunk.

Keresőrobotok G o o g l e

user-agent	Funkciók
Googlebot	A fő bejáró-indexelő PC-re és okostelefonra optimalizált oldalakhoz
Mediapartners-Google	AdSense hirdetési hálózat robotja
API-k – Google	API-k – Google felhasználói ügynök
AdsBot-Google	Ellenőrzi a hirdetések minőségét a számítógépre tervezett weboldalakon
AdsBot-Google-Mobile	Ellenőrzi a hirdetések minőségét a mobileszközökre tervezett weboldalakon
Googlebot kép (Googlebot)	Indexeli a képeket a webhely oldalain
Googlebot News (Googlebot)	Olyan oldalakat keres, amelyeket hozzáadhat a Google Hírekhez
Googlebot Videó (Googlebot)	Videótartalmat indexel
AdsBot-Google-Mobile-Apps	Ellenőrzi a hirdetések minőségét az alkalmazásokban: Android készülékek, ugyanazon az elven működik, mint a hagyományos AdsBot

Az általam indexelt keresőrobotok

user-agent	Funkciók
Yandex	Ha ez az ügynök token meg van adva a robots.txt fájlban, a kérés az összes Yandex bothoz eljut
YandexBot	Fő indexelő robot
YandexDirect	Információkat tölt le a YAN partneroldalak tartalmáról
YandexImages	A webhely képeit indexeli
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Dokumentumokat tölt le a mobileszközök elrendezésének meglétének elemzéséhez
YandexMedia	Robot indexeli a multimédiás adatokat
YandexNews	Yandex.News indexelő
YandexPagechecker	Mikroadat-ellenőrző
YandexMarket	Yandex.Market robot;
YandexCalenda	Robot Yandex.Calendar
YandexDirectDyn	Dinamikus bannereket generál (közvetlen)
YaDirectFetcher	Letölti a hirdetéseket tartalmazó oldalakat, hogy ellenőrizze elérhetőségüket és tisztázza a témákat (YAN)
YandexAccessibilityBot	Letölti az oldalakat, hogy ellenőrizze azok elérhetőségét a felhasználók számára
YandexScreenshotBot	Pillanatképet (képernyőképet) készít az oldalról
YandexVideoParser	Yandex.Video szolgáltatás pók
YandexSearchShop	Letölti a termékkatalógusok YML fájljait
YandexOntoDBAPI	Objektumválasz-robot dinamikus adatokat tölt le

Más népszerű keresőrobotok

user-agent	Funkciók
Baiduspider	Kínai kereső, Baidu pók
cliqzbot	Cliqz névtelen keresőrobot
AhrefsBot	Ahrefs keresőbot (linkelemzés)
Genieo	Genieo szerviz robot
bingbot	Bing keresőrobot
Slurp	Yahoo keresőrobot
DuckDuckBot	PS DuckDuckGo webrobot
facebot	Facebook robot webes bejáráshoz
WebAlta (WebAlta Crawler/2.0)	PS WebAlta keresőrobot
BomboraBot	Beolvassa a Bombora projektben érintett oldalakat
CCBot	Nutch-alapú bejáró, amely az Apache Hadoop projektet használja
MSNBot	Bot PS MSN
Mail.Ru	Mail.Ru keresőrobot
ia_archiver	Adatok lekaparása az Alexa szolgáltatáshoz
Teoma	Kérdezze meg a szervizbotot

Nagyon sok keresőrobot létezik, csak a legnépszerűbbeket és a legismertebbeket válogattam ki. Ha vannak olyan botok, amelyekkel agresszív és kitartó oldalfeltérképezés miatt találkozott, kérjük, jelezze ezt a megjegyzésekben, ezeket is felveszem a táblázatba.

A keresőrobotok, amelyeket néha pókoknak vagy bejáróknak is neveznek, azok szoftver modulok weboldalak keresése. Hogyan működnek? Mit csinálnak valójában? Miért fontosak?

A keresőoptimalizálás és a keresőmotor-index adatbázisok körüli zsivaj mellett talán azt gondolja, hogy a robotoknak nagyszerű és erős lényeknek kell lenniük. Nem igaz. A keresőrobotok csak alapvető funkciókkal rendelkeznek, amelyek hasonlóak a korai böngészőkhöz, abból a szempontból, hogy milyen információkat tudnak felismerni egy webhelyen. A korai böngészőkhöz hasonlóan a robotok egyszerűen nem tudnak bizonyos dolgokat elvégezni. A robotok nem értik a kereteket, a Flash-animációkat, a képeket vagy a JavaScriptet. Nem léphetnek be jelszóval védett szakaszokba, és nem kattinthatnak az oldalon található összes gombra. Megakadhatnak a dinamikus URL-ek indexelési folyamatában, és nagyon lassúak lehetnek, egészen addig a pontig, hogy leállnak, és tehetetlenek lehetnek a JavaScript-navigációval szemben.

Hogyan működnek a keresőrobotok?

A webrobotokat olyan automatizált adatbányászati programoknak kell tekinteni, amelyek információkat és információkra mutató hivatkozásokat keresve szörföznek a weben.

Amikor az URL elküldése oldal meglátogatása után egy másik weboldalt regisztrál a keresőben, akkor egy új URL-t adunk a robot általi oldalmegtekintési sorba. Még ha nem is regisztrál egy oldalt, sok robot meg fogja találni az Ön webhelyét, mert vannak más oldalak linkjei, amelyek a tiédre mutatnak. Ez az egyik oka annak, hogy miért fontos a linkek népszerűsítése és a hivatkozások elhelyezése más tematikus forrásokon.

Amikor felkeresik webhelyét, a robotok először ellenőrzik, hogy van-e robots.txt fájl. Ez a fájl közli a robotokkal, hogy webhelyének mely részeit ne indexeljék. Általában ezek olyan könyvtárak lehetnek, amelyek olyan fájlokat tartalmaznak, amelyek a robotot nem érdeklik, vagy amelyekről nem szabad tudnia.

A robotok minden általuk meglátogatott oldalról tárolnak és gyűjtenek linkeket, majd később követik ezeket a hivatkozásokat más oldalakra. Minden világméretű hálózat linkekből épül fel. Az internetes hálózat létrehozásának kezdeti ötlete az volt, hogy lehetővé válik a hivatkozások követése egyik helyről a másikra. Így mozognak a robotok.

Az oldalak valós idejű indexelésének leleményessége a keresőmotorok mérnökein múlik, akik kitalálták a keresőrobotok által kapott információk értékelésére szolgáló módszereket. beágyazva az adatbázisba keresőmotor, az információ a keresést végző felhasználók számára elérhető. Amikor a keresőmotor felhasználója beír egy keresési kifejezést, egy sor gyors számítást végeznek annak biztosítására, hogy valóban a legrelevánsabb válaszhoz megfelelő webhelykészlet kerüljön visszaadásra.

Megtekintheti, hogy webhelyének mely oldalait kereste fel már a keresőrobot, a szerver naplófájljai, illetve a naplófájl statisztikai feldolgozásának eredményei alapján. A robotok azonosításával láthatja, hogy mikor, mely oldalakat és milyen gyakran látogatták meg a webhelyén. Néhány robot könnyen azonosítható a nevük alapján, például a Google Googlebotja. Mások rejtettebbek, mint például az Inktomis Slurp. Más robotok is megtalálhatók a naplókban, és előfordulhat, hogy nem fogja tudni azonnal azonosítani őket; némelyikük akár ember által vezérelt böngésző is lehet.

Az egyedi bejárók azonosításán és látogatásaik számának számlálásán túl a statisztikák azt is kimutathatják, hogy agresszív, sávszélességet fogyasztó bejárók vagy bejárók, akiket nem szeretne felkeresni a webhelyén.

Hogyan olvassák a webhely oldalait?

Amikor egy bejáró meglátogat egy oldalt, átvizsgálja annak látható szövegét, a különböző címkék tartalmát forráskód oldala (címcímke, metacímkék stb.), valamint az oldalon található hiperhivatkozások. A linkek szavaiból ítélve a kereső dönti el, hogy miről szól az oldal. Számos tényezőt használnak az oldal „szerepet játszó” kulcspontjainak kiszámításához. Minden keresőmotornak saját algoritmusa van az információk kiértékelésére és feldolgozására. A robot konfigurációjától függően az információ indexelve, majd a keresőmotor adatbázisába kerül.

Ezt követően a keresőmotor-index adatbázisokba eljuttatott információk a keresőmotor és az adatbázis-rangsorolási folyamat részévé válnak. Amikor egy látogató kérést tesz, a keresőmotor végigjárja a teljes adatbázist, hogy visszaadja a releváns végleges listát keresési lekérdezés.

Adatbázis kereső motorok gondosan feldolgozzák és összehangolják. Ha már benne van az adatbázisban, a robotok rendszeresen felkeresik Önt, hogy összegyűjtsék az oldalak változásait, és megbizonyosodjanak arról, hogy a legfrissebb információkkal rendelkeznek. A látogatások száma a keresőmotor beállításaitól függ, amelyek típusától és céljától függően változhatnak.

Néha a keresőrobotok nem képesek indexelni egy webhelyet. Ha webhelye összeomlott, vagy nagyszámú látogató keresi fel a webhelyet, akkor előfordulhat, hogy a robot tehetetlen az indexelésben. Ha ez megtörténik, a webhely nem indexelhető újra, attól függően, hogy a robot milyen gyakran látogatja meg. A legtöbb esetben azok a robotok, amelyek nem tudták elérni az oldalakat, később próbálkoznak, abban a reményben, hogy webhelye hamarosan elérhető lesz.

A naplók megtekintésekor sok bejáró nem azonosítható. Lehet, hogy meglátogatják Önt, de a naplók szerint valaki a Microsoft böngészőt használja stb. Egyes robotok egy keresőmotor (googlebot) vagy annak klónja (Scooter = AltaVista) nevével azonosítják magukat.

Attól függően, hogy a robot hogyan van konfigurálva, az információkat indexeli, majd eljuttatja a keresőmotorok adatbázisaihoz.

A keresőmotorok adatbázisai különböző időpontokban módosulhatnak. Még a másodlagos keresési eredményekkel rendelkező könyvtárak is robotadatokat használnak webhelyük tartalmaként.

Valójában a keresőmotorok nem csak a fentiekre használják a robotokat. Vannak olyan robotok, amelyek ellenőrzik az adatbázisok új tartalmát, meglátogatják a régi adatbázis-tartalmakat, ellenőrzik, hogy a hivatkozások megváltoztak-e, teljes webhelyeket töltenek le böngészés céljából, és így tovább.

Emiatt a naplófájlok olvasása és a keresőmotor eredményeinek nyomon követése segít a projektek indexelésének figyelemmel kísérésében.

keresőrobot egy speciális keresőprogramot hívnak, amely az interneten található oldalak és oldalaik adatbázisba való bejuttatására (indexelésére) szolgál. A nevek is használatosak: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Működés elve

A keresőrobot egy böngésző típusú program. Folyamatosan pásztázza a hálózatot: indexelt (számára már ismert) oldalakat keres fel, követi az azokon található linkeket és új forrásokat talál. Ha új erőforrást talál, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a közzétételt követően perceken belül indexelhető. Ha más forrásokból nem vezet hivatkozás a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon keresztül kell hozzáadni (Google Webmesterközpont, Yandex Webmester Panel stb.).

A keresőrobotok típusai

Yandex pókok:

A Yandex/1.01.001 I a fő indexelő bot,
Yandex/1.01.001 (P) - indexeli a képeket,
Yandex/1.01.001 (H) - helytükröket talál,
Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
YaDirectBot/1.0 (I) - indexeli a Yandex hirdetési hálózat erőforrásait,
Yandex/1.02.000 (F) – indexeli a webhely kedvenceit.

Google Spiders:

A Googlebot a fő robot,
Googlebot News – feltérképezi és indexeli a híreket,
Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
Googlebot Images – képeket keres és indexel,
Googlebot Video – indexeli a videókat,
Google AdsBot – ellenőrzi a céloldal minőségét,
Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.

Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.

1.1.1. Keresőmotor alkatrészek

A weben található információk nemcsak feltöltődnek, hanem folyamatosan változnak is, de ezekről a változásokról senki nem szól. Hiányzó egy rendszer olyan információk bevitele, amelyek egyidejűleg minden internetfelhasználó számára elérhetők. Ezért az információk strukturálása, a felhasználók számára kényelmes adatkeresési eszközök biztosítása érdekében keresőmotorokat hoztak létre.

A keresőmotorok különböző típusok. Néhányan az alapján keresnek információt, amit az emberek beletesznek. Ezek lehetnek olyan címtárak, ahol információk találhatók a webhelyekről, azok Rövid leírás vagy a kritikákat a szerkesztők írják be. E leírások között keresik őket.

Utóbbiak segítségével gyűjtenek információkat a weben speciális programok. Ezek keresőmotorok, amelyek általában három fő összetevőből állnak:

Index;

keresőmotor.

Ügynök, vagy gyakrabban - egy pók, egy robot (az angol szakirodalomban - pók, lánctalpas), információ keresése során megkerüli a hálózatot vagy annak egy bizonyos részét. Ez a robot listát vezet azokról a címekről (URL-ekről), amelyeket felkereshet és indexelhet, letölti a hivatkozásoknak megfelelő dokumentumokat, és rendszeres időközönként elemzi azokat minden keresőmotor esetében. Az oldalak így létrejött tartalmát a robot kompaktabb formában elmenti és átviszi az Indexbe. Ha az oldal (dokumentum) elemzése során új hivatkozást találnak, a robot felveszi a listába. Ezért minden hivatkozást tartalmazó dokumentumot vagy webhelyet megtalál a robot. És fordítva, ha a webhely vagy annak bármely része nem rendelkezik ilyennel Külső linkek, előfordulhat, hogy a robot nem találja meg.

A robot nem csak információgyűjtő. Meglehetősen fejlett "intelligenciája" van. A robotok kereshetnek egy bizonyos tárgyhoz tartozó oldalakat, forgalom szerint rendezett webhelylistákat állíthatnak elő, információkat nyerhetnek ki és dolgozhatnak fel meglévő adatbázisokból, valamint követhetik a különböző mélységű linkeket. De mindenesetre minden talált információt átadnak a kereső adatbázisának (Indexnek).

A keresőrobotok azok különféle típusok:

? Pók(pók) egy olyan program, amely ugyanúgy letölti a weboldalakat, mint a felhasználó böngészője. A különbség az, hogy a böngésző megjeleníti az oldalon található információkat (szöveg, grafika stb.), míg a pók nem tartalmaz vizuális összetevőket, és közvetlenül az oldal HTML-szövegével dolgozik (hasonlóan ahhoz, amit látni fog, ha kapcsolja be a HTML-kód megtekintését a böngészőben).

? Bejáró(bejáró, "utazó" pók) - kiemeli az oldalon található összes hivatkozást. Feladata az, hogy a linkek vagy egy előre meghatározott címlista alapján meghatározza, merre menjen tovább a pók. A bejáró a talált hivatkozásokat követve új, a kereső számára még ismeretlen dokumentumokat keres.

? Indexelő elemzi az oldalt alkotóelemeire, és elemzi azokat. Különféle oldalelemek kerülnek kiválasztásra és elemzésre, mint például szöveg, címsor, szerkezeti és stílusjegyek, speciális szolgáltatás HTML címkék stb.

Index- ez a keresőmotor azon része, amelyben az információ keresésre kerül. Az index minden adatot tartalmaz, amit a robotok továbbítottak neki, így az index mérete elérheti a több száz gigabájtot. Valójában az index tartalmazza a robotok által meglátogatott összes oldal másolatát. Ha a robot változást észlel egy már indexelt oldalon, akkor frissített információkat küld az Indexnek. Le kell cserélnie a meglévőt, de esetenként nem csak új oldal jelenik meg az Indexben, hanem a régi oldal is megmarad.

keresőmotor pont az a felület, amelyen keresztül a látogató interakcióba lép az Indexszel. A felületen keresztül a felhasználók beírják kéréseiket és válaszokat kapnak, a webhelytulajdonosok pedig regisztrálják őket (és ez a regisztráció egy másik módja annak, hogy a webhely címét közölje a robottal). Egy lekérdezés feldolgozása során a kereső a sok millió indexelt forrás közül kiválasztja a megfelelő oldalakat és dokumentumokat, és azokat fontossági vagy a lekérdezés szempontjából releváns sorrendbe rendezi.