A szervernaplókat átnézve néha túlzott érdeklődést tapasztalhat a keresőrobotok webhelyei iránt. Ha a botok hasznosak (például a PS robotjainak indexelése), akkor csak megfigyelni kell, még akkor is, ha a szerver terhelése nő. De még mindig sok másodlagos robot van, amelyek hozzáférése nem szükséges az oldalhoz. Magamnak és neked, kedves olvasó, információkat gyűjtöttem, és kényelmes táblagéppé alakítottam át.
Kik a keresőrobotok
kereső bot, vagy ahogy más néven, robot, lánctalpas, pók – nem több, mint olyan program, amely az oldalakon található hivatkozásokra kattintva megkeresi és ellenőrzi az oldalak tartalmát. A keresőrobotok nem csak a keresőmotorok számára készültek. Például az Ahrefs szolgáltatás pókokat használ a visszamutató hivatkozások adatainak javítására, a Facebook pedig az oldal kódjának webes lekaparását végzi el, hogy címekkel, képekkel és leírásokkal együtt megjelenítse a hivatkozások újraküldését. A webkaparás különböző forrásokból származó információk gyűjtése.
Póknevek használata a robots.txt fájlban
Mint látható, minden komoly, tartalomkereséssel kapcsolatos projektnek megvannak a maga pókjai. És néha sürgős feladat korlátozni egyes pókok hozzáférését a webhelyhez vagy annak oldalához külön szakaszok. Ezt a webhely gyökérkönyvtárában található robots.txt fájlon keresztül lehet megtenni. A robotok beállításáról korábban írtam bővebben, javaslom, hogy olvassa el.
Kérjük, vegye figyelembe, hogy a robots.txt fájlt és direktíváit a keresőrobotok figyelmen kívül hagyhatják. Az irányelvek csak iránymutatások a robotok számára.
A keresőrobothoz direktívát állíthat be a szakasz segítségével – fellebbezés a robot felhasználói ügynökéhez. A különböző pókokhoz tartozó szakaszokat egy üres sor választja el.
User-agent: Googlebot Engedélyezés: /
Felhasználói ügynök: Googlebot lehetővé teszi: / |
A fenti egy példa a Google fő robotjának hívására.
Kezdetben azt terveztem, hogy bejegyzéseket adok a táblázathoz arról, hogy a keresőrobotok hogyan azonosítják magukat a szervernaplókban. Ám mivel ezeknek az adatoknak a SEO szempontjából kevés a jelentősége, és minden ügynök tokenhez többféle rekord is tartozhat, úgy döntöttünk, hogy csak a botok nevével és céljával boldogulunk.
Keresőrobotok G o o g l e
user-agent | Funkciók |
---|---|
Googlebot | A fő bejáró-indexelő PC-re és okostelefonra optimalizált oldalakhoz |
Mediapartners-Google | AdSense hirdetési hálózat robotja |
API-k – Google | API-k – Google felhasználói ügynök |
AdsBot-Google | Ellenőrzi a hirdetések minőségét a számítógépre tervezett weboldalakon |
AdsBot-Google-Mobile | Ellenőrzi a hirdetések minőségét a mobileszközökre tervezett weboldalakon |
Googlebot kép (Googlebot) | Indexeli a képeket a webhely oldalain |
Googlebot News (Googlebot) | Olyan oldalakat keres, amelyeket hozzáadhat a Google Hírekhez |
Googlebot Videó (Googlebot) | Videótartalmat indexel |
AdsBot-Google-Mobile-Apps | Ellenőrzi a hirdetések minőségét az alkalmazásokban: Android készülékek, ugyanazon az elven működik, mint a hagyományos AdsBot |
Az általam indexelt keresőrobotok
user-agent | Funkciók |
---|---|
Yandex | Ha ez az ügynök token meg van adva a robots.txt fájlban, a kérés az összes Yandex bothoz eljut |
YandexBot | Fő indexelő robot |
YandexDirect | Információkat tölt le a YAN partneroldalak tartalmáról |
YandexImages | A webhely képeit indexeli |
YandexMetrika | Robot Yandex.Metrica |
YandexMobileBot | Dokumentumokat tölt le a mobileszközök elrendezésének meglétének elemzéséhez |
YandexMedia | Robot indexeli a multimédiás adatokat |
YandexNews | Yandex.News indexelő |
YandexPagechecker | Mikroadat-ellenőrző |
YandexMarket | Yandex.Market robot; |
YandexCalenda | Robot Yandex.Calendar |
YandexDirectDyn | Dinamikus bannereket generál (közvetlen) |
YaDirectFetcher | Letölti a hirdetéseket tartalmazó oldalakat, hogy ellenőrizze elérhetőségüket és tisztázza a témákat (YAN) |
YandexAccessibilityBot | Letölti az oldalakat, hogy ellenőrizze azok elérhetőségét a felhasználók számára |
YandexScreenshotBot | Pillanatképet (képernyőképet) készít az oldalról |
YandexVideoParser | Yandex.Video szolgáltatás pók |
YandexSearchShop | Letölti a termékkatalógusok YML fájljait |
YandexOntoDBAPI | Objektumválasz-robot dinamikus adatokat tölt le |
Más népszerű keresőrobotok
user-agent | Funkciók |
---|---|
Baiduspider | Kínai kereső, Baidu pók |
cliqzbot | Cliqz névtelen keresőrobot |
AhrefsBot | Ahrefs keresőbot (linkelemzés) |
Genieo | Genieo szerviz robot |
bingbot | Bing keresőrobot |
Slurp | Yahoo keresőrobot |
DuckDuckBot | PS DuckDuckGo webrobot |
facebot | Facebook robot webes bejáráshoz |
WebAlta (WebAlta Crawler/2.0) | PS WebAlta keresőrobot |
BomboraBot | Beolvassa a Bombora projektben érintett oldalakat |
CCBot | Nutch-alapú bejáró, amely az Apache Hadoop projektet használja |
MSNBot | Bot PS MSN |
Mail.Ru | Mail.Ru keresőrobot |
ia_archiver | Adatok lekaparása az Alexa szolgáltatáshoz |
Teoma | Kérdezze meg a szervizbotot |
Nagyon sok keresőrobot létezik, csak a legnépszerűbbeket és a legismertebbeket válogattam ki. Ha vannak olyan botok, amelyekkel agresszív és kitartó oldalfeltérképezés miatt találkozott, kérjük, jelezze ezt a megjegyzésekben, ezeket is felveszem a táblázatba.
A keresőrobotok, amelyeket néha pókoknak vagy bejáróknak is neveznek, azok szoftver modulok weboldalak keresése. Hogyan működnek? Mit csinálnak valójában? Miért fontosak?A keresőoptimalizálás és a keresőmotor-index adatbázisok körüli zsivaj mellett talán azt gondolja, hogy a robotoknak nagyszerű és erős lényeknek kell lenniük. Nem igaz. A keresőrobotok csak alapvető funkciókkal rendelkeznek, amelyek hasonlóak a korai böngészőkhöz, abból a szempontból, hogy milyen információkat tudnak felismerni egy webhelyen. A korai böngészőkhöz hasonlóan a robotok egyszerűen nem tudnak bizonyos dolgokat elvégezni. A robotok nem értik a kereteket, a Flash-animációkat, a képeket vagy a JavaScriptet. Nem léphetnek be jelszóval védett szakaszokba, és nem kattinthatnak az oldalon található összes gombra. Megakadhatnak a dinamikus URL-ek indexelési folyamatában, és nagyon lassúak lehetnek, egészen addig a pontig, hogy leállnak, és tehetetlenek lehetnek a JavaScript-navigációval szemben.
Hogyan működnek a keresőrobotok?
A webrobotokat olyan automatizált adatbányászati programoknak kell tekinteni, amelyek információkat és információkra mutató hivatkozásokat keresve szörföznek a weben.Amikor az URL elküldése oldal meglátogatása után egy másik weboldalt regisztrál a keresőben, akkor egy új URL-t adunk a robot általi oldalmegtekintési sorba. Még ha nem is regisztrál egy oldalt, sok robot meg fogja találni az Ön webhelyét, mert vannak más oldalak linkjei, amelyek a tiédre mutatnak. Ez az egyik oka annak, hogy miért fontos a linkek népszerűsítése és a hivatkozások elhelyezése más tematikus forrásokon.
Amikor felkeresik webhelyét, a robotok először ellenőrzik, hogy van-e robots.txt fájl. Ez a fájl közli a robotokkal, hogy webhelyének mely részeit ne indexeljék. Általában ezek olyan könyvtárak lehetnek, amelyek olyan fájlokat tartalmaznak, amelyek a robotot nem érdeklik, vagy amelyekről nem szabad tudnia.
A robotok minden általuk meglátogatott oldalról tárolnak és gyűjtenek linkeket, majd később követik ezeket a hivatkozásokat más oldalakra. Minden világméretű hálózat linkekből épül fel. Az internetes hálózat létrehozásának kezdeti ötlete az volt, hogy lehetővé válik a hivatkozások követése egyik helyről a másikra. Így mozognak a robotok.
Az oldalak valós idejű indexelésének leleményessége a keresőmotorok mérnökein múlik, akik kitalálták a keresőrobotok által kapott információk értékelésére szolgáló módszereket. beágyazva az adatbázisba keresőmotor, az információ a keresést végző felhasználók számára elérhető. Amikor a keresőmotor felhasználója beír egy keresési kifejezést, egy sor gyors számítást végeznek annak biztosítására, hogy valóban a legrelevánsabb válaszhoz megfelelő webhelykészlet kerüljön visszaadásra.
Megtekintheti, hogy webhelyének mely oldalait kereste fel már a keresőrobot, a szerver naplófájljai, illetve a naplófájl statisztikai feldolgozásának eredményei alapján. A robotok azonosításával láthatja, hogy mikor, mely oldalakat és milyen gyakran látogatták meg a webhelyén. Néhány robot könnyen azonosítható a nevük alapján, például a Google Googlebotja. Mások rejtettebbek, mint például az Inktomis Slurp. Más robotok is megtalálhatók a naplókban, és előfordulhat, hogy nem fogja tudni azonnal azonosítani őket; némelyikük akár ember által vezérelt böngésző is lehet.
Az egyedi bejárók azonosításán és látogatásaik számának számlálásán túl a statisztikák azt is kimutathatják, hogy agresszív, sávszélességet fogyasztó bejárók vagy bejárók, akiket nem szeretne felkeresni a webhelyén.
Hogyan olvassák a webhely oldalait?
Amikor egy bejáró meglátogat egy oldalt, átvizsgálja annak látható szövegét, a különböző címkék tartalmát forráskód oldala (címcímke, metacímkék stb.), valamint az oldalon található hiperhivatkozások. A linkek szavaiból ítélve a kereső dönti el, hogy miről szól az oldal. Számos tényezőt használnak az oldal „szerepet játszó” kulcspontjainak kiszámításához. Minden keresőmotornak saját algoritmusa van az információk kiértékelésére és feldolgozására. A robot konfigurációjától függően az információ indexelve, majd a keresőmotor adatbázisába kerül.Ezt követően a keresőmotor-index adatbázisokba eljuttatott információk a keresőmotor és az adatbázis-rangsorolási folyamat részévé válnak. Amikor egy látogató kérést tesz, a keresőmotor végigjárja a teljes adatbázist, hogy visszaadja a releváns végleges listát keresési lekérdezés.
Adatbázis kereső motorok gondosan feldolgozzák és összehangolják. Ha már benne van az adatbázisban, a robotok rendszeresen felkeresik Önt, hogy összegyűjtsék az oldalak változásait, és megbizonyosodjanak arról, hogy a legfrissebb információkkal rendelkeznek. A látogatások száma a keresőmotor beállításaitól függ, amelyek típusától és céljától függően változhatnak.
Néha a keresőrobotok nem képesek indexelni egy webhelyet. Ha webhelye összeomlott, vagy nagyszámú látogató keresi fel a webhelyet, akkor előfordulhat, hogy a robot tehetetlen az indexelésben. Ha ez megtörténik, a webhely nem indexelhető újra, attól függően, hogy a robot milyen gyakran látogatja meg. A legtöbb esetben azok a robotok, amelyek nem tudták elérni az oldalakat, később próbálkoznak, abban a reményben, hogy webhelye hamarosan elérhető lesz.
A naplók megtekintésekor sok bejáró nem azonosítható. Lehet, hogy meglátogatják Önt, de a naplók szerint valaki a Microsoft böngészőt használja stb. Egyes robotok egy keresőmotor (googlebot) vagy annak klónja (Scooter = AltaVista) nevével azonosítják magukat.
Attól függően, hogy a robot hogyan van konfigurálva, az információkat indexeli, majd eljuttatja a keresőmotorok adatbázisaihoz.
A keresőmotorok adatbázisai különböző időpontokban módosulhatnak. Még a másodlagos keresési eredményekkel rendelkező könyvtárak is robotadatokat használnak webhelyük tartalmaként.
Valójában a keresőmotorok nem csak a fentiekre használják a robotokat. Vannak olyan robotok, amelyek ellenőrzik az adatbázisok új tartalmát, meglátogatják a régi adatbázis-tartalmakat, ellenőrzik, hogy a hivatkozások megváltoztak-e, teljes webhelyeket töltenek le böngészés céljából, és így tovább.
Emiatt a naplófájlok olvasása és a keresőmotor eredményeinek nyomon követése segít a projektek indexelésének figyelemmel kísérésében.
keresőrobot egy speciális keresőprogramot hívnak, amely az interneten található oldalak és oldalaik adatbázisba való bejuttatására (indexelésére) szolgál. A nevek is használatosak: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.
Működés elve
A keresőrobot egy böngésző típusú program. Folyamatosan pásztázza a hálózatot: indexelt (számára már ismert) oldalakat keres fel, követi az azokon található linkeket és új forrásokat talál. Ha új erőforrást talál, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a közzétételt követően perceken belül indexelhető. Ha más forrásokból nem vezet hivatkozás a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon keresztül kell hozzáadni (Google Webmesterközpont, Yandex Webmester Panel stb.).
A keresőrobotok típusai
Yandex pókok:
- A Yandex/1.01.001 I a fő indexelő bot,
- Yandex/1.01.001 (P) - indexeli a képeket,
- Yandex/1.01.001 (H) - helytükröket talál,
- Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
- YaDirectBot/1.0 (I) - indexeli a Yandex hirdetési hálózat erőforrásait,
- Yandex/1.02.000 (F) – indexeli a webhely kedvenceit.
Google Spiders:
- A Googlebot a fő robot,
- Googlebot News – feltérképezi és indexeli a híreket,
- Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
- Googlebot Images – képeket keres és indexel,
- Googlebot Video – indexeli a videókat,
- Google AdsBot – ellenőrzi a céloldal minőségét,
- Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.
Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.
1.1.1. Keresőmotor alkatrészek
A weben található információk nemcsak feltöltődnek, hanem folyamatosan változnak is, de ezekről a változásokról senki nem szól. Hiányzó egy rendszer olyan információk bevitele, amelyek egyidejűleg minden internetfelhasználó számára elérhetők. Ezért az információk strukturálása, a felhasználók számára kényelmes adatkeresési eszközök biztosítása érdekében keresőmotorokat hoztak létre.
A keresőmotorok különböző típusok. Néhányan az alapján keresnek információt, amit az emberek beletesznek. Ezek lehetnek olyan címtárak, ahol információk találhatók a webhelyekről, azok Rövid leírás vagy a kritikákat a szerkesztők írják be. E leírások között keresik őket.
Utóbbiak segítségével gyűjtenek információkat a weben speciális programok. Ezek keresőmotorok, amelyek általában három fő összetevőből állnak:
Index;
keresőmotor.
Ügynök, vagy gyakrabban - egy pók, egy robot (az angol szakirodalomban - pók, lánctalpas), információ keresése során megkerüli a hálózatot vagy annak egy bizonyos részét. Ez a robot listát vezet azokról a címekről (URL-ekről), amelyeket felkereshet és indexelhet, letölti a hivatkozásoknak megfelelő dokumentumokat, és rendszeres időközönként elemzi azokat minden keresőmotor esetében. Az oldalak így létrejött tartalmát a robot kompaktabb formában elmenti és átviszi az Indexbe. Ha az oldal (dokumentum) elemzése során új hivatkozást találnak, a robot felveszi a listába. Ezért minden hivatkozást tartalmazó dokumentumot vagy webhelyet megtalál a robot. És fordítva, ha a webhely vagy annak bármely része nem rendelkezik ilyennel Külső linkek, előfordulhat, hogy a robot nem találja meg.
A robot nem csak információgyűjtő. Meglehetősen fejlett "intelligenciája" van. A robotok kereshetnek egy bizonyos tárgyhoz tartozó oldalakat, forgalom szerint rendezett webhelylistákat állíthatnak elő, információkat nyerhetnek ki és dolgozhatnak fel meglévő adatbázisokból, valamint követhetik a különböző mélységű linkeket. De mindenesetre minden talált információt átadnak a kereső adatbázisának (Indexnek).
A keresőrobotok azok különféle típusok:
? Pók(pók) egy olyan program, amely ugyanúgy letölti a weboldalakat, mint a felhasználó böngészője. A különbség az, hogy a böngésző megjeleníti az oldalon található információkat (szöveg, grafika stb.), míg a pók nem tartalmaz vizuális összetevőket, és közvetlenül az oldal HTML-szövegével dolgozik (hasonlóan ahhoz, amit látni fog, ha kapcsolja be a HTML-kód megtekintését a böngészőben).
? Bejáró(bejáró, "utazó" pók) - kiemeli az oldalon található összes hivatkozást. Feladata az, hogy a linkek vagy egy előre meghatározott címlista alapján meghatározza, merre menjen tovább a pók. A bejáró a talált hivatkozásokat követve új, a kereső számára még ismeretlen dokumentumokat keres.
? Indexelő elemzi az oldalt alkotóelemeire, és elemzi azokat. Különféle oldalelemek kerülnek kiválasztásra és elemzésre, mint például szöveg, címsor, szerkezeti és stílusjegyek, speciális szolgáltatás HTML címkék stb.
Index- ez a keresőmotor azon része, amelyben az információ keresésre kerül. Az index minden adatot tartalmaz, amit a robotok továbbítottak neki, így az index mérete elérheti a több száz gigabájtot. Valójában az index tartalmazza a robotok által meglátogatott összes oldal másolatát. Ha a robot változást észlel egy már indexelt oldalon, akkor frissített információkat küld az Indexnek. Le kell cserélnie a meglévőt, de esetenként nem csak új oldal jelenik meg az Indexben, hanem a régi oldal is megmarad.
keresőmotor pont az a felület, amelyen keresztül a látogató interakcióba lép az Indexszel. A felületen keresztül a felhasználók beírják kéréseiket és válaszokat kapnak, a webhelytulajdonosok pedig regisztrálják őket (és ez a regisztráció egy másik módja annak, hogy a webhely címét közölje a robottal). Egy lekérdezés feldolgozása során a kereső a sok millió indexelt forrás közül kiválasztja a megfelelő oldalakat és dokumentumokat, és azokat fontossági vagy a lekérdezés szempontjából releváns sorrendbe rendezi.