Keresőmotorok, keresőmotorok és pókrobotok. A keresőmotorok jövője

Hogyan működnek a keresőrobotok

A keresőrobot (pók, bot) a kis program, amely képes weboldalak millióinak meglátogatására üzemeltető részvétele nélkül és gigabájtnyi szöveg beolvasására. Az oldalak olvasása és szövegmásolatuk mentése az új dokumentumok indexelésének első lépése. Megjegyzendő, hogy a keresőrobotok nem dolgozzák fel a kapott adatokat. Feladatuk csak a szöveges információk tárolása.

Még több videó a csatornánkon – tanulja meg az internetes marketinget a SEMANTICA segítségével

A keresőrobotok listája

A Runet szkennelésében részt vevő összes keresőmotor közül a Yandex rendelkezik a legnagyobb botgyűjteménnyel. A következő botok felelősek az indexelésért:

  • a fő indexelő robot, amely adatokat gyűjt a weboldalakról;
  • tükrök felismerésére képes bot;
  • Yandex keresőrobot, amely indexeli a képeket;
  • egy pók, amely a YAN-ban elfogadott webhelyek oldalait böngészi;
  • robot szkennelés favicon ikonok;
  • számos pók, amelyek meghatározzák a webhely oldalainak elérhetőségét.

A Google fő keresőrobotja szöveges információkat gyűjt. Alapvetően a html fájlokat nézi, rendszeres időközönként elemzi a JS-t és a CSS-t. Bármilyen indexelhető tartalomtípust képes elfogadni. PS A Google-nak van egy pókja, amely szabályozza a képek indexelését. Van egy keresőrobot is - egy program, amely támogatja a működést mobil verzió keresés.

Tekintse meg az oldalt egy keresőrobot szemével

A kódhibák és egyéb hiányosságok kijavításához a webmester megtudhatja, hogyan látja a keresőrobot az oldalt. Ezt a lehetőséget a Google PS biztosítja. Nyissa meg a Webmestereszközöket, majd kattintson a "Scan" fülre. A megnyíló ablakban válassza ki a „browse as Googlebot” sort. Ezután be kell írnia a vizsgált oldal címét a keresőmezőbe (a tartomány és a http:// protokoll megadása nélkül).

A „get és megjelenítés” parancs kiválasztásával a webmester vizuálisan felmérheti a webhely oldalának állapotát. Ehhez kattintson a "megjelenítés kérése" jelölőnégyzetre. Megnyílik egy ablak a webdokumentum két verziójával. A webmester megtanulja, hogyan látja a rendszeres látogató az oldalt, és milyen formában érhető el a keresőpók számára.

Tipp: Ha az elemzett webdokumentum még nincs indexelve, akkor használhatja a „hozzáadás az indexhez” >> „csak ezt az URL-t feltérképezni” parancsot. A pók néhány percen belül elemzi a dokumentumot, a közeljövőben a weblap megjelenik a keresési eredmények között. A havi indexelési igény korlátja 500 dokumentum.

Hogyan lehet befolyásolni az indexelés sebességét

Miután megtudta, hogyan működnek a keresőrobotok, a webmester sokkal hatékonyabban tudja majd népszerűsíteni webhelyét. Sok fiatal webprojekt egyik fő problémája a rossz indexelés. A keresőrobotok nem szívesen keresik fel a nem hiteles internetes forrásokat.
Megállapítást nyert, hogy az indexelés sebessége közvetlenül függ a webhely frissítésének intenzitásától. Az egyedi szöveges anyagok rendszeres hozzáadása felkelti a kereső figyelmét.

Az indexelés felgyorsítása érdekében használhatja a közösségi könyvjelzőket és a Twitter szolgáltatást. Javasoljuk, hogy készítsen egy webhelytérképet, és töltse fel a webprojekt gyökérkönyvtárába.

A szervernaplókat átnézve néha túlzott érdeklődést tapasztalhat a keresőrobotok webhelyei iránt. Ha a botok hasznosak (például a PS robotjainak indexelése), akkor csak megfigyelni kell, még akkor is, ha a szerver terhelése nő. De még mindig sok másodlagos robot van, amelyek hozzáférése nem szükséges az oldalhoz. Magamnak és neked, kedves olvasó, információkat gyűjtöttem, és kényelmes táblagéppé alakítottam át.

Kik a keresőrobotok

kereső bot, vagy ahogy más néven, robot, lánctalpas, pók – nem több, mint olyan program, amely az oldalakon található hivatkozásokra kattintva megkeresi és ellenőrzi az oldalak tartalmát. A keresőrobotok nem csak a keresőmotorok számára készültek. Például az Ahrefs szolgáltatás pókokat használ a visszamutató hivatkozások adatainak javítására, a Facebook pedig az oldal kódjának webes lekaparását végzi el, hogy címekkel, képekkel és leírásokkal együtt jelenítse meg a hivatkozások újraküldését. A webkaparás különböző forrásokból származó információk gyűjtése.

Póknevek használata a robots.txt fájlban

Mint látható, minden komoly, tartalomkereséssel kapcsolatos projektnek megvannak a maga pókjai. És néha sürgős feladat korlátozni egyes pókok hozzáférését a webhelyhez vagy annak oldalához külön szakaszok. Ezt a webhely gyökérkönyvtárában található robots.txt fájlon keresztül lehet megtenni. A robotok beállításáról korábban írtam bővebben, javaslom, hogy olvassa el.

Kérjük, vegye figyelembe, hogy a robots.txt fájlt és direktíváit a keresőrobotok figyelmen kívül hagyhatják. Az irányelvek csak iránymutatások a robotok számára.

Irányelv beállítása a számára keresőrobot Használhatja a részt - fellebbezés a robot felhasználói ügynökéhez. A különböző pókokhoz tartozó szakaszokat egy üres sor választja el.

User-agent: Googlebot Engedélyezés: /

Felhasználói ügynök: Googlebot

lehetővé teszi: /

A fenti egy példa a Google fő robotjának hívására.

Kezdetben azt terveztem, hogy bejegyzéseket adok a táblázathoz arról, hogy a keresőrobotok hogyan azonosítják magukat a szervernaplókban. Ám mivel ezeknek az adatoknak a SEO szempontjából kevés a jelentősége, és minden ügynök tokenhez többféle rekord is tartozhat, úgy döntöttünk, hogy csak a botok nevével és céljával boldogulunk.

Keresőrobotok G o o g l e

user-agent Funkciók
Googlebot A fő bejáró-indexelő PC-re és okostelefonra optimalizált oldalakhoz
Mediapartners-Google AdSense hirdetési hálózat robotja
API-k – Google API-k – Google felhasználói ügynök
AdsBot-Google Ellenőrzi a hirdetések minőségét a számítógépre tervezett weboldalakon
AdsBot-Google-Mobile Ellenőrzi a hirdetések minőségét a mobileszközökre tervezett weboldalakon
Googlebot kép (Googlebot) Indexeli a képeket a webhely oldalain
Googlebot News (Googlebot) Olyan oldalakat keres, amelyeket hozzáadhat a Google Hírekhez
Googlebot Videó (Googlebot) Videótartalmat indexel
AdsBot-Google-Mobile-Apps Ellenőrzi a hirdetések minőségét az alkalmazásokban: Android készülékek, ugyanazon az elven működik, mint a hagyományos AdsBot

Az általam indexelt keresőrobotok

user-agent Funkciók
Yandex Ha ez az ügynök token meg van adva a robots.txt fájlban, a kérés az összes Yandex bothoz eljut
YandexBot Fő indexelő robot
YandexDirect Információkat tölt le a YAN partneroldalak tartalmáról
YandexImages A webhely képeit indexeli
YandexMetrika Robot Yandex.Metrica
YandexMobileBot Dokumentumokat tölt le a mobileszközök elrendezésének elemzésére
YandexMedia Robot indexeli a multimédiás adatokat
YandexNews Yandex.News indexelő
YandexPagechecker Mikroadat-ellenőrző
YandexMarket Yandex.Market robot;
YandexCalenda Robot Yandex.Calendar
YandexDirectDyn Dinamikus bannereket generál (közvetlen)
YaDirectFetcher Letölti a hirdetéseket tartalmazó oldalakat, hogy ellenőrizze elérhetőségüket és tisztázza a témákat (YAN)
YandexAccessibilityBot Letölti az oldalakat, hogy ellenőrizze azok elérhetőségét a felhasználók számára
YandexScreenshotBot Pillanatképet (képernyőképet) készít az oldalról
YandexVideoParser Yandex.Video szolgáltatás pók
YandexSearchShop Letölti a termékkatalógusok YML fájljait
YandexOntoDBAPI Objektumválasz-robot dinamikus adatokat tölt le

Más népszerű keresőrobotok

user-agent Funkciók
Baiduspider Kínai kereső, Baidu pók
cliqzbot Cliqz névtelen keresőrobot
AhrefsBot Ahrefs keresőbot (linkelemzés)
Genieo Genieo szerviz robot
bingbot Bing keresőrobot
Slurp Yahoo keresőrobot
DuckDuckBot PS DuckDuckGo webrobot
facebot Facebook robot webes bejáráshoz
WebAlta (WebAlta Crawler/2.0) PS WebAlta keresőrobot
BomboraBot Beolvassa a Bombora projektben érintett oldalakat
CCBot Nutch-alapú bejáró, amely az Apache Hadoop projektet használja
MSNBot Bot PS MSN
Mail.Ru Mail.Ru keresőrobot
ia_archiver Adatok lekaparása az Alexa szolgáltatáshoz
Teoma Kérdezze meg a szervizbotot

Nagyon sok keresőrobot létezik, csak a legnépszerűbbeket és a legismertebbeket válogattam ki. Ha vannak olyan botok, amelyekkel agresszív és kitartó oldalfeltérképezés miatt találkozott, kérjük, jelezze ezt a megjegyzésekben, ezeket is felveszem a táblázatba.

Felsőfokú végzettség elérhető - masszázsterapeuta képzés.

Több mint százmillió forrás található az interneten, és milliók kívánt oldalakat soha nem ismerjük meg. Hogyan találjuk meg a szükséges cseppet ebben az óceánban? Itt jön a segítségünkre. keresés jaj gép. Ez pók, és csak ő tudja, mi és milyen helyén van a weben.

Keresésúj gépek Internet ah, ezek a webhelyek kifejezetten a keresést segítik szükséges információ V globális hálózat világháló. Három fő funkciója van, mindegyiknél ugyanaz keresésúj gépek:

- keresés ovik a megadott kulcsszavakra "keres" az interneten;
- a címek indexelve keresés ovikami szavakkal együtt;
- indexelt weboldalak képezik az alapot, amely keresés oviki a felhasználók számára keresés A kulcsszavakat vagy ezek kombinációi.

Első keresés A Hoviki naponta akár 2000 kérést kapott, és oldalak százezreit indexelte. Ma a napi kérelmek száma több százmillió oldalra és több tízmillióra rúg.

P keresőmotorok akár világháló.

Első keresés ovikami Internetés voltak "gopher" és "Archie" programok. Indexelték a csatlakoztatott oldalon található fájlokat Internet szerverek, ismételten csökkentve az időt keresés a szükséges dokumentumokat. Az 1980-as évek végén a munkaképesség Internet nem jött le az Archie, gopher, Veronica és hasonlók használatának képességére keresésúj programokat.

Ma web lett a legkeresettebb rész Internetés a többség Internet a felhasználók végeznek keresés csak benne világháló (www).

Robot- pók

A használt robotprogram keresésúj gépek, más néven "pók", pók(pók), elvégzi a wed-resource oldalon található szavak listájának létrehozását. A folyamat az ún Webes feltérképezés(csúszó). Keresésúj pókátnéz egy csomó más oldalt, összeállítja és javítja a hasznos szavak listáját, pl. van valami jelentése, súlya.

Utazás keresztül keresés u a hálózaton pók (pók) a legnagyobb szerverrel és a legnépszerűbb weboldalakkal kezdődik. Miután megkerült egy ilyen webhelyet, és indexelte az összes talált szót, a talált hivatkozások segítségével más webhelyeket is feltérképez. Ily módon a robot pók lefoglalja a teljes webteret.

A Google alapítói, Sergey Brin és Laurence Page példát adnak a Google munkájára pók ov. Több is van. Keresés hárommal kezdődik pók ami. Egy pók akár 300 oldal csatlakoztatását is támogatja egyidejűleg. Csúcsterhelés, négy pókés akár száz oldalt is képesek feldolgozni másodpercenként, miközben körülbelül 600 kilobájt/mp forgalmat generálnak. Tovább Ebben a pillanatban, ha ezt olvassa, a számok talán nevetségesnek tűnnek számodra.

Kulcsszavak a keresőrobothoz

Általában egy webes erőforrás tulajdonosa szeretne szerepelni benne keresésúj eredményeket a szükséges keresés jaj szavak. Ezeket a szavakat úgy hívják kulcs s. Kljucsev A szavak határozzák meg a weboldal tartalmának lényegét. A metacímkék pedig ebben segítenek. Ezután választási lehetőséget kínálnak a keresőrobotnak kulcs az oldal indexelésére használt szavak. De nem javasoljuk metacímkék hozzáadását olyan népszerű lekérdezésekhez, amelyek nem kapcsolódnak az oldal tartalmához. A keresőrobotok küzdenek ez ellen a jelenséggel, és szerencsés lesz, ha kihagyja a metacímkéket kulcs más szóval nem felel meg az oldalak tartalmának.

A metacímkék egy nagyon hasznos eszköz, amikor kulcs Ezek első szavai többször ismétlődnek az oldal szövegében. De ne vigyük túlzásba, van esély arra, hogy a robot ajtónyílásnak veszi az oldalt.

Keresőmotor indexelő algoritmusai

Algoritmusok keresés A hovikok a végeredmény hatékonyságára koncentrálnak, de mindenkinek más a megközelítése ehhez. Lycos keresés Az új robotok indexbe veszik a szavakat a címben (címben), a linkekben (linkekben), és legfeljebb száz gyakran használt szót az oldalon, és minden szót az oldaltartalom első 20 sorából.

A Googlebot figyelembe veszi a szó helyét az oldalon (a body elemben). A szolgáltatási szakaszok szavai, mint pl feliratok, cím, meta tagekés társai különösen fontosnak jelölik, kivéve az „a”, „an” és „the.” közbeszólásokat.

Egyéb keresés Az oviki kissé másképp közelítheti meg a használt szavak indexelését keresés a felhasználók új kérései.

A keresőrobotok, amelyeket néha pókoknak vagy bejáróknak is neveznek, azok szoftver modulok weboldalak keresése. Hogyan működnek? Mit csinálnak valójában? Miért fontosak?

A keresőoptimalizálás és a keresőmotor-index adatbázisok körüli zsivaj mellett talán azt gondolja, hogy a robotoknak nagyszerű és erős lényeknek kell lenniük. Nem igaz. A keresőrobotok csak alapvető funkciókkal rendelkeznek, amelyek hasonlóak a korai böngészőkhöz, abból a szempontból, hogy milyen információkat tudnak felismerni egy webhelyen. A korai böngészőkhöz hasonlóan a robotok egyszerűen nem tudnak bizonyos dolgokat elvégezni. A robotok nem értik a kereteket, a Flash-animációkat, a képeket vagy a JavaScriptet. Nem léphetnek be jelszóval védett szakaszokba, és nem kattinthatnak az oldalon található összes gombra. Megakadhatnak a dinamikus URL-ek indexelési folyamatában, és nagyon lassúak lehetnek, egészen addig a pontig, hogy leállnak, és tehetetlenek lehetnek a JavaScript-navigációval szemben.

Hogyan működnek a keresőrobotok?

A webrobotokat olyan automatizált adatbányászati ​​programoknak kell tekinteni, amelyek információkat és információkra mutató hivatkozásokat keresve szörföznek a weben.

Amikor az URL elküldése oldal meglátogatása után egy másik weboldalt regisztrál a keresőben, akkor egy új URL-t adunk a robot általi oldalmegtekintési sorba. Még ha nem is regisztrál egy oldalt, sok robot meg fogja találni az Ön webhelyét, mert vannak más oldalak linkjei, amelyek a tiédre mutatnak. Ez az egyik oka annak, hogy miért fontos a linkek népszerűsítése és a hivatkozások elhelyezése más tematikus forrásokon.

Amikor felkeresik webhelyét, a robotok először ellenőrzik, hogy van-e robots.txt fájl. Ez a fájl közli a robotokkal, hogy webhelyének mely részeit ne indexeljék. Általában ezek olyan könyvtárak lehetnek, amelyek olyan fájlokat tartalmaznak, amelyek a robotot nem érdeklik, vagy amelyekről nem szabad tudnia.

A robotok minden általuk meglátogatott oldalról tárolnak és gyűjtenek linkeket, majd később követik ezeket a hivatkozásokat más oldalakra. Az egész világháló linkekből épül fel. Az internetes hálózat létrehozásának kezdeti ötlete az volt, hogy lehetővé válik a hivatkozások követése egyik helyről a másikra. Így mozognak a robotok.

Az oldalak valós idejű indexelésének leleményessége a keresőmotorok mérnökein múlik, akik kitalálták a keresőrobotok által kapott információk értékelésére szolgáló módszereket. Miután beágyazott egy keresőmotor adatbázisába, az információ elérhetővé válik a keresést végző felhasználók számára. Amikor a keresőmotor felhasználója beír egy keresési kifejezést, egy sor gyors számítást végeznek annak biztosítására, hogy valóban a legrelevánsabb válaszhoz megfelelő webhelykészlet kerüljön visszaadásra.

Megtekintheti, hogy webhelyének mely oldalait kereste fel már a keresőrobot, a szerver naplófájljai, illetve a naplófájl statisztikai feldolgozásának eredményei alapján. A robotok azonosításával láthatja, hogy mikor, mely oldalakat és milyen gyakran látogatták meg a webhelyén. Néhány robot könnyen azonosítható a nevük alapján, például a Google Googlebotja. Mások rejtettebbek, mint például az Inktomis Slurp. Más robotok is megtalálhatók a naplókban, és előfordulhat, hogy nem fogja tudni azonnal azonosítani őket; némelyikük akár ember által vezérelt böngésző is lehet.

Az egyedi bejárók azonosításán és látogatásaik számának számlálásán túl a statisztikák azt is kimutathatják, hogy agresszív, sávszélességet fogyasztó bejárók vagy bejárók, akiket nem szeretne felkeresni a webhelyén.

Hogyan olvassák a webhely oldalait?

Amikor egy bejáró meglátogat egy oldalt, átvizsgálja annak látható szövegét, a különböző címkék tartalmát forráskód oldala (címcímke, metacímkék stb.), valamint az oldalon található hiperhivatkozások. A linkek szavaiból ítélve a kereső dönti el, hogy miről szól az oldal. Számos tényezőt használnak az oldal „szerepet játszó” kulcspontjainak kiszámításához. Minden keresőmotornak saját algoritmusa van az információk kiértékelésére és feldolgozására. A robot konfigurációjától függően az információ indexelve, majd a keresőmotor adatbázisába kerül.

Ezt követően a keresőmotor-index adatbázisokba eljuttatott információk a keresőmotor és az adatbázis-rangsorolási folyamat részévé válnak. Amikor egy látogató kérést tesz, a keresőmotor végigjárja a teljes adatbázist, hogy visszaadja a releváns végleges listát keresési lekérdezés.

A keresőmotorok adatbázisait gondosan feldolgozzák és összehangolják. Ha már benne van az adatbázisban, a robotok rendszeresen felkeresik Önt, hogy összegyűjtsék az oldalak változásait, és megbizonyosodjanak arról, hogy a legfrissebb információkkal rendelkeznek. A látogatások száma a keresőmotor beállításaitól függ, amelyek típusától és céljától függően változhatnak.

Néha a keresőrobotok nem képesek indexelni egy webhelyet. Ha webhelye összeomlott, vagy nagyszámú látogató keresi fel a webhelyet, akkor előfordulhat, hogy a robot tehetetlen az indexelésben. Ha ez megtörténik, a webhely nem indexelhető újra, attól függően, hogy a robot milyen gyakran látogatja meg. A legtöbb esetben azok a robotok, amelyek nem tudták elérni az oldalakat, később próbálkoznak, abban a reményben, hogy webhelye hamarosan elérhető lesz.

A naplók megtekintésekor sok bejáró nem azonosítható. Lehet, hogy meglátogatják Önt, de a naplók szerint valaki a Microsoft böngészőt használja stb. Egyes robotok egy keresőmotor (googlebot) vagy annak klónja (Scooter = AltaVista) nevével azonosítják magukat.

Attól függően, hogy a robot hogyan van konfigurálva, az információkat indexeli, majd eljuttatja a keresőmotorok adatbázisaihoz.

A keresőmotorok adatbázisai különböző időpontokban módosulhatnak. Még a másodlagos keresési eredményekkel rendelkező könyvtárak is robotadatokat használnak webhelyük tartalmaként.

Valójában a keresőmotorok nem csak a fentiekre használják a robotokat. Vannak olyan robotok, amelyek ellenőrzik az adatbázisok új tartalmát, meglátogatják a régi adatbázis-tartalmakat, ellenőrzik, hogy a hivatkozások megváltoztak-e, teljes webhelyeket töltenek le böngészés céljából, és így tovább.

Emiatt a naplófájlok olvasása és a keresőmotor eredményeinek nyomon követése segít a projektek indexelésének figyelemmel kísérésében.

keresőrobot hívott speciális program minden olyan keresőmotor, amely az interneten talált oldalak és oldalaik adatbázisba való bevitelére (indexelésére) van kialakítva. A nevek is használatosak: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Működés elve

A keresőrobot egy böngésző típusú program. Folyamatosan pásztázza a hálózatot: indexelt (számára már ismert) oldalakat keres fel, követi az azokon található linkeket és új forrásokat talál. Ha új erőforrást talál, az eljárási robot hozzáadja azt a keresőmotor indexéhez. A keresőrobot az oldalak frissítéseit is indexeli, amelyek gyakorisága rögzített. Például egy hetente egyszer frissített webhelyet ilyen gyakorisággal keres fel egy pók, és a híroldalak tartalma a közzétételt követően perceken belül indexelhető. Ha más forrásokból nem vezet hivatkozás a webhelyre, akkor a keresőrobotok vonzásához az erőforrást egy speciális űrlapon keresztül kell hozzáadni (Google Webmesterközpont, Yandex Webmester Panel stb.).

A keresőrobotok típusai

Yandex pókok:

  • A Yandex/1.01.001 I a fő indexelő bot,
  • Yandex/1.01.001 (P) - indexeli a képeket,
  • Yandex/1.01.001 (H) - helytükröket talál,
  • Yandex/1.03.003 (D) - meghatározza, hogy a webmesterpanelről hozzáadott oldal megfelel-e az indexelési paramétereknek,
  • YaDirectBot/1.0 (I) - indexeli a Yandex hirdetési hálózat erőforrásait,
  • Yandex/1.02.000 (F) – indexeli a webhely kedvenceit.

Google Spiders:

  • A Googlebot a fő robot,
  • Googlebot News – feltérképezi és indexeli a híreket,
  • Google Mobile – indexeli a mobileszközökhöz készült webhelyeket,
  • Googlebot Images – képeket keres és indexel,
  • Googlebot Video – indexeli a videókat,
  • Google AdsBot – ellenőrzi a céloldal minőségét,
  • Google Mobile AdSense és Google AdSense - indexeli a Google hirdetési hálózat webhelyeit.

Más keresők is többféle robotot használnak, amelyek funkcionálisan hasonlóak a felsoroltakhoz.



Betöltés...
Top