Motoare de căutare, motoare de căutare și roboți păianjen. Viitorul motoarelor de căutare

Cum funcționează roboții motoarelor de căutare

Robotul de căutare (păianjen, bot) este un program mic, capabil să viziteze milioane de site-uri web fără participarea unui operator și să scaneze gigaocteți de texte. Citirea paginilor și salvarea copiilor lor text este prima etapă a indexării documentelor noi. Trebuie menționat că roboții motoarelor de căutare nu efectuează nicio prelucrare a datelor primite. Sarcina lor este doar de a stoca informații textuale.

Mai multe videoclipuri pe canalul nostru - învață marketingul pe internet cu SEMANTICA

Lista roboților de căutare

Dintre toate motoarele de căutare implicate în scanarea Runetului, Yandex are cea mai mare colecție de roboți. Următorii roboți sunt responsabili de indexare:

robotul principal de indexare care colectează date de pe paginile web;
un bot capabil să recunoască oglinzile;
Robot de căutare Yandex care indexează imagini;
un păianjen care navighează pe paginile site-urilor acceptate în YAN;
robot care scanează pictograme favicon;
mai mulți păianjeni care determină disponibilitatea paginilor site-ului.

Robotul principal de căutare al Google colectează informații textuale. Practic, se uită la fișiere html, analizează JS și CSS la intervale regulate. Capabil să accepte orice tipuri de conținut permise pentru indexare. PS Google are un păianjen care controlează indexarea imaginilor. Există și un robot de căutare - un program care sprijină funcționarea versiune mobila căutare.

Vedeți site-ul prin ochii unui robot de căutare

Pentru a corecta erorile de cod și alte deficiențe, webmasterul poate afla cum vede site-ul robotul de căutare. Această opțiune este oferită de Google PS. Va trebui să accesați instrumentele pentru webmasteri, apoi să faceți clic pe fila „scanare”. În fereastra care se deschide, selectați linia „browse as Googlebot”. În continuare, trebuie să introduceți adresa paginii studiate în formularul de căutare (fără a specifica domeniul și protocolul http://).

Prin selectarea comenzii „obține și afișa”, webmasterul va putea evalua vizual starea paginii site-ului. Pentru a face acest lucru, trebuie să faceți clic pe caseta de selectare „solicitare de afișare”. Se va deschide o fereastră cu două versiuni ale documentului web. Webmasterul află cum vede un vizitator obișnuit pagina și sub ce formă este disponibilă pentru păianjenul de căutare.

Sfat! Dacă documentul web analizat nu este încă indexat, atunci puteți utiliza comanda „adăugați la index” >> „craw only this URL”. Păianjenul va analiza documentul în câteva minute, în viitorul apropiat pagina web va apărea în rezultatele căutării. Limita lunară a cererii de indexare este de 500 de documente.

Cum să influențezi viteza de indexare

După ce a aflat cum funcționează roboții de căutare, webmasterul își va putea promova site-ul mult mai eficient. Una dintre principalele probleme ale multor proiecte web tinere este indexarea slabă. Roboții motoarelor de căutare sunt reticenți în a vizita resurse de internet neautorizate.
S-a stabilit că viteza de indexare depinde direct de intensitatea cu care este actualizat site-ul. Adăugarea regulată de materiale text unice va atrage atenția motorului de căutare.

Pentru a accelera indexarea, puteți utiliza marcaje sociale și serviciul twitter. Este recomandat să generați un Sitemap și să îl încărcați în directorul rădăcină al proiectului web.

Privind prin jurnalele serverului, uneori puteți observa un interes excesiv față de site-uri de la roboții de căutare. Dacă boții sunt folositori (de exemplu, indexarea roboților PS), rămâne doar de observat, chiar dacă sarcina pe server crește. Dar există încă o mulțime de roboți secundari, al căror acces la site nu este necesar. Pentru mine și pentru tine, dragă cititor, am adunat informații și le-am transformat într-o tabletă convenabilă.

Cine sunt roboții de căutare

bot de căutare, sau cum se mai numesc, robot, crawler, păianjen - nimic mai mult decât un program care caută și scanează conținutul site-urilor făcând clic pe linkurile de pe pagini. Roboții de căutare nu sunt doar pentru motoarele de căutare. De exemplu, serviciul Ahrefs folosește spider pentru a îmbunătăți datele privind backlink-urile, Facebook efectuează web scraping codul paginii pentru a afișa repostări de link cu titluri, imagini și descrieri. Web scraping este colectarea de informații din diverse resurse.

Utilizarea numelor de păianjen în robots.txt

După cum puteți vedea, orice proiect serios legat de căutarea de conținut are păianjenii săi. Și uneori este o sarcină urgentă să restricționezi accesul unor păianjeni la site sau la acesta secțiuni separate. Acest lucru se poate face prin fișierul robots.txt din directorul rădăcină al site-ului. Am scris mai devreme despre configurarea roboților, vă recomand să-l citiți.

Vă rugăm să rețineți că fișierul robots.txt și directivele acestuia pot fi ignorate de roboții de căutare. Directivele sunt doar linii directoare pentru roboți.

Puteți seta o directivă pentru un robot de căutare folosind secțiunea - un apel către agentul utilizator al acestui robot. Secțiunile pentru diferiți păianjeni sunt separate printr-o linie goală.

Agent utilizator: Googlebot Permite: /

Agent utilizator: Googlebot

permite: /

Cele de mai sus sunt un exemplu de apel către crawler-ul principal Google.

Inițial, am plănuit să adaug în tabel intrări despre modul în care roboții de căutare se identifică în jurnalele serverului. Dar, deoarece aceste date sunt de puțină importanță pentru SEO și pot exista mai multe tipuri de înregistrări pentru fiecare token de agent, s-a decis să se descurce doar cu numele boților și scopul lor.

Roboti de cautare G o o g l e

agent utilizator	Funcții
Googlebot	Principalul crawler-indexer pentru pagini optimizate pentru computer și smartphone
Mediapartners-Google	Robot de rețea publicitară AdSense
API-uri Google	API-uri Google user agent
AdsBot-Google	Verifică calitatea reclamelor de pe paginile web concepute pentru computer
AdsBot-Google-Mobile	Verifică calitatea reclamelor de pe paginile web concepute pentru dispozitive mobile
Imagine Googlebot (Googlebot)	Indexează imaginile de pe paginile site-ului
Știri Googlebot (Googlebot)	Se caută pagini de adăugat la Știri Google
Googlebot Video (Googlebot)	Indexează conținutul video
AdsBot-Google-Mobile-Apps	Verifică calitatea reclamelor din aplicații pentru dispozitive Android, funcționează pe aceleași principii ca AdsBot obișnuit

Roboti de cautare pe care ii indexez

agent utilizator	Funcții
Yandex	Când acest token de agent este specificat în robots.txt, cererea este trimisă la toți roboții Yandex
YandexBot	Robot de indexare principal
YandexDirect	Descarcă informații despre conținutul site-urilor partenere YAN
YandexImagini	Indexează imaginile site-ului
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Descarcă documente pentru analiză pentru prezența aspectului pentru dispozitivele mobile
YandexMedia	Robot care indexează date multimedia
YandexNews	Yandex.Indexator de știri
YandexPagechecker	Validator de microdate
YandexMarket	Robot Yandex.Market;
YandexCalenda	Robot Yandex.Calendar
YandexDirectDyn	Generează bannere dinamice (Direct)
YaDirectFetcher	Descărcă pagini cu reclame pentru a verifica disponibilitatea acestora și a clarifica subiectele (YAN)
YandexAccessibilityBot	Descărcă pagini pentru a verifica disponibilitatea acestora pentru utilizatori
Yandex ScreenshotBot	Realizează un instantaneu (captură de ecran) a paginii
YandexVideoParser	Yandex.Serviciul video spider
YandexSearchShop	Descarcă fișiere YML ale cataloagelor de produse
YandexOntoDBAPI	Robot de răspuns la obiect care descarcă date dinamice

Alți roboți de căutare populari

agent utilizator	Funcții
Baiduspider	Motorul de căutare chinezesc Baidu spider
cliqzbot	Robot anonim motor de căutare cliqz
AhrefsBot	Botul de căutare Ahrefs (analiza link-urilor)
Genieu	Robot de service Genieo
bingbot	Crawler pentru motorul de căutare Bing
Slurp	crawler pentru motorul de căutare Yahoo
DuckDuckBot	Crawler web PS DuckDuckGo
facebot	Robot Facebook pentru crawling pe web
WebAlta (WebAlta Crawler/2.0)	Căutare crawler PS WebAlta
BomboraBot	Scanează paginile implicate în proiectul Bombora
CCBot	Crawler bazat pe Nutch care utilizează proiectul Apache Hadoop
MSNBot	Bot PS MSN
Mail.Ru	Mail.Ru motor de căutare crawler
ia_archiver	Scraping date pentru serviciul Alexa
Teoma	Întrebați serviciul bot

Există o mulțime de roboți de căutare, i-am selectat doar pe cei mai populari și cunoscuți. Dacă există roboți pe care i-ați întâlnit din cauza accesării cu crawlere agresive și persistente a site-ului, vă rugăm să indicați acest lucru în comentarii, îi voi adăuga și eu în tabel.

Studii superioare disponibile - formare masaj terapeut.

Există peste o sută de milioane de resurse pe Internet și milioane paginile dorite nu ne va fi niciodată cunoscut. Cum să găsim picătura de care avem nevoie în acest ocean? Aici ne vine în ajutor. Căutare ow mașină. aceasta păianjen, și numai el știe ce și în ce loc de web are.

Căutare utilaje noi Internet ah, acestea sunt site-uri special concepute pentru a vă ajuta să găsiți informatie necesaraîn rețeaua globală a World Wide Web. Există trei funcții principale, aceleași pentru toate Căutare utilaje noi:

- Căutare oviks pe cuvintele cheie date „căutare” pe Internet;
- adrese indexate Căutare ovikami împreună cu cuvintele;
- paginile web indexate formează baza, care Căutare Oviki oferă utilizatorilor Căutare A Cuvinte cheie sau combinatii ale acestora.

Primul Căutare Hoviki a primit până la 2.000 de solicitări pe zi și a indexat sute de mii de pagini. Astăzi, numărul de solicitări pe zi ajunge la sute de milioane de pagini și zeci de milioane.

P motoarele de căutare până la world wide web.

Primul Căutare ovikami Internetși existau programe „gopher” și „Archie”. Au indexat fișierele aflate pe conectat Internet servere, reducând în mod repetat timpul pentru Căutare documentele necesare. La sfârșitul anilor 1980, capacitatea de a lucra în Internet nu sa rezumat la capacitatea de a folosi Archie, gopher, Veronica și altele asemenea Căutare programe noi.

Astăzi Web a devenit partea cea mai solicitată Internet iar majoritatea Internet utilizatorii efectuează Căutare numai în world wide web (www).

Robot- păianjen

Programul robot utilizat în Căutare mașini noi, se mai numește "păianjen", păianjen(păianjen), efectuează procesul de creare a unei liste de cuvinte găsite pe pagina de resurse wed. Procesul este numit Crawling pe web(crawling). Căutare nou păianjen caută prin multe alte pagini, construiește și repară o listă de cuvinte utile, de ex. având un anumit sens, greutate.

Călătorie prin Căutare esti in retea păianjen (păianjen) începe cu cel mai mare server și cu cele mai populare pagini web. După ce a ocolit un astfel de site și a indexat toate cuvintele găsite, acesta merge să acceseze cu crawlere alte site-uri folosind link-urile găsite. În acest fel, robotul păianjen captează întregul spațiu web.

Fondatorii Google, Sergey Brin și Laurence Page, oferă un exemplu al muncii Google păianjen ov. Sunt câteva. Căutareîncepe trei păianjen ami. unu păianjen acceptă până la 300 de conexiuni de pagini în același timp. Sarcină maximă, patru păianjenși sunt capabile să proceseze până la o sută de pagini pe secundă, generând în același timp un trafic de aproximativ 600 kilobytes/sec. Pe acest moment, când vei citi asta, poate că numerele ți se vor părea ridicole.

Cuvinte cheie pentru robotul motorului de căutare

De obicei, proprietarul unei resurse web dorește să fie inclus în Căutare rezultate noi pentru cele necesare Căutare ow cuvinte. Aceste cuvinte sunt numite cheie s. Kliuciov Cuvintele definesc esența conținutului unei pagini web. Și Meta Tags ajută la asta. Apoi îi oferă robotului de căutare o alegere cheie cuvintele folosite pentru a indexa pagina. Dar nu recomandăm adăugarea de metaetichete la interogările populare care nu au legătură cu conținutul paginii în sine. Boții motoarelor de căutare luptă împotriva acestui fenomen și vei fi norocos dacă omite doar metaetichetele cu cheie cu alte cuvinte, necorespunzând conținutului paginilor.

Metaetichetele sunt un instrument foarte util atunci când cheie Primele cuvinte ale acestora sunt repetate de mai multe ori în textul paginii. Dar nu exagerați, există șansa ca robotul să ia pagina pentru o ușă.

Algoritmi de indexare a motoarelor de căutare

Algoritmi Căutare Hoviks se concentrează pe eficacitatea rezultatului final, dar toată lumea are abordări diferite în acest sens. Lycos Căutare Noii roboți indexează cuvinte în titlu (titlu), link-uri (link-uri) și până la o sută de cuvinte utilizate frecvent pe pagină și fiecare cuvânt din primele 20 de rânduri de conținutul paginii.

Googlebot ține cont de locația cuvântului pe pagină (în elementul body). Cuvinte de secțiuni de serviciu, cum ar fi subtitrări, titlu, metaetichete et al. marchează ca fiind deosebit de importante, excluzând interjecțiile „a”, „an” și „the.”.

Alte Căutare oviki poate avea un mod ușor diferit de a aborda indexarea cuvintelor folosite pentru Căutare cereri noi ale utilizatorilor.

Roboții motoarelor de căutare, uneori denumiți ca păianjeni sau crawler-uri, sunt module software căutarea paginilor web. Cum funcționează? Ce fac ei cu adevărat? De ce sunt ele importante?

Cu tot zgomotul din jurul optimizării motoarelor de căutare și a bazelor de date cu index pentru motoarele de căutare, s-ar putea să vă gândiți că roboții trebuie să fie ființe grozave și puternice. Neadevarat. Roboții motoarelor de căutare au doar caracteristici de bază similare cu cele ale browserelor timpurii în ceea ce privește informațiile pe care le pot recunoaște pe un site. La fel ca primele browsere, roboții pur și simplu nu pot face anumite lucruri. Roboții nu înțeleg cadrele, animațiile Flash, imaginile sau JavaScript. Ei nu pot intra în secțiuni protejate prin parolă și nu pot face clic pe toate butoanele care se află pe site. Ei pot rămâne blocați în procesul de indexare a URL-urilor dinamice și pot fi foarte lenți, până la punctul de a se opri și neputincios în navigarea JavaScript.

Cum funcționează roboții motoarelor de căutare?

Crawlerele web ar trebui considerate ca programe automate de extragere a datelor care navighează pe web în căutare de informații și link-uri către informații.

Când, după ce ați vizitat pagina Trimiteți o adresă URL, înregistrați o altă pagină web în motorul de căutare, o nouă adresă URL este adăugată la coada pentru vizualizarea site-urilor de către robot. Chiar dacă nu înregistrați o pagină, mulți roboți îți vor găsi site-ul, deoarece există link-uri de la alte site-uri care leagă către al tău. Acesta este unul dintre motivele pentru care este important să crești popularitatea link-urilor și să plasezi link-uri pe alte resurse tematice.

Când ajung pe site-ul dvs., roboții verifică mai întâi dacă există un fișier robots.txt. Acest fișier le spune roboților care secțiuni ale site-ului dvs. nu trebuie să fie indexate. De obicei, acestea pot fi directoare care conțin fișiere de care robotul nu este interesat sau despre care nu ar trebui să le cunoască.

Roboții stochează și colectează link-uri de la fiecare pagină pe care o vizitează și mai târziu urmează acele link-uri către alte pagini. Toate retea mondiala construit din legături. Ideea inițială a creării rețelei de internet a fost că ar fi posibil să urmați legături dintr-un loc în altul. Așa se mișcă roboții.

Ingeniozitatea în indexarea paginilor în timp real depinde de inginerii motoarelor de căutare, care au inventat metodele folosite pentru a evalua informațiile primite de roboții motoarelor de căutare. Odată încorporate într-o bază de date a unui motor de căutare, informațiile sunt disponibile utilizatorilor care efectuează căutări. Când un utilizator de motor de căutare introduce un termen de căutare, se fac o serie de calcule rapide pentru a se asigura că setul corect de site-uri pentru cel mai relevant răspuns este returnat efectiv.

Puteți vizualiza ce pagini ale site-ului dvs. au fost deja vizitate de robotul de căutare, ghidat de fișierele jurnal ale serverului sau de rezultatele prelucrării statistice a fișierului de jurnal. Prin identificarea roboților, puteți vedea când v-au vizitat site-ul, ce pagini și cât de des. Unii roboți sunt ușor identificați după numele lor, cum ar fi Googlebot Google. Altele sunt mai ascunse, precum Inktomis Slurp. În jurnal se găsesc și alți roboți și este posibil să nu-i puteți identifica imediat; unele dintre ele pot fi chiar browsere controlate de om.

Pe lângă identificarea crawlerelor unice și numărarea numărului de vizite pe care le au, statisticile vă pot arăta și crawler-uri agresivi, care consumă lățime de bandă sau crawler-uri pe care nu doriți să le vizitați site-ul.

Cum citesc ei paginile site-ului dvs.?

Când un crawler vizitează o pagină, acesta scanează textul ei vizibil, conținutul diferitelor etichete cod sursa pagina dvs. (etichetă de titlu, metaetichete etc.), precum și hyperlinkuri de pe pagină. Judecând după cuvintele linkurilor, motorul de căutare decide despre ce este vorba în pagină. Există mulți factori utilizați pentru a calcula punctele cheie ale unei pagini „care joacă un rol”. Fiecare motor de căutare are propriul algoritm de evaluare și procesare a informațiilor. În funcție de modul în care este configurat robotul, informațiile sunt indexate și apoi livrate în baza de date a motorului de căutare.

După aceea, informațiile livrate bazelor de date indexate ale motoarelor de căutare devin parte a motorului de căutare și a procesului de clasare a bazei de date. Când un vizitator face o cerere, motorul de căutare parcurge întreaga bază de date pentru a returna o listă finală care este relevantă interogare de căutare.

Bazele de date ale motoarelor de căutare sunt procesate și aliniate cu atenție. Dacă vă aflați deja în baza de date, roboții vă vor vizita periodic pentru a colecta orice modificări aduse paginilor și pentru a se asigura că au cele mai recente informații. Numărul de vizite depinde de setările motorului de căutare, care pot varia în funcție de tipul și scopul acestuia.

Uneori, roboții de căutare nu sunt capabili să indexeze un site web. Dacă site-ul dvs. s-a prăbușit sau un număr mare de vizitatori îl vizitează, robotul poate fi neputincios în încercarea de a-l indexa. Când se întâmplă acest lucru, site-ul nu poate fi reindexat, în funcție de cât de des îl vizitează robotul. În majoritatea cazurilor, roboții care nu au reușit să ajungă în paginile dvs. vor încerca mai târziu, în speranța că site-ul dvs. va fi disponibil în curând.

Multe crawler-uri nu pot fi identificate atunci când vizualizați jurnalele. Este posibil să vă viziteze, dar jurnalele spun că cineva folosește browserul Microsoft etc. Unii roboți se identifică folosind numele unui motor de căutare (googlebot) sau clona acestuia (Scooter = AltaVista).

În funcție de modul în care este configurat robotul, informațiile sunt indexate și apoi livrate bazelor de date ale motoarelor de căutare.

Bazele de date ale motoarelor de căutare sunt supuse modificărilor în diferite momente. Chiar și directoarele care au rezultate secundare de căutare folosesc datele robotului ca conținut al site-ului lor.

De fapt, roboții nu sunt folosiți de motoarele de căutare doar pentru cele de mai sus. Există roboți care verifică bazele de date pentru conținut nou, vizitează conținutul vechi al bazei de date, verifică dacă linkurile s-au schimbat, descarcă site-uri întregi pentru navigare și așa mai departe.

Din acest motiv, citirea fișierelor jurnal și urmărirea rezultatelor motorului de căutare vă ajută să fiți cu ochii pe indexarea proiectelor dvs.

robot de căutare numit program special orice motor de căutare care este conceput pentru a introduce în baza de date (indexare) site-urile găsite pe Internet și paginile acestora. Se mai folosesc denumirile: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Robotul de căutare este un program de tip browser. Scanează constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când este găsită o nouă resursă, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link de la alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

Yandex/1.01.001 I este principalul bot de indexare,
Yandex/1.01.001 (P) - indexează imagini,
Yandex/1.01.001 (H) - găsește oglinzi de site,
Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster se potrivește cu parametrii de indexare,
YaDirectBot/1.0 (I) - indexează resursele din rețeaua de publicitate Yandex,
Yandex/1.02.000 (F) — indexează favicon-urile site-ului.

Google Spiders:

Googlebot este robotul principal,
Știri Googlebot - accesează cu crawlere și indexează știrile,
Google Mobile - indexează site-urile web pentru dispozitive mobile,
Imagini Googlebot - caută și indexează imagini,
Googlebot Video - indexează videoclipuri,
Google AdsBot - verifică calitatea paginii de destinație,
Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.