Roboti pentru motoare de cautare. Motoarele de căutare roboții și păianjenii lor Caută păianjeni

robot de căutare se numește un program special al unui motor de căutare, care este conceput pentru a intra în baza de date (indexare) site-uri găsite pe Internet și paginile acestora. Se mai folosesc denumirile: crawler, spider, bot, automaticindexer, furnică, webcrawler, bot, webscutter, webroboți, webspider.

Principiul de funcționare

Robotul de căutare este un program de tip browser. Scanează constant rețeaua: vizitează site-uri indexate (deja cunoscute de el), urmărește link-uri de la acestea și găsește noi resurse. Când este găsită o nouă resursă, robotul de procedură o adaugă la indexul motorului de căutare. Robotul de căutare indexează și actualizările pe site-uri, a căror frecvență este fixă. De exemplu, un site care este actualizat o dată pe săptămână va fi vizitat de un păianjen cu această frecvență, iar conținutul de pe site-urile de știri poate fi indexat în câteva minute de la publicare. Dacă niciun link de la alte resurse nu duce la site, atunci pentru a atrage roboți de căutare, resursa trebuie adăugată printr-un formular special (Google Webmaster Center, Yandex Webmaster Panel etc.).

Tipuri de roboți de căutare

păianjeni Yandex:

Yandex/1.01.001 I este principalul bot de indexare,
Yandex/1.01.001 (P) - indexează imagini,
Yandex/1.01.001 (H) - găsește oglinzi de site,
Yandex/1.03.003 (D) - determină dacă pagina adăugată din panoul webmaster se potrivește cu parametrii de indexare,
YaDirectBot/1.0 (I) - indexează resursele din rețeaua de publicitate Yandex,
Yandex/1.02.000 (F) — indexează favicon-urile site-ului.

Google Spiders:

Googlebot este robotul principal,
Știri Googlebot - accesează cu crawlere și indexează știrile,
Google Mobile - indexează site-urile web pentru dispozitive mobile,
Imagini Googlebot - caută și indexează imagini,
Googlebot Video - indexează videoclipuri,
Google AdsBot - verifică calitatea paginii de destinație,
Google Mobile AdSense și Google AdSense - indexează site-urile rețelei de publicitate Google.

Alte motoare de căutare folosesc, de asemenea, mai multe tipuri de roboți care sunt similari din punct de vedere funcțional cu cei enumerați.

De obicei, motor de căutare este un site specializat în găsirea de informații care se potrivesc cu criteriile de interogare ale utilizatorului. Sarcina principală a unor astfel de site-uri este organizarea și structurarea informațiilor în rețea.

Majoritatea oamenilor, folosind serviciile unui motor de căutare, nu se întreabă niciodată cum funcționează exact mașina, căutând informațiile necesare din adâncurile internetului.

Pentru un utilizator obișnuit al rețelei, conceptul însuși al principiilor de funcționare a motoarelor de căutare nu este critic, deoarece algoritmii care ghidează sistemul sunt capabili să satisfacă nevoile unei persoane care nu știe să facă o interogare optimizată atunci când cautarea informatiilor necesare. Insa pentru un dezvoltator web si specialisti implicati in optimizarea site-ului este pur si simplu necesar sa aiba macar conceptele initiale ale structurii si principiilor motoarelor de cautare.

Fiecare motor de căutare funcționează pe algoritmi preciși care sunt păstrați în cea mai strictă încredere și sunt cunoscuți doar unui cerc restrâns de angajați. Însă atunci când proiectați un site sau îl optimizați, este imperativ să țineți cont de regulile generale de funcționare a motoarelor de căutare, care sunt discutate în acest articol.

În ciuda faptului că fiecare PS are propria sa structură, după un studiu atent ele pot fi combinate în componente de bază, generalizante:

Modul de indexare

Modul de indexare - Acest element include trei componente suplimentare (boți):

1. Păianjen (robot păianjen) - descarcă pagini, filtrează fluxul de text, extragând toate hyperlinkurile interne din acesta. În plus, Spider salvează data descărcării și titlul răspunsului serverului, precum și adresa URL - adresa paginii.

2. Tractor pe şenile (crawling robot spider) - analizează toate linkurile de pe pagină și, pe baza acestei analize, determină ce pagină să vizitezi și care nu merită vizitată. În același mod, crawler-ul găsește noi resurse care ar trebui să fie procesate de PS.

3. indexator (Robot-indexer) - se ocupă cu analiza paginilor de Internet descărcate de un păianjen. În acest caz, pagina în sine este împărțită în blocuri și analizată de către indexator folosind algoritmi morfologici și lexicali. Diferite părți ale unei pagini web intră sub analiza indexatorului: titluri, texte și alte informații de serviciu.

Toate documentele procesate de acest modul sunt stocate în baza de date a căutării, numită index de sistem. Pe lângă documentele în sine, baza de date conține datele de serviciu necesare - rezultatul prelucrării cu atenție a acestor documente, ghidat de care motorul de căutare îndeplinește cererile utilizatorilor.

server de căutare

în continuare, foarte componentă importantă sisteme - un server de căutare a cărui sarcină este să proceseze o cerere de utilizator și să genereze o pagină cu rezultatele căutării.

Procesând cererea utilizatorului, serverul de căutare calculează ratingul de relevanță a documentelor selectate pentru solicitarea utilizatorului. Acest clasament determină poziția pe care o va ocupa o pagină web în rezultatele căutării. Fiecare document care corespunde criteriilor de căutare este afișat pe pagina de rezultate sub formă de fragment.

Fragmentul este scurta descriere pagina, inclusiv titlul, linkul, cuvintele cheie și informațiile scurte text. Pe baza fragmentului, utilizatorul poate evalua relevanța paginilor selectate de motorul de căutare pentru interogarea sa.

Cel mai important criteriu după care se ghidează serverul de căutare atunci când clasifică rezultatele unei interogări este indicatorul TCI () deja familiar.

Toate componentele descrise ale PS sunt costisitoare și consumă foarte mult resurse. Performanța unui motor de căutare depinde direct de eficacitatea interacțiunii acestor componente.

Ți-a plăcut articolul? Abonați-vă la știrile blogului sau distribuiți pe rețelele de socializare și vă voi răspunde

6 comentarii la postarea „Motoarele de căutare sunt roboții și păianjenii lor”

Caut aceasta informatie de mult timp, multumesc.

Răspuns

Ma bucur ca blogul tau este in continua evolutie. Postări ca acesta nu fac decât să sporească popularitatea.

Răspuns

am inteles ceva. Întrebarea este, PR-ul depinde cumva de TIC?

Bună prieteni! Astăzi veți afla cum funcționează roboții de căutare Yandex și Google și ce funcție îndeplinesc în promovarea site-ului web. Deci să mergem!

Motoarele de căutare fac această acțiune pentru a găsi zece proiecte WEB dintr-un milion de site-uri care au un răspuns de înaltă calitate și relevant la interogarea unui utilizator. De ce doar zece? Pentru că este format din doar zece poziții.

Căutați prieteni roboți și webmasteri și utilizatori

De ce este important să vizitați site-ul de către roboții de căutare a devenit deja clar și de ce este pentru utilizator? Așa este, pentru ca utilizatorul să deschidă doar acele site-uri care răspund integral solicitării sale.

Robot de căutare- un instrument foarte flexibil, este capabil să găsească un site, chiar și unul care tocmai a fost creat, iar proprietarul acestui site nu a fost încă implicat în . Prin urmare, acest bot a fost numit păianjen, își poate întinde labele și poate ajunge oriunde pe web-ul virtual.

Este posibil să controlați robotul de căutare în interesele dvs

Există momente când unele pagini nu sunt incluse în căutare. Acest lucru se datorează în principal faptului că această pagină nu a fost încă indexată de un robot de căutare. Desigur, mai devreme sau mai târziu robotul de căutare va observa această pagină. Dar este nevoie de timp și, uneori, destul de mult. Dar aici poți ajuta robotul de căutare să viziteze această pagină mai repede.

Pentru a face acest lucru, vă puteți plasa site-ul în directoare sau liste speciale, rețele sociale. În general, pe toate site-urile unde pur și simplu locuiește robotul de căutare. De exemplu, în rețelele sociale există o actualizare în fiecare secundă. Încercați să revendicați site-ul dvs., iar robotul de căutare va ajunge pe site-ul dvs. mult mai repede.

Din aceasta rezultă una, dar regula principală. Dacă doriți ca roboții motoarelor de căutare să vă viziteze site-ul, aceștia trebuie să fie alimentați cu conținut nou în mod regulat. În cazul în care observă că se actualizează conținutul, site-ul se dezvoltă, vor vizita mult mai des proiectul tău de internet.

Fiecare robot de căutare își poate aminti cât de des se modifică conținutul tău. El evaluează nu numai calitatea, ci și intervalele de timp. Și dacă materialul de pe site este actualizat o dată pe lună, atunci va veni pe site o dată pe lună.

Astfel, dacă site-ul este actualizat o dată pe săptămână, atunci robotul de căutare va veni o dată pe săptămână. Dacă actualizați site-ul în fiecare zi, atunci robotul de căutare va vizita site-ul în fiecare zi sau o dată la două zile. Există site-uri care sunt indexate în câteva minute după actualizare. aceasta retele sociale, agregatoare de știri și site-uri care postează mai multe articole pe zi.

Cum să dai o sarcină unui robot și să îi interzici ceva?

La început, am aflat că motoarele de căutare au mai mulți roboți care îndeplinesc diferite sarcini. Cineva caută poze, cineva caută link-uri și așa mai departe.

Puteți controla orice robot folosind un fișier special robots.txt . Din acest fișier robotul începe să se familiarizeze cu site-ul. În acest fișier, puteți specifica dacă robotul poate indexa site-ul, dacă da, ce secțiuni. Toate aceste instrucțiuni pot fi create pentru unul sau toți roboții.

Training pentru promovarea site-ului web

Aflați mai multe despre complexitățile promovării site-urilor SEO în motoarele de căutare sistemele Googleși Yandex, vorbesc pe Skype. Mi-am adus mai mult la toate proiectele WEB și am obținut rezultate excelente din asta. Te pot invata, daca te intereseaza!

Prieteni, va salut din nou! Acum vom analiza ce sunt roboții de căutare și vom vorbi în detaliu despre robotul de căutare Google și despre cum să fim prieteni cu ei.

Mai întâi trebuie să înțelegeți ce sunt roboții de căutare în general, ei se mai numesc și păianjeni. Ce job fac păianjenii motoarelor de căutare?

Acestea sunt programe care verifică site-urile web. Ei caută prin toate postările și paginile de pe blogul tău, colectează informații, pe care apoi le transferă în baza de date a motorului de căutare pentru care lucrează.

Nu trebuie să cunoașteți întreaga listă de roboți de căutare, cel mai important lucru este să știți că Google are acum doi păianjeni principali, care se numesc „panda” și „pinguin”. Se luptă cu conținut de calitate scăzută și link-uri nedorite și trebuie să știi cum să respingi atacurile lor.

Robotul de căutare google panda a fost creat cu scopul de a promova doar materiale de înaltă calitate în căutare. Toate site-urile cu conținut de calitate scăzută sunt reduse în rezultatele căutării.

Prima dată când acest păianjen a apărut în 2011. Înainte de apariția sa, a fost posibil să se promoveze orice site publicând o cantitate mare de text în articole și folosind o cantitate imensă de Cuvinte cheie. Împreună, aceste două tehnici nu au adus conținut de înaltă calitate în partea de sus a rezultatelor căutării, dar site-urile bune au coborât în rezultatele căutării.

„Panda” pune imediat lucrurile în ordine verificând toate site-urile și pune pe toată lumea la locurile cuvenite. Deși se luptă cu conținut de calitate scăzută, chiar și site-uri mici cu articole de calitate pot fi promovate acum. Deși era inutil să promoveze astfel de site-uri înainte, nu puteau concura cu giganții care au o cantitate mare de conținut.

Acum ne vom da seama cum să evităm sancțiunile „panda”. Mai întâi trebuie să înțelegem ce nu-i place. Am scris deja mai sus că se luptă cu conținut prost, dar ce fel de text este rău pentru ea, să ne dăm seama pentru a nu publica asta pe site-ul ei.

Robotul de căutare Google se străduiește să se asigure că numai materiale de înaltă calitate pentru solicitanți sunt emise în acest motor de căutare. Daca ai articole in care sunt putine informatii si nu sunt atractive ca aparenta, atunci rescrie urgent aceste texte pentru ca „panda” sa nu ajunga la tine.

Conținutul de calitate poate fi atât mare, cât și mic, dar dacă păianjenul vede un articol lung cu multe informații, atunci acesta va beneficia mai mult cititorul.

Apoi trebuie remarcată dublarea, cu alte cuvinte plagiat. Daca crezi ca vei rescrie articolele altora pentru blogul tau, poti pune imediat capat site-ului tau. Copierea este aspru pedepsită prin aplicarea unui filtru și se verifică plagiatul foarte usor, am scris un articol pe aceasta tema cum să verificați textele pentru unicitate.

Următorul lucru de observat este suprasaturarea textului cu cuvinte cheie. Cine crede că va scrie un articol din aceleași cuvinte cheie și va ocupa primul loc în rezultatele căutării se înșală foarte mult. Am un articol despre cum să verificați relevanța paginilor, asigurați-vă că îl citiți.

Și ce altceva vă poate atrage un „panda” sunt articolele vechi care sunt depășite din punct de vedere moral și nu aduc trafic pe site. Ele trebuie actualizate.

Există, de asemenea, un robot de căutare pe google „pinguin”. Acest păianjen luptă împotriva spamului și a linkurilor nedorite de pe site-ul tău. De asemenea, calculează linkurile achiziționate din alte resurse. Prin urmare, pentru a nu vă teme de acest robot de căutare, nu ar trebui să cumpărați link-uri, ci să publicați conținut de înaltă calitate, astfel încât oamenii să facă legătura cu dvs.

Acum să formulăm ce trebuie făcut pentru ca site-ul să arate perfect prin ochii unui robot de căutare:

Pentru a crea un conținut de calitate, mai întâi studiază bine subiectul înainte de a scrie un articol. Atunci trebuie să înțelegeți că oamenii sunt cu adevărat interesați de acest subiect.

Utilizare exemple concreteși imagini, acest lucru va face articolul plin de viață și interesant. Împărțiți textul în paragrafe mici pentru a fi ușor de citit. De exemplu, dacă deschideți o pagină cu glume într-un ziar, pe care le veți citi mai întâi? Desigur, fiecare persoană citește mai întâi texte scurte, apoi mai lungi și, nu în ultimul rând, cârpe lungi pentru picioare.

Punctul favorit al lui Panda nu este relevanța unui articol care conține informații învechite. Rămâneți pe fază pentru actualizări și modificări texte.

Urmăriți densitatea cuvintelor cheie, am scris mai sus cum să determinați această densitate, în serviciul despre care v-am vorbit veți primi numărul exact de chei necesare.

Nu plagiați, toată lumea știe că nu puteți fura lucrurile sau textul altora - este același lucru. Vei fi responsabil pentru furt, ajungând sub filtru.

Scrieți texte pentru cel puțin două mii de cuvinte, apoi un astfel de articol va părea informativ prin ochii roboților motoarelor de căutare.

Nu iesi in afara subiectului pe blogul tau. Dacă rulați un blog despre câștigarea de bani pe internet, atunci nu trebuie să tipăriți articole despre pistoale cu aer comprimat. Acest lucru poate reduce ratingul resursei dvs.

Concepeți frumos articolele, împărțiți-le în paragrafe și adăugați imagini pentru a face să fie plăcut de citit și să nu doriți să părăsiți rapid site-ul.

Când cumpărați linkuri, faceți-le către cele mai interesante și utile articole pe care oamenii le vor citi cu adevărat.

Ei bine, acum știi ce fel de muncă fac roboții motoarelor de căutare și poți fi prieten cu ei. Și cel mai important, robotul de căutare pe google și „panda” și „pinguinul” au fost studiate în detaliu de către tine.

1.1.1. Componentele motorului de căutare

Informațiile de pe web nu sunt doar completate, ci și în continuă schimbare, dar nimeni nu spune nimănui despre aceste schimbări. Dispărut un singur sistem introducerea de informații care sunt disponibile simultan pentru toți utilizatorii de internet. Prin urmare, pentru a structura informațiile, a oferi utilizatorilor mijloace convenabile de căutare a datelor, au fost create motoarele de căutare.

Motoare de căutare Sunt tipuri diferite. Unii dintre ei caută informații pe baza a ceea ce oamenii pun în ele. Acestea pot fi directoare în care editorii introduc informații despre site-uri, descrierile lor scurte sau recenzii. Ele sunt căutate printre aceste descrieri.

Acestea din urmă colectează informații pe Web folosind programe speciale. Acestea sunt motoare de căutare, formate, de regulă, din trei componente principale:

Index;

motor de căutare.

Agent, sau mai frecvent - un păianjen, un robot (în literatura engleză - spider, crawler), în căutarea informațiilor ocolește rețeaua sau o anumită parte a acesteia. Acest robot păstrează o listă de adrese (URL-uri) pe care le poate vizita și indexa, cu un anumit motor de căutare descarcă periodic documentele corespunzătoare legăturilor și le analizează. Conținutul rezultat al paginilor este salvat de robot într-o formă mai compactă și transferat în Index. Dacă se găsește un link nou în timpul analizei paginii (documentului), robotul îl va adăuga la lista acesteia. Prin urmare, orice document sau site care are link-uri poate fi găsit de către robot. Și invers, dacă site-ul sau orice parte a acestuia nu are linkuri externe, este posibil ca robotul să nu-l găsească.

Un robot nu este doar un colector de informații. Are o „inteligență” destul de dezvoltată. Roboții pot căuta site-uri ale unui anumit subiect, pot genera liste de site-uri sortate în funcție de trafic, pot extrage și procesa informații din bazele de date existente și pot urmări link-uri de diferite adâncimi de imbricare. Dar, în orice caz, ei trec toate informațiile găsite în baza de date (Index) a motorului de căutare.

Roboții de căutare sunt tipuri variate:

? Păianjen(păianjen) este un program care descarcă pagini web în același mod ca browserul utilizatorului. Diferența este că browserul afișează informațiile conținute în pagină (text, grafică etc.), în timp ce păianjenul nu are componente vizuale și lucrează direct cu textul HTML al paginii (similar cu ceea ce vei vedea dacă activați vizualizarea codului HTML în browser).

? Tractor pe şenile(crawler, păianjen „călător”) – evidențiază toate linkurile prezente pe pagină. Sarcina sa este de a determina unde ar trebui să meargă păianjenul, pe baza legăturilor sau pe baza unei liste predefinite de adrese. Crawler-ul, urmând linkurile găsite, caută documente noi care sunt încă necunoscute motorului de căutare.

? Indexator parsează pagina în părțile sale componente și le analizează. Sunt selectate și analizate diferite elemente ale paginii, cum ar fi text, titluri, caracteristici structurale și de stil, etichete HTML pentru servicii speciale etc.

Index- aceasta este partea motorului de căutare în care sunt căutate informații. Indexul conține toate datele care i-au fost transmise de roboți, astfel încât dimensiunea indexului poate ajunge la sute de gigaocteți. De fapt, indexul conține copii ale tuturor paginilor vizitate de roboți. Dacă robotul detectează o modificare pe o pagină pe care a indexat-o deja, trimite informații actualizate către Index. Ar trebui să o înlocuiască pe cea existentă, dar în unele cazuri nu apare doar o pagină nouă în Index, dar rămâne și pagina veche.

motor de căutare este însăși interfața prin care vizitatorul interacționează cu Indexul. Prin intermediul interfeței, utilizatorii își introduc solicitările și primesc răspunsuri, iar proprietarii site-ului le înregistrează (și această înregistrare este o altă modalitate de a transmite adresa site-ului tău către robot). Atunci când procesează o interogare, motorul de căutare selectează paginile și documentele corespunzătoare dintre cele multe milioane de resurse indexate și le aranjează în ordinea importanței sau relevanței pentru interogare.