Roboti pretraživača. Pretraživači njihovi roboti i pauci Pretražujte pauke

robot za pretragu naziva se poseban program pretraživača koji je dizajniran za ulazak u bazu podataka (indeksiranje) stranica koje se nalaze na Internetu i njihovih stranica. Koriste se i nazivi: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princip rada

Robot za pretraživanje je program tipa pretraživača. On stalno skenira mrežu: posjećuje indeksirane (mu već poznate) stranice, prati njihove veze i pronalazi nove resurse. Kada se pronađe novi resurs, robot procedure ga dodaje u indeks tražilice. Robot za pretraživanje također indeksira ažuriranja na stranicama, čija je učestalost fiksna. Na primjer, web mjesto koje se ažurira jednom sedmično će biti posjećeno od strane pauka sa ovom frekvencijom, a sadržaj na stranicama vijesti može se indeksirati u roku od nekoliko minuta nakon objavljivanja. Ako nijedna veza s drugih resursa ne vodi na web lokaciju, tada da biste privukli robote za pretraživanje, resurs se mora dodati putem posebnog obrasca (Google Webmaster Center, Yandex Webmaster Panel, itd.).

Vrste robota za pretraživanje

Yandex pauci:

  • Yandex/1.01.001 I je glavni bot za indeksiranje,
  • Yandex/1.01.001 (P) - indeksira slike,
  • Yandex/1.01.001 (H) - pronalazi ogledala sajta,
  • Yandex/1.03.003 (D) - određuje da li stranica dodata sa panela webmastera odgovara parametrima indeksiranja,
  • YaDirectBot/1.0 (I) - indeksira resurse iz Yandex reklamne mreže,
  • Yandex/1.02.000 (F) — indeksira favikone sajta.

Google pauci:

  • Googlebot je glavni robot,
  • Googlebot News - indeksira i indeksira vijesti,
  • Google Mobile - indeksira web stranice za mobilne uređaje,
  • Googlebot Slike - pretražuje i indeksira slike,
  • Googlebot Video - indeksira video zapise,
  • Google AdsBot - provjerava kvalitet odredišne ​​stranice,
  • Google Mobile AdSense i Google AdSense - indeksira stranice Google reklamne mreže.

Druge tražilice također koriste nekoliko tipova robota koji su funkcionalno slični navedenima.

obično, pretraživač je stranica specijalizirana za pronalaženje informacija koje odgovaraju kriterijima upita korisnika. Glavni zadatak takvih stranica je organiziranje i strukturiranje informacija na mreži.

Većina ljudi, koristeći usluge pretraživača, nikada se ne zapita kako tačno mašina radi, tražeći potrebne informacije iz dubina interneta.

Za običnog korisnika mreže sam koncept principa rada pretraživača nije kritičan, jer su algoritmi koji vode sistem u stanju da zadovolje potrebe osobe koja ne zna da napravi optimizovan upit kada traženje potrebnih informacija. Ali za web programere i stručnjake koji se bave optimizacijom web stranica jednostavno je potrebno imati barem početne koncepte strukture i principa tražilica.

Svaki pretraživač radi na preciznim algoritmima koji se čuvaju u najstrožoj tajnosti i poznati su samo malom krugu zaposlenih. Ali prilikom dizajniranja web mjesta ili njegove optimizacije, neophodno je uzeti u obzir opća pravila za funkcioniranje tražilica, o kojima se govori u ovom članku.

Unatoč činjenici da svaki PS ima svoju strukturu, nakon pažljivog proučavanja mogu se kombinirati u osnovne, generalizirajuće komponente:

Modul za indeksiranje

Modul za indeksiranje - Ovaj element uključuje tri dodatne komponente (botove):

1. Pauk (pauk robot) - preuzima stranice, filtrira tekstualni tok, izvlačeći iz njega sve interne hiperveze. Osim toga, Spider čuva datum preuzimanja i naslov odgovora servera, kao i URL - adresu stranice.

2. Crawler (pauk crawling robot) - analizira sve linkove na stranici, i na osnovu te analize određuje koju stranicu posjetiti, a koju ne vrijedi posjetiti. Na isti način, pretraživač pronalazi nove resurse koje bi PS trebao obraditi.

3. indexer (Robot-indexer) - bavi se analizom internet stranica koje preuzima pauk. U ovom slučaju, sama stranica je podijeljena na blokove i analizirana od strane indeksatora korištenjem morfoloških i leksičkih algoritama. Različiti dijelovi web stranice potpadaju pod analizu indeksera: naslovi, tekstovi i druge informacije o uslugama.

Svi dokumenti koje obrađuje ovaj modul pohranjuju se u bazu podataka pretraživača, koja se naziva sistemski indeks. Pored samih dokumenata, baza podataka sadrži i potrebne servisne podatke - rezultat pažljive obrade ovih dokumenata, vođenih kojim pretraživač ispunjava zahtjeve korisnika.

server za pretragu

sledeće, veoma važna komponenta sistemi - server za pretraživanje čiji je zadatak da obradi korisnički zahtjev i generiše stranicu rezultata pretraživanja.

Obrađujući zahtjev korisnika, server za pretraživanje izračunava ocjenu relevantnosti odabranih dokumenata za zahtjev korisnika. Ovo rangiranje određuje poziciju koju će web stranica zauzeti u rezultatima pretraživanja. Svaki dokument koji odgovara kriterijima pretraživanja prikazuje se na stranici s rezultatima kao isječak.

Isječak je Kratki opis stranicu, uključujući naslov, vezu, ključne riječi i kratke tekstualne informacije. Na osnovu isječka, korisnik može procijeniti relevantnost stranica koje je tražilica odabrala za njegov upit.

Najvažniji kriterij kojim se poslužitelj pretraživanja rukovodi prilikom rangiranja rezultata upita je TCI indikator () koji nam je već poznat.

Sve opisane komponente PS-a su skupe i veoma zahtijevaju resurse. Performanse pretraživača direktno zavise od efikasnosti interakcije ovih komponenti.

Svidio vam se članak? Pretplatite se na vijesti bloga ili podijelite na društvenim mrežama, a ja ću vam odgovoriti


6 komentara na objavu “Tražilice su njihovi roboti i pauci”

    Dugo sam tražio ove informacije, hvala.

    Odgovori

    Drago mi je da se vaš blog stalno razvija. Ovakvi postovi samo doprinose popularnosti.

    Odgovori

    Shvatio sam nešto. Pitanje je da li PR nekako zavisi od TIC-a?

    Zdravo prijatelji! Danas ćete naučiti kako Yandex i Google pretraživači roboti rade i koju funkciju obavljaju u promociji web stranice. Pa idemo!

    Pretraživači rade ovu akciju kako bi pronašli deset WEB projekata od milion sajtova koji imaju kvalitetan i relevantan odgovor na upit korisnika. Zašto samo deset? Jer se sastoji od samo deset pozicija.

    Pretražujte prijatelje i webmastere i korisnike robota

    Zašto je važno posjetiti stranicu pomoću robota za pretraživanje već je postalo jasno, a zašto je to za korisnika? Tako je, kako bi korisnik otvorio samo one stranice koje u potpunosti odgovore na njegov zahtjev.

    Robot za pretragu- vrlo fleksibilan alat, u stanju je pronaći stranicu, čak i onu koja je tek kreirana, a vlasnik ove stranice još nije bio uključen u . Stoga je ovaj bot nazvan pauk, može ispružiti šape i stići bilo gdje na virtualnoj mreži.

    Da li je moguće kontrolisati robota za pretragu u vašem interesu

    Postoje slučajevi kada neke stranice nisu uključene u pretragu. To je uglavnom zbog činjenice da ovu stranicu još nije indeksirao robot za pretraživanje. Naravno, prije ili kasnije robot za pretraživanje će primijetiti ovu stranicu. Ali za to je potrebno vrijeme, a ponekad i dosta vremena. Ali ovdje možete pomoći robotu za pretraživanje da brže posjeti ovu stranicu.

    Da biste to učinili, možete postaviti svoju web stranicu u posebne direktorije ili liste, društvene mreže. Općenito, na svim stranicama na kojima robot za pretraživanje jednostavno živi. Na primjer, na društvenim mrežama postoji ažuriranje svake sekunde. Pokušajte zatražiti svoju web lokaciju i robot za pretraživanje će doći na vašu stranicu mnogo brže.

    Iz ovoga slijedi jedno, ali glavno pravilo. Ako želite da botovi pretraživača posjećuju vašu stranicu, potrebno ih je redovno hraniti novim sadržajem. U slučaju da primete da se sadržaj ažurira, sajt se razvija, mnogo će češće posećivati ​​vaš internet projekat.

    Svaki robot za pretraživanje može zapamtiti koliko se često mijenja vaš sadržaj. On ocjenjuje ne samo kvalitet, već i vremenske intervale. A ako se materijal na stranici ažurira jednom mjesečno, onda će doći na stranicu jednom mjesečno.

    Dakle, ako se stranica ažurira jednom sedmično, onda će robot za pretraživanje dolaziti jednom sedmično. Ako ažurirate stranicu svaki dan, tada će robot za pretraživanje posjećivati ​​stranicu svaki dan ili svaki drugi dan. Postoje stranice koje se indeksiraju u roku od nekoliko minuta nakon ažuriranja. Ovo društvenim medijima, agregatori vijesti i stranice koje objavljuju nekoliko članaka dnevno.

    Kako dati zadatak robotu i nešto mu zabraniti?

    Na samom početku smo saznali da pretraživači imaju nekoliko robota koji obavljaju različite zadatke. Neko traži slike, neko linkove i tako dalje.

    Možete kontrolirati bilo kojeg robota pomoću posebne datoteke robots.txt . Iz ove datoteke robot počinje da se upoznaje sa lokacijom. U ovoj datoteci možete odrediti može li robot indeksirati stranicu, ako može, koje sekcije. Sva ova uputstva mogu se kreirati za jednog ili sve robote.

    Obuka za promociju web stranice

    Saznajte više o zamršenosti SEO promocije web stranice u pretraživačima Google sistemi i Yandex, pričam preko svog skajpa. Doveo sam sve svoje WEB projekte da prisustvuju više i iz ovoga dobijam odlične rezultate. Mogu vas naučiti, ako ste zainteresovani!

    Prijatelji, još jednom vas pozdravljam! Sada ćemo analizirati šta su roboti za pretraživanje i detaljno razgovarati o google robotu za pretraživanje i kako se s njima sprijateljiti.

    Prvo morate razumjeti šta su roboti za pretraživanje općenito, zovu se i pauci. Koji posao rade pauci pretraživača?

    Ovo su programi koji provjeravaju web stranice. Pregledaju sve postove i stranice na vašem blogu, prikupljaju informacije koje potom prenose u bazu podataka tražilice za koju rade.

    Ne morate znati cijelu listu robota za pretraživanje, najvažnije je znati da Google sada ima dva glavna pauka, koji se zovu "panda" i "pingvin". Oni se bore sa nekvalitetnim sadržajem i junk linkovima, a vi morate znati kako odbiti njihove napade.

    Google panda robot za pretraživanje stvoren je kako bi promovirao samo visokokvalitetne materijale u pretraživanju. Sve stranice sa niskim kvalitetom sadržaja su smanjene u rezultatima pretraživanja.

    Prvi put se ovaj pauk pojavio 2011. Prije njegovog pojavljivanja bilo je moguće promovirati bilo koju stranicu objavljivanjem velike količine teksta u člancima i korištenjem ogromne količine ključne riječi. Zajedno, ove dvije tehnike nisu dovele kvalitetan sadržaj na vrh rezultata pretraživanja, ali su dobre stranice otišle u rezultate pretraživanja.

    "Panda" je odmah dovela stvari u red tako što je provjerila sve stranice i smjestila sve na svoja mjesta. Iako se bori s nekvalitetnim sadržajem, sada se mogu promovirati čak i male stranice s kvalitetnim člancima. Iako je ranije bilo beskorisno promovirati takve stranice, nisu mogli konkurirati divovima koji imaju veliku količinu sadržaja.

    Sada ćemo smisliti kako izbjeći sankcije "pande". Prvo moramo shvatiti šta joj se ne sviđa. Već sam gore napisao da se bori sa lošim sadržajem, ali kakav je tekst za nju loš, hajde da shvatimo da ovo ne objavimo na njenom sajtu.

    Google robot za pretraživanje nastoji osigurati da se u ovoj tražilici izdaju samo visokokvalitetni materijali za podnosioce zahtjeva. Ako imate članke u kojima ima malo informacija i nisu privlačni izgledom, onda hitno prepišite ove tekstove kako vam "panda" ne bi došla.

    Kvalitetan sadržaj može biti i veliki i mali, ali ako pauk vidi dugačak članak s puno informacija, onda će čitatelju više koristiti.

    Zatim treba napomenuti dupliciranje, drugim riječima plagijat. Ako mislite da ćete prepisati tuđe članke za svoj blog, možete odmah staviti tačku na svoju stranicu. Kopiranje se strogo kažnjava primjenom filtera, i provjerava se plagijat vrlo lako, napisao sam članak na tu temu kako provjeriti jedinstvenost teksta.

    Sljedeće što treba primijetiti je prezasićenost teksta ključnim riječima. Ko misli da će napisati članak od istih ključnih riječi i zauzeti prvo mjesto u rezultatima pretraživanja, jako se vara. Imam članak o tome kako provjeriti relevantnost stranica, obavezno ga pročitajte.

    A ono što vam još može privući „pandu” su stari članci koji su moralno zastarjeli i ne dovode promet na stranicu. Treba ih ažurirati.

    Tu je i google robot za pretraživanje "pingvin". Ovaj pauk se bori protiv neželjene pošte i neželjenih linkova na vašoj web lokaciji. Također izračunava kupljene veze iz drugih izvora. Stoga, kako se ne biste bojali ovog robota za pretraživanje, ne biste trebali kupovati linkove, već objavljivati ​​visokokvalitetne sadržaje tako da se ljudi sami povezuju na vas.

    Sada formulirajmo šta treba učiniti da bi stranica izgledala savršeno kroz oči robota za pretraživanje:

    • Da biste napravili kvalitetan sadržaj, prvo dobro proučite temu prije nego što napišete članak. Tada morate shvatiti da su ljudi zaista zainteresirani za ovu temu.
    • Koristi konkretnim primjerima i slike, ovo će članak učiniti živahnim i zanimljivim. Podijelite tekst na male pasuse kako biste ga lakše čitali. Na primjer, ako otvorite stranicu sa vicevima u novinama, koje ćete prvo pročitati? Naravno, svaka osoba prvo čita kratke tekstove, zatim one duže i, na kraju, ali ne i najmanje važno, dugačke krpe za noge.
    • Pandina omiljena gnjavaža nije relevantnost članka koji sadrži zastarjele informacije. Pratite ažuriranja i mijenjajte tekstove.
    • Pazite na gustinu ključnih reči, gore sam napisao kako da odredite ovu gustinu, u servisu o kome sam govorio dobit ćete tačan broj potrebnih ključeva.
    • Nemojte plagirati, svi znaju da ne možete ukrasti tuđe stvari ili tekst - to je ista stvar. Vi ćete biti odgovorni za krađu ako uđete ispod filtera.
    • Napišite tekstove od najmanje dvije hiljade riječi, tada će takav članak izgledati informativno očima robota pretraživača.
    • Nemojte skrenuti s teme na svom blogu. Ako vodite blog o zarađivanju novca na internetu, onda ne morate da štampate članke o vazdušnom oružju. Ovo može smanjiti ocjenu vašeg resursa.
    • Lijepo dizajnirajte članke, podijelite ih u paragrafe i dodajte slike kako biste ih učinili ugodnim za čitanje i ne želite brzo napustiti stranicu.
    • Kada kupujete veze, postavite ih na najzanimljivije i najkorisnije članke koje će ljudi zaista pročitati.

    Pa, sada znate kakav posao obavljaju roboti pretraživača i možete biti prijatelji s njima. I što je najvažnije, vi ste detaljno proučili robota za pretraživanje Google i "pandu" i "pingvin".

    1.1.1. Komponente pretraživača

    Informacije na webu ne samo da se popunjavaju, već se i stalno mijenjaju, ali niko nikome ne govori o tim promjenama. Odsutan jedan sistem unošenje informacija koje su istovremeno dostupne svim korisnicima Interneta. Stoga su napravljene tražilice kako bi se informacije strukturirale, korisnicima pružile pogodna sredstva za traženje podataka.

    Tražilice oni su različite vrste. Neki od njih traže informacije na osnovu onoga što ljudi stavljaju u njih. To mogu biti direktoriji u koje urednici unose informacije o stranicama, njihove kratke opise ili recenzije. Oni se traže među ovim opisima.

    Potonji prikupljaju informacije na webu koristeći specijalni programi. To su pretraživači, koji se po pravilu sastoje od tri glavne komponente:

    Indeks;

    pretraživač.

    Agent, ili češće - pauk, robot (u engleskoj literaturi - spider, crawler), u potrazi za informacijama zaobilazi mrežu ili njen određeni dio. Ovaj robot čuva listu adresa (URL-ova) koje može posjetiti i indeksirati, preuzima dokumente koji odgovaraju vezama i analizira ih u redovnim intervalima za svaku tražilicu. Dobijeni sadržaj stranica robot sprema u kompaktnijem obliku i prenosi u Indeks. Ako se prilikom analize stranice (dokumenta) pronađe nova veza, robot će je dodati na svoju listu. Stoga robot može pronaći bilo koji dokument ili web lokaciju koja ima veze. I obrnuto, ako sajt ili bilo koji njegov dio nema eksterne veze, robot ga možda neće pronaći.

    Robot nije samo sakupljač informacija. Ima prilično razvijenu "inteligenciju". Roboti mogu pretraživati ​​stranice određene teme, generirati liste lokacija sortiranih po prometu, izvlačiti i obraditi informacije iz postojećih baza podataka, te mogu pratiti veze različite dubine ugniježđenja. Ali u svakom slučaju, oni prosljeđuju sve pronađene informacije u bazu podataka (Index) tražilice.

    Pretraži robote oni su razne vrste:

    ? Pauk(pauk) je program koji preuzima web stranice na isti način kao i pretraživač korisnika. Razlika je u tome što pretraživač prikazuje informacije sadržane na stranici (tekst, grafika, itd.), dok pauk nema nikakve vizuelne komponente i radi direktno sa HTML tekstom stranice (slično onome što ćete videti ako uključite prikaz HTML koda u vašem pretraživaču).

    ? Crawler(puzalica, "putujući" pauk) - ističe sve veze prisutne na stranici. Njegov zadatak je da odredi kuda pauk treba da ide dalje, na osnovu linkova ili na osnovu unapred definisane liste adresa. Crawler, prateći pronađene veze, traži nove dokumente koji su još uvijek nepoznati pretraživaču.

    ? Indexer analizira stranicu na njene sastavne dijelove i analizira ih. Odabiru se i analiziraju različiti elementi stranice, kao što su tekst, naslovi, strukturne i stilske karakteristike, posebne servisne HTML oznake itd.

    Indeks- ovo je dio pretraživača u kojem se traže informacije. Indeks sadrži sve podatke koje su mu prenijeli roboti, tako da veličina indeksa može doseći stotine gigabajta. Zapravo, indeks sadrži kopije svih stranica koje su posjetili roboti. Ako robot otkrije promjenu na stranici koju je već indeksirao, šalje ažurirane informacije u Indeks. Trebao bi zamijeniti postojeću, ali u nekim slučajevima ne samo da se nova stranica pojavljuje u Indeksu, već ostaje i stara stranica.

    pretraživač je upravo sučelje putem kojeg posjetitelj komunicira sa Indeksom. Putem sučelja korisnici unose svoje zahtjeve i dobijaju odgovore, a vlasnici sajtova ih registruju (a ova registracija je još jedan način da robotu prenesete adresu vašeg sajta). Prilikom obrade upita, pretraživač odabire odgovarajuće stranice i dokumente među mnogim milionima indeksiranih resursa i raspoređuje ih po važnosti ili relevantnosti za upit.



Učitavanje...
Top