Pretraživači, pretraživači i roboti pauci. Budućnost pretraživača

Kako rade roboti pretraživača

Robot za pretraživanje (pauk, bot) je a mali program, koji može posjetiti milione web stranica bez sudjelovanja operatera i skenirati gigabajte tekstova. Čitanje stranica i čuvanje njihovih tekstualnih kopija prva je faza indeksiranja novih dokumenata. Treba napomenuti da roboti pretraživača ne provode nikakvu obradu primljenih podataka. Njihov zadatak je samo pohranjivanje tekstualnih informacija.

Više videa na našem kanalu - naučite internet marketing uz SEMANTICA

Lista robota za pretragu

Od svih pretraživača uključenih u skeniranje Runeta, Yandex ima najveću kolekciju botova. Sljedeći botovi su odgovorni za indeksiranje:

glavni robot za indeksiranje koji prikuplja podatke sa web stranica;
bot sposoban da prepozna ogledala;
Yandex robot za pretraživanje koji indeksira slike;
pauk koji pregledava stranice sajtova prihvaćenih u YAN-u;
ikone favicon skeniranja robota;
nekoliko paukova koji određuju dostupnost stranica web stranice.

Googleov glavni robot za pretraživanje prikuplja tekstualne informacije. U osnovi, gleda html fajlove, analizira JS i CSS u redovnim intervalima. Može prihvatiti sve tipove sadržaja koji su dozvoljeni za indeksiranje. PS Google ima pauka koji kontrolira indeksiranje slika. Tu je i robot za pretraživanje - program koji podržava funkcionisanje mobilna verzija traži.

Pogledajte stranicu kroz oči robota za pretraživanje

Kako bi ispravio greške koda i druge nedostatke, webmaster može saznati kako robot za pretraživanje vidi stranicu. Ovu opciju pruža Google PS. Morat ćete otići na alate za webmastere, a zatim kliknuti na karticu "skeniranje". U prozoru koji se otvori odaberite redak "pretraži kao Googlebot". Zatim morate unijeti adresu stranice koja se proučava u obrazac za pretragu (bez navođenja domene i http:// protokola).

Odabirom naredbe "dobi i prikaži", webmaster će moći vizualno procijeniti stanje stranice web stranice. Da biste to učinili, morate kliknuti na potvrdni okvir "zahtjev za prikaz". Otvorit će se prozor s dvije verzije web dokumenta. Webmaster uči kako običan posjetitelj vidi stranicu i u kojem obliku je dostupna pretraživaču.

Savjet! Ako web dokument koji se analizira još nije indeksiran, tada možete koristiti naredbu „dodaj u indeks“ >> „popiši samo ovaj URL“. Pauk će analizirati dokument za nekoliko minuta, au bliskoj budućnosti web stranica će se pojaviti u rezultatima pretrage. Mjesečni limit zahtjeva za indeksiranje je 500 dokumenata.

Kako utjecati na brzinu indeksiranja

Nakon što sazna kako roboti za pretragu rade, webmaster će moći mnogo efikasnije promovirati svoju web stranicu. Jedan od glavnih problema mnogih mladih web projekata je loše indeksiranje. Roboti pretraživača nerado posjećuju neautoritativne internetske resurse.
Utvrđeno je da brzina indeksiranja direktno zavisi od intenziteta ažuriranja sajta. Redovno dodavanje jedinstvenih tekstualnih materijala privući će pažnju pretraživača.

Da biste ubrzali indeksiranje, možete koristiti društvene oznake i twitter servis. Preporučljivo je generirati Sitemap i postaviti ga u korijenski direktorij web projekta.

Gledajući kroz logove servera, ponekad možete primijetiti pretjerano interesovanje robota za pretraživanje za web stranice. Ako su botovi korisni (na primjer, botovi za indeksiranje PS-a), ostaje samo promatrati, čak i ako se opterećenje na serveru poveća. Ali još uvijek postoji puno sekundarnih robota, čiji pristup stranici nije potreban. Za sebe i za vas, dragi čitatelju, prikupio sam informacije i pretvorio ih u zgodan tablet.

Ko su roboti za pretragu

bot za pretragu, ili kako ih još zovu, robot, puzač, pauk - ništa više od program koji pretražuje i skenira sadržaj stranica klikom na linkove na stranicama. Roboti za pretraživanje nisu samo za pretraživače. Na primjer, usluga Ahrefs koristi paukove za poboljšanje podataka o povratnim vezama, Facebook vrši web skraping koda stranice kako bi prikazao ponovne objave linkova s naslovima, slikama i opisima. Web scraping je prikupljanje informacija iz različitih izvora.

Korištenje imena pauka u robots.txt

Kao što vidite, svaki ozbiljan projekat vezan za pretragu sadržaja ima svoje paukove. A ponekad je hitan zadatak ograničiti pristup nekim paucima stranici ili njenom odvojene sekcije. To se može učiniti putem datoteke robots.txt u korijenskom direktoriju stranice. Više o postavljanju robota sam pisao ranije, preporučujem da pročitate.

Imajte na umu da roboti za pretraživanje mogu zanemariti datoteku robots.txt i njene direktive. Direktive su samo smjernice za botove.

Postavite direktivu za robot za pretragu Možete koristiti odjeljak - apel korisničkom agentu ovog robota. Odjeljci za različite pauke razdvojeni su jednom praznom linijom.

Korisnički agent: Googlebot Dozvoli: /

Korisnički agent: Googlebot

dopustiti: /

Gore navedeno je primjer poziva glavnom Google pretraživaču.

U početku sam planirao da dodam unose u tabelu o tome kako se botovi za pretragu identifikuju u zapisnicima servera. Ali pošto su ovi podaci od malog značaja za SEO i može postojati nekoliko vrsta zapisa za svaki agentski token, odlučeno je da se prođe samo sa imenom botova i njihovom svrhom.

Roboti za pretragu G o o g l e

korisnički agent	Funkcije
Googlebot	Glavni indeksator za indeksiranje stranica za PC i pametne telefone
Mediapartners-Google	robot za AdSense oglasnu mrežu
API-ji-Google	API-ji-Google korisnički agent
AdsBot-Google	Provjerava kvalitetu oglasa na web stranicama dizajniranim za PC
AdsBot-Google-Mobile	Provjerava kvalitetu oglasa na web stranicama dizajniranim za mobilne uređaje
Googlebot slika (Googlebot)	Indeksira slike na stranicama web mjesta
Googlebot vijesti (Googlebot)	Traže se stranice za dodavanje u Google vijesti
Googlebot Video (Googlebot)	Indeksira video sadržaj
AdsBot-Google-Mobile-Apps	Provjerava kvalitet oglasa u aplikacijama za Android uređaji, radi na istim principima kao i obični AdsBot

Pretraživač roboti I indeks

korisnički agent	Funkcije
Yandex	Kada je ovaj token agenta naveden u robots.txt, zahtjev ide svim Yandex botovima
YandexBot	Glavni robot za indeksiranje
YandexDirect	Preuzima informacije o sadržaju YAN partnerskih stranica
YandexImages	Indeksira slike sajta
Yandexmetric	Robot Yandex.Metrica
YandexMobileBot	Preuzima dokumente za analizu prisutnosti izgleda za mobilne uređaje
YandexMedia	Robot indeksiranje multimedijalnih podataka
YandexNews	Yandex.News indekser
YandexPagechecker	Mikropodatak Validator
YandexMarket	Yandex.Market robot;
YandexCalenda	Robot Yandex.Calendar
YandexDirectDyn	Generira dinamičke banere (direktno)
YaDirectFetcher	Preuzima stranice s oglasima kako bi provjerio njihovu dostupnost i razjasnio teme (YAN)
YandexAccessibilityBot	Preuzima stranice da provjeri njihovu dostupnost za korisnike
YandexScreenshotBot	Pravi snimak (screenshot) stranice
YandexVideoParser	Yandex.Video servis pauk
YandexSearchShop	Preuzima YML datoteke kataloga proizvoda
YandexOntoDBAPI	Robotski odgovor na objekt koji preuzima dinamičke podatke

Ostali popularni botovi za pretragu

korisnički agent	Funkcije
Baiduspider	Kineski pretraživač Baidu spider
cliqzbot	Cliqz anonimni robot tražilice
AhrefsBot	Ahrefs bot za pretragu (analiza linkova)
Genieo	Genieo servisni robot
bingbot	Bing pretraživač pretraživača
Slurp	Yahoo pretraživač pretraživač
DuckDuckBot	Web indeks PS DuckDuckGo
facebot	Facebook robot za pretraživanje weba
WebAlta (WebAlta Crawler/2.0)	Pretraživač PS WebAlta
BomboraBot	Skenira stranice uključene u projekat Bombora
CCBot	Pokretač baziran na nutchu koji koristi Apache Hadoop projekat
MSNBot	Bot PS MSN
Mail.Ru	Mail.Ru pretraživač pretraživača
ia_archiver	Scraping podataka za Alexa uslugu
Teoma	Pitajte servisnog bota

Postoji mnogo robota za pretragu, odabrao sam samo one najpopularnije i najpoznatije. Ako postoje botovi na koje ste naišli zbog agresivnog i upornog indeksiranja web mjesta, navedite to u komentarima, također ću ih dodati u tabelu.

Dostupno visoko obrazovanje - obuka za terapeuta masaže.

Postoji više od sto miliona resursa na internetu i milioni željene stranice nikada nam neće biti poznato. Kako pronaći kap koja nam je potrebna u ovom okeanu? Tu nam dolazi u pomoć. traži ow machine. Ovo pauk, a samo on zna šta i na kom mjestu weba ima.

Traži nove mašine Internet ah, ovo su stranice posebno dizajnirane da vam pomognu da pronađete potrebne informacije V globalna mreža svjetske mreže. Postoje tri glavne funkcije, iste za sve traži nove mašine:

- traži oviks po datim ključnim riječima "pretražuje" internet;
- indeksirane adrese traži ovikama zajedno sa riječima;
- indeksirane web stranice čine bazu, koja traži oviki pružaju korisnicima traži A ključne riječi ili njihove kombinacije.

Prvo traži Hoviki je primao do 2.000 zahtjeva dnevno i indeksirao stotine hiljada stranica. Danas se broj zahtjeva dnevno kreće na stotine miliona stranica i desetine miliona.

P pretraživači do svjetske mreže.

Prvo traži ovikama Internet a postojali su i programi "gopher" i "Archie". Oni su indeksirali fajlove koji se nalaze na povezanom Internet servera, što više puta smanjuje vrijeme za traži potrebne dokumente. Krajem 1980-ih, sposobnost za rad u Internet nije se svodilo na mogućnost korištenja Archija, Gophera, Veronike i sličnih traži novi programi.

Danas web postao najtraženiji dio Internet i većina Internet korisnici sprovode traži samo u svjetske mreže (www).

robot- pauk

Program robota koji se koristi u traži nove mašine, takođe se zove "pauk", pauk(pauk), obavlja proces kreiranja liste riječi koje se nalaze na stranici wed-resource. Proces se zove Web puzanje(puzanje). Traži novo pauk pregleda puno drugih stranica, pravi i popravlja listu korisnih riječi, tj. ima neko značenje, težinu.

Putovanje kroz traži u na mreži pauk (pauk) počinje sa najvećim serverom i najpopularnijim web stranicama. Nakon što zaobiđe takvu stranicu i indeksira sve pronađene riječi, ona ide na indeksiranje drugih stranica koristeći pronađene veze. Na ovaj način robot pauk zahvata cijeli web prostor.

Osnivači Google-a, Sergej Brin i Laurence Page, daju primjer rada Google-a pauk ov. Ima ih nekoliko. Traži počinje tri pauk ami. Jedan pauk podržava do 300 povezivanja stranica u isto vrijeme. Maksimalno opterećenje, četiri pauk i sposobni su da obrađuju do stotinu stranica u sekundi, dok generišu promet od oko 600 kilobajta/sek. On ovog trenutka, kada ovo pročitate, možda će vam se brojke učiniti smiješnim.

Ključne riječi za robota tražilice

Obično vlasnik web resursa želi biti uključen traži novi rezultati za traženo traži ow words. Ove riječi se zovu ključ s. Klyuchev Riječi definiraju suštinu sadržaja web stranice. I Meta Tagovi pomažu u tome. Zatim robotu za pretraživanje nude izbor ključ riječi koje se koriste za indeksiranje stranice. Ali ne preporučujemo dodavanje meta oznaka popularnim upitima koji nisu povezani sa sadržajem same stranice. Botovi pretraživača se bore protiv ovog fenomena, a imat ćete sreće ako samo izostavi meta tagove sa ključ drugim riječima, ne odgovara sadržaju stranica.

Meta tagovi su veoma koristan alat kada ključ Njihove prve riječi se ponavljaju nekoliko puta u tekstu stranice. Ali nemojte pretjerivati, postoji šansa da će robot uzeti stranicu za vrata.

Algoritmi za indeksiranje pretraživača

Algoritmi traži Hoviki su fokusirani na efikasnost konačnog rezultata, ali svi imaju različite pristupe tome. Lycos traži Novi roboti indeksiraju riječi u naslovu (title), linkovima (linkovima) i do stotinu često korištenih riječi na stranici i svaku riječ iz prvih 20 redova sadržaja stranice.

Googlebot uzima u obzir lokaciju riječi na stranici (u elementu tijela). Riječi službenih odjeljaka, kao što su titlovi, naslov, meta tagovi et al., označavaju kao posebno važne, isključujući međumetove "a", "an" i "the.".

Ostalo traži oviki može imati malo drugačiji način pristupa indeksiranju riječi koje se koriste za traži novi zahtjevi korisnika.

Roboti pretraživača, koji se ponekad nazivaju paucima ili crawlerima, jesu softverski moduli traženje web stranica. Kako oni rade? Šta oni zapravo rade? Zašto su važni?

Uz svu buku oko optimizacije pretraživača i baza podataka indeksa pretraživača, možda mislite da roboti moraju biti velika i moćna bića. Nije istina. Roboti pretraživača imaju samo osnovne karakteristike slične onima ranih pretraživača u smislu informacija koje mogu prepoznati na web lokaciji. Poput ranih pretraživača, roboti jednostavno ne mogu raditi određene stvari. Roboti ne razumiju okvire, Flash animacije, slike ili JavaScript. Ne mogu ući u odjeljke zaštićene lozinkom i ne mogu kliknuti na sva dugmad koja se nalaze na stranici. Mogu se zaglaviti u procesu indeksiranja dinamičkih URL-ova i biti veoma spori, do tačke zaustavljanja i nemoćni nad JavaScript navigacijom.

Kako rade roboti pretraživača?

Web pretraživače treba smatrati automatizovanim programima za rudarenje podataka koji surfaju internetom u potrazi za informacijama i vezama do informacija.

Kada, nakon što ste posjetili stranicu Submit a URL, registrujete drugu web stranicu u tražilici, novi URL se dodaje u red za pregled stranica od strane robota. Čak i ako ne registrujete stranicu, mnogo robota će pronaći vašu web lokaciju jer postoje linkovi s drugih stranica koje povezuju na vašu. Ovo je jedan od razloga zašto je važno izgraditi popularnost linkova i postaviti linkove na druge tematske resurse.

Kada dođu na vašu stranicu, roboti prvo provjeravaju da li postoji datoteka robots.txt. Ova datoteka govori robotima koji dijelovi vaše stranice ne smiju biti indeksirani. Obično to mogu biti direktoriji koji sadrže datoteke za koje robot nije zainteresiran ili ne bi trebao znati za njih.

Roboti pohranjuju i prikupljaju veze sa svake stranice koju posjete i kasnije slijede te veze na druge stranice. Cijeli svjetski web je izgrađen od linkova. Početna ideja stvaranja internetske mreže bila je da bi bilo moguće pratiti linkove s jednog mjesta na drugo. Ovako se kreću roboti.

Domišljatost indeksiranja stranica u realnom vremenu zavisi od inženjera pretraživača, koji su izmislili metode koje se koriste za procenu informacija koje primaju roboti pretraživača. Kada se ugrade u bazu podataka pretraživača, informacije su dostupne korisnicima koji vrše pretrage. Kada korisnik pretraživača unese pojam za pretraživanje, pravi se niz brzih kalkulacija kako bi se osiguralo da je tačan skup web lokacija za najrelevantniji odgovor zapravo vraćen.

Možete pogledati koje stranice Vašeg sajta je već posjetio robot za pretraživanje, vođen log datotekama servera ili rezultatima statističke obrade log datoteke. Identificiranjem robota možete vidjeti kada su posjetili vašu stranicu, koje stranice i koliko često. Neki roboti se lako prepoznaju po njihovim imenima, kao što je Googleov Googlebot. Drugi su skriveniji, kao Inktomis Slurp. Drugi roboti se također mogu naći u logovima i moguće je da ih nećete moći odmah identificirati; neki od njih mogu čak biti pretraživači kojima upravljaju ljudi.

Pored identifikacije jedinstvenih pretraživača i brojanja broja poseta koje imaju, statistika vam takođe može pokazati agresivne pretraživače koji troše propusni opseg ili indekse za koje ne želite da posećuju vašu veb lokaciju.

Kako čitaju stranice vaše web stranice?

Kada pretraživač posjeti stranicu, skenira njen vidljivi tekst, sadržaj različitih oznaka izvorni kod vašu stranicu (title tag, meta tagove, itd.), kao i hiperveze na stranici. Sudeći prema riječima linkova, pretraživač odlučuje o čemu se radi na stranici. Postoji mnogo faktora koji se koriste za izračunavanje ključnih tačaka stranice koja „igra ulogu“. Svaki pretraživač ima svoj algoritam za procjenu i obradu informacija. Ovisno o tome kako je robot konfiguriran, informacije se indeksiraju i zatim isporučuju u bazu podataka tražilice.

Nakon toga, informacije koje se dostavljaju bazama podataka indeksa tražilice postaju dio pretraživača i procesa rangiranja baze podataka. Kada posjetitelj uputi zahtjev, pretraživač prolazi kroz cijelu bazu podataka kako bi vratio konačnu listu koja je relevantna upit za pretragu.

Baze podataka pretraživača pažljivo su obrađene i usklađene. Ako ste već u bazi podataka, roboti će vas povremeno posjećivati kako bi prikupili sve promjene na stranicama i provjerili imaju li najnovije informacije. Broj posjeta ovisi o postavkama tražilice, koje mogu varirati ovisno o vrsti i namjeni.

Ponekad roboti za pretraživanje nisu u mogućnosti da indeksiraju web stranicu. Ako se vaša stranica srušila ili je posjetio veliki broj posjetitelja, robot može biti nemoćan u pokušaju da je indeksira. Kada se to dogodi, stranica se ne može ponovo indeksirati, ovisno o tome koliko često je robot posjećuje. U većini slučajeva, roboti koji nisu mogli doći do vaših stranica pokušat će kasnije, u nadi da će vaša stranica uskoro biti dostupna.

Mnogi indeksi se ne mogu identifikovati kada pregledate evidencije. Možda vas posjećuju, ali zapisnici kažu da neko koristi Microsoft pretraživač itd. Neki roboti se identifikuju pomoću imena pretraživača (googlebot) ili njegovog klona (Scooter = AltaVista).

Ovisno o tome kako je robot konfiguriran, informacije se indeksiraju i zatim dostavljaju u baze podataka tražilice.

Baze podataka pretraživača su podložne modifikacijama u različitim vremenima. Čak i direktoriji koji imaju sekundarne rezultate pretraživanja koriste podatke robota kao sadržaj svoje web stranice.

Zapravo, pretraživači ne koriste robote samo za gore navedeno. Postoje roboti koji provjeravaju nove sadržaje u bazama podataka, posjećuju sadržaj stare baze podataka, provjeravaju da li su se linkovi promijenili, preuzimaju cijele stranice za pregledavanje itd.

Iz tog razloga, čitanje log datoteka i praćenje rezultata tražilice pomaže vam da držite na oku indeksiranje vaših projekata.

robot za pretragu pozvao poseban program bilo koji pretraživač koji je dizajniran da unese u bazu podataka (indeksiranje) sajtova pronađenih na Internetu i njihovih stranica. Koriste se i nazivi: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Princip rada

Robot za pretraživanje je program tipa pretraživača. On stalno skenira mrežu: posjećuje indeksirane (mu već poznate) stranice, prati njihove veze i pronalazi nove resurse. Kada se pronađe novi resurs, robot procedure ga dodaje u indeks tražilice. Robot za pretraživanje također indeksira ažuriranja na stranicama, čija je učestalost fiksna. Na primjer, web mjesto koje se ažurira jednom sedmično će biti posjećeno od strane pauka sa ovom frekvencijom, a sadržaj na stranicama vijesti može se indeksirati u roku od nekoliko minuta nakon objavljivanja. Ako nijedna veza s drugih resursa ne vodi na web lokaciju, tada da biste privukli robote za pretraživanje, resurs se mora dodati putem posebnog obrasca (Google Webmaster Center, Yandex Webmaster Panel, itd.).

Vrste robota za pretraživanje

Yandex pauci:

Yandex/1.01.001 I je glavni bot za indeksiranje,
Yandex/1.01.001 (P) - indeksira slike,
Yandex/1.01.001 (H) - pronalazi ogledala sajta,
Yandex/1.03.003 (D) - određuje da li stranica dodata sa panela webmastera odgovara parametrima indeksiranja,
YaDirectBot/1.0 (I) - indeksira resurse iz Yandex reklamne mreže,
Yandex/1.02.000 (F) — indeksira favikone sajta.

Google pauci:

Googlebot je glavni robot,
Googlebot News - indeksira i indeksira vijesti,
Google Mobile - indeksira web stranice za mobilne uređaje,
Googlebot Slike - pretražuje i indeksira slike,
Googlebot Video - indeksira video zapise,
Google AdsBot - provjerava kvalitet odredišne stranice,
Google Mobile AdSense i Google AdSense - indeksira stranice Google reklamne mreže.

Druge tražilice također koriste nekoliko tipova robota koji su funkcionalno slični navedenima.