Robotët e motorëve të kërkimit. Motorët e kërkimit robotët dhe merimangat e tyre Kërkoni merimangat

robot kërkimi quhet një program i veçantë i një motori kërkimi, i cili është krijuar për të futur në bazën e të dhënave (indeksimit) faqet e gjetura në internet dhe faqet e tyre. Përdoren edhe emrat: zvarritës, merimangë, bot, indeksues automatik, milingonë, webcrawler, bot, webscutter, webrobots, webspider.

Parimi i funksionimit

Roboti i kërkimit është një program i llojit të shfletuesit. Ai vazhdimisht skanon rrjetin: ai viziton faqet e indeksuara (tashmë të njohura për të), ndjek lidhjet prej tyre dhe gjen burime të reja. Kur gjendet një burim i ri, roboti i procedurës e shton atë në indeksin e motorit të kërkimit. Roboti i kërkimit gjithashtu indekson përditësimet në faqet, frekuenca e të cilave është fikse. Për shembull, një sajt që përditësohet një herë në javë do të vizitohet nga një merimangë me këtë frekuencë dhe përmbajtja në faqet e lajmeve mund të indeksohet brenda disa minutave nga publikimi. Nëse asnjë lidhje nga burime të tjera nuk të çon në sit, atëherë për të tërhequr robotët e kërkimit, burimi duhet të shtohet përmes një formulari të veçantë (Qendra Google Webmaster, Paneli i Uebmasterit Yandex, etj.).

Llojet e robotëve të kërkimit

Merimangat Yandex:

  • Yandex/1.01.001 I është boti kryesor i indeksimit,
  • Yandex/1.01.001 (P) - indekson fotot,
  • Yandex/1.01.001 (H) - gjen pasqyrat e faqes,
  • Yandex/1.03.003 (D) - përcakton nëse faqja e shtuar nga paneli i webmasterit përputhet me parametrat e indeksimit,
  • YaDirectBot/1.0 (I) - indekson burimet nga rrjeti i reklamave Yandex,
  • Yandex/1.02.000 (F) - indekson faviconat e faqeve.

Google Spiders:

  • Googlebot është roboti kryesor,
  • Googlebot News - zvarritet dhe indekson lajmet,
  • Google Mobile - indekson faqet e internetit për pajisjet celulare,
  • Imazhet e Googlebot - kërkon dhe indekson imazhe,
  • Video Googlebot - indekson videot,
  • Google AdsBot - kontrollon cilësinë e faqes së uljes,
  • Google Mobile AdSense dhe Google AdSense - indekson faqet e rrjetit të reklamave Google.

Motorë të tjerë kërkimi përdorin gjithashtu disa lloje robotësh që funksionalisht janë të ngjashëm me ato të listuara.

Zakonisht, motor kërkimiështë një faqe e specializuar në gjetjen e informacionit që përputhet me kriteret e pyetjes së përdoruesit. Detyra kryesore e faqeve të tilla është të organizojnë dhe strukturojnë informacionin në rrjet.

Shumica e njerëzve, duke përdorur shërbimet e një motori kërkimi, nuk pyesin kurrë se si funksionon saktësisht makina, duke kërkuar informacionin e nevojshëm nga thellësia e internetit.

Për një përdorues të zakonshëm të rrjetit, vetë koncepti i parimeve të funksionimit të motorëve të kërkimit nuk është kritik, pasi algoritmet që drejtojnë sistemin janë në gjendje të plotësojnë nevojat e një personi që nuk di të bëjë një pyetje të optimizuar kur kërkon informacionin e nevojshëm. Por për një zhvillues uebi dhe specialistë të përfshirë në optimizimin e faqeve të internetit, është thjesht e nevojshme të kenë të paktën koncepte fillestare rreth strukturës dhe parimeve të motorëve të kërkimit.

Çdo motor kërkimi operon në algoritme të sakta që mbahen në konfidencialitetin më të rreptë dhe janë të njohur vetëm për një rreth të vogël punonjësish. Por kur hartoni një faqe ose optimizoni atë, është e domosdoshme të merren parasysh rregullat e përgjithshme për funksionimin e motorëve të kërkimit, të cilat diskutohen në artikullin e propozuar.

Përkundër faktit se çdo PS ka strukturën e vet, pas një studimi të kujdesshëm ato mund të kombinohen në komponentë bazë, përgjithësues:

Moduli i indeksimit

Moduli i Indeksimit - Ky element përfshin tre komponentë shtesë (bots):

1. Merimanga (Robot merimangë) - shkarkon faqe, filtron rrjedhën e tekstit, duke nxjerrë të gjitha lidhjet e brendshme prej tij. Për më tepër, Spider ruan datën e shkarkimit dhe titullin e përgjigjes së serverit, si dhe URL-në - adresën e faqes.

2. Zvarritës (Robot zvarritës merimangë) - analizon të gjitha lidhjet në faqe, dhe në bazë të kësaj analize, përcakton se cilën faqe duhet vizituar dhe cila nuk ia vlen të vizitohet. Në të njëjtën mënyrë, zvarritësi gjen burime të reja që duhet të përpunohen nga PS.

3. indeksues (Robot-indexer) - merret me analizën e faqeve të internetit të shkarkuara nga një merimangë. Në këtë rast, vetë faqja ndahet në blloqe dhe analizohet nga indeksuesi duke përdorur algoritme morfologjike dhe leksikore. Pjesë të ndryshme të një faqe interneti janë nën analizën e indeksuesit: titujt, tekstet dhe informacione të tjera shërbimi.

Të gjitha dokumentet e përpunuara nga ky modul ruhen në bazën e të dhënave të kërkuesit, të quajtur indeksi i sistemit. Përveç vetë dokumenteve, baza e të dhënave përmban të dhënat e nevojshme të shërbimit - rezultat i përpunimit të kujdesshëm të këtyre dokumenteve, të udhëhequr nga të cilat motori i kërkimit përmbush kërkesat e përdoruesve.

server kërkimi

tjetër, shumë komponent i rëndësishëm sisteme - një server kërkimi, detyra e të cilit është të përpunojë një kërkesë të përdoruesit dhe të gjenerojë një faqe me rezultate kërkimi.

Duke përpunuar kërkesën e përdoruesit, serveri i kërkimit llogarit vlerësimin e lidhjes së dokumenteve të zgjedhura me kërkesën e përdoruesit. Kjo renditje përcakton pozicionin që do të marrë një faqe interneti në rezultatet e kërkimit. Çdo dokument që përputhet me kriteret e kërkimit shfaqet në faqen e rezultateve si një fragment.

Fragmenti është Përshkrim i shkurtër faqe, duke përfshirë titullin, lidhjen, fjalët kyçe dhe informacionin e shkurtër të tekstit. Bazuar në fragment, përdoruesi mund të vlerësojë lidhjen e faqeve të zgjedhura nga motori i kërkimit me pyetjen e tij.

Kriteri më i rëndësishëm nga i cili udhëhiqet serveri i kërkimit gjatë renditjes së rezultateve të një pyetjeje është treguesi TCI () tashmë i njohur për ne.

Të gjithë komponentët e përshkruar të PS janë të shtrenjta dhe me shumë burime intensive. Performanca e një motori kërkimi varet drejtpërdrejt nga efektiviteti i ndërveprimit të këtyre komponentëve.

Ju pëlqeu artikulli? Abonohuni në lajmet e blogut ose shpërndani në rrjetet sociale, dhe unë do t'ju përgjigjem


6 komente në postimin "Motorët e kërkimit janë robotët dhe merimangat e tyre"

    Unë e kam kërkuar këtë informacion për një kohë të gjatë, faleminderit.

    Përgjigju

    Më vjen mirë që blogu juaj po zhvillohet vazhdimisht. Postime të tilla vetëm shtojnë popullaritetin.

    Përgjigju

    Kam kuptuar diçka. Pyetja është, a varet disi PR nga TIC?

    Përshëndetje shokë! Sot do të mësoni se si funksionojnë robotët e kërkimit Yandex dhe Google dhe çfarë funksioni kryejnë në promovimin e faqes në internet. Pra, le të shkojmë!

    Motorët e kërkimit e bëjnë këtë veprim për të gjetur dhjetë projekte WEB nga një milion sajte që kanë një përgjigje cilësore dhe përkatëse ndaj pyetjes së një përdoruesi. Pse vetëm dhjetë? Sepse përbëhet nga vetëm dhjetë pozicione.

    Kërkoni robotë për miq, webmaster dhe përdorues

    Pse është e rëndësishme të vizitoni faqen nga robotët e kërkimit tashmë është bërë e qartë dhe pse është për përdoruesit? Kjo është e drejtë, në mënyrë që përdoruesi të hapë vetëm ato faqe që i përgjigjen plotësisht kërkesës së tij.

    Roboti i kërkimit- një mjet shumë fleksibël, ai mund të gjejë një sajt, qoftë edhe një që sapo është krijuar, dhe pronari i kësaj faqeje nuk është përfshirë ende në . Prandaj, ky robot u quajt një merimangë, ai mund të zgjasë putrat e tij dhe të arrijë kudo në rrjetin virtual.

    A është e mundur të kontrolloni robotin e kërkimit për interesat tuaja

    Ka raste kur disa faqe nuk përfshihen në kërkim. Kjo është kryesisht për faktin se kjo faqe nuk është indeksuar ende nga një robot kërkimi. Sigurisht, herët a vonë roboti i kërkimit do ta vërejë këtë faqe. Por kërkon kohë, dhe ndonjëherë mjaft kohë. Por këtu mund ta ndihmoni robotin e kërkimit ta vizitojë këtë faqe më shpejt.

    Për ta bërë këtë, mund ta vendosni faqen tuaj në drejtori ose lista të veçanta, rrjete sociale. Në përgjithësi, në të gjitha faqet ku roboti i kërkimit thjesht jeton. Për shembull, në rrjetet sociale ka një përditësim çdo sekondë. Mundohuni të pretendoni faqen tuaj dhe roboti i kërkimit do të vijë në faqen tuaj shumë më shpejt.

    Nga kjo rrjedh një, por rregulli kryesor. Nëse dëshironi që robotët e motorëve të kërkimit të vizitojnë faqen tuaj, ata duhet të ushqehen rregullisht me përmbajtje të re. Në rast se ata vërejnë se përmbajtja po përditësohet, faqja po zhvillohet, ata do të vizitojnë projektin tuaj në internet shumë më shpesh.

    Çdo robot kërkimi mund të kujtojë se sa shpesh ndryshon përmbajtja juaj. Ai vlerëson jo vetëm cilësinë, por intervalet kohore. Dhe nëse materiali në sit përditësohet një herë në muaj, atëherë ai do të vijë në sit një herë në muaj.

    Kështu, nëse faqja përditësohet një herë në javë, atëherë roboti i kërkimit do të vijë një herë në javë. Nëse e përditësoni faqen çdo ditë, atëherë roboti i kërkimit do ta vizitojë faqen çdo ditë ose çdo ditë tjetër. Ka sajte që indeksohen brenda pak minutash pas përditësimit. Kjo është mediat sociale, grumbulluesit e lajmeve dhe faqet që postojnë disa artikuj në ditë.

    Si t'i jepni një detyrë një roboti dhe t'i ndaloni diçka atij?

    Që në fillim mësuam se motorët e kërkimit kanë disa robotë që kryejnë detyra të ndryshme. Dikush po kërkon fotografi, dikush për lidhje e kështu me radhë.

    Ju mund të kontrolloni çdo robot duke përdorur një skedar të veçantë robots.txt . Është nga ky skedar që roboti fillon të njihet me sitin. Në këtë skedar, mund të specifikoni nëse roboti mund të indeksojë sitin, nëse po, cilat seksione. Të gjitha këto udhëzime mund të krijohen për një ose të gjithë robotët.

    Trajnim për promovimin e faqes në internet

    Mësoni më shumë rreth ndërlikimeve të promovimit të faqes së internetit SEO në motorët e kërkimit Sistemet e Google dhe Yandex, unë flas në Skype tim. I solla të gjitha projektet e mia në WEB për të ndjekur më shumë dhe mora rezultate të shkëlqyera nga kjo. Unë mund t'ju mësoj, nëse jeni të interesuar!

    Miq, ju përshëndes përsëri! Tani do të analizojmë se çfarë janë robotët e kërkimit dhe do të flasim në detaje për robotin e kërkimit në google dhe si të jemi miq me ta.

    Së pari ju duhet të kuptoni se çfarë janë robotët e kërkimit në përgjithësi, ata quhen edhe merimangat. Çfarë pune bëjnë merimangat e motorëve të kërkimit?

    Këto janë programe që kontrollojnë faqet e internetit. Ata shikojnë të gjitha postimet dhe faqet në blogun tuaj, mbledhin informacion, të cilin më pas i transferojnë në bazën e të dhënave të motorit të kërkimit për të cilin punojnë.

    Nuk keni nevojë të dini të gjithë listën e robotëve të kërkimit, gjëja më e rëndësishme është të dini se Google tani ka dy merimangat kryesore, të cilat quhen "panda" dhe "pinguin". Ata po luftojnë me përmbajtje me cilësi të ulët dhe lidhje të padëshiruara, dhe ju duhet të dini se si t'i zmbrapsni sulmet e tyre.

    Roboti i kërkimit google panda u krijua për të promovuar vetëm materiale me cilësi të lartë në kërkim. Të gjitha faqet me përmbajtje me cilësi të ulët janë ulur në rezultatet e kërkimit.

    Herën e parë që kjo merimangë u shfaq në 2011. Para shfaqjes së tij, ishte e mundur të promovohej çdo faqe duke publikuar një sasi të madhe teksti në artikuj dhe duke përdorur një sasi të madhe të fjalë kyçe. Së bashku, këto dy teknika nuk sollën përmbajtje me cilësi të lartë në krye të rezultateve të kërkimit, por faqet e mira ranë në rezultatet e kërkimit.

    "Panda" i vendosi gjërat menjëherë në rregull duke kontrolluar të gjitha faqet dhe i vendosi të gjithë në vendet e tyre të duhura. Edhe pse ajo lufton me përmbajtje me cilësi të ulët, edhe faqet e vogla me artikuj cilësorë mund të promovohen tani. Edhe pse ishte e kotë promovimi i faqeve të tilla më parë, ato nuk mund të konkurronin me gjigantët që kanë një sasi të madhe të përmbajtjes.

    Tani do të kuptojmë se si të shmangim sanksionet "panda". Së pari duhet të kuptojmë se çfarë nuk i pëlqen asaj. Tashmë kam shkruar më lart se ajo po lufton me përmbajtje të keqe, por çfarë lloj teksti është i keq për të, le ta kuptojmë që të mos e publikojmë këtë në faqen e saj.

    Roboti i kërkimit google përpiqet të sigurojë që vetëm materialet me cilësi të lartë për aplikantët të lëshohen në këtë motor kërkimi. Nëse keni artikuj në të cilët ka pak informacion dhe nuk janë tërheqës në pamje, atëherë rishkruajini urgjentisht këto tekste në mënyrë që "panda" të mos ju arrijë.

    Përmbajtja cilësore mund të jetë edhe e madhe edhe e vogël, por nëse merimanga sheh një artikull të gjatë me shumë informacion, atëherë lexuesi do të përfitojë më shumë.

    Më pas duhet theksuar dyfishimi, me fjalë të tjera plagjiaturë. Nëse mendoni se do të rishkruani artikujt e të tjerëve për blogun tuaj, mund t'i jepni fund menjëherë faqes tuaj. Kopjimi dënohet rëndë duke aplikuar një filtër, dhe kontrollohet plagjiatura shumë e lehtë, kam shkruar një artikull mbi këtë temë si të kontrolloni tekstet për unike.

    Gjëja tjetër që duhet vënë re është mbingopja e tekstit me fjalë kyçe. Kushdo që mendon se do të shkruajë një artikull nga të njëjtat fjalë kyçe dhe do të zërë vendin e parë në rezultatet e kërkimit, gabohet shumë. Unë kam një artikull se si të kontrolloni faqet për rëndësinë, sigurohuni që ta lexoni.

    Dhe çfarë tjetër mund të tërheqë një "panda" tek ju janë artikujt e vjetër që janë moralisht të vjetëruar dhe nuk sjellin trafik në sit. Ato duhet të përditësohen.

    Ekziston edhe një robot i kërkimit në Google "pinguin". Kjo merimangë lufton lidhjet e padëshiruara dhe të padëshiruara në faqen tuaj. Ai gjithashtu llogarit lidhjet e blera nga burime të tjera. Prandaj, për të mos pasur frikë nga ky robot kërkimi, nuk duhet të blini lidhje, por të publikoni përmbajtje me cilësi të lartë në mënyrë që njerëzit të lidhen me ju vetë.

    Tani le të formulojmë se çfarë duhet bërë për ta bërë sitin të duket i përsosur përmes syve të një roboti kërkimi:

    • Për të krijuar përmbajtje cilësore, së pari studioni mirë temën përpara se të shkruani një artikull. Atëherë duhet të kuptoni se njerëzit janë vërtet të interesuar për këtë temë.
    • Përdorni shembuj konkretë dhe fotografitë, kjo do ta bëjë artikullin të gjallë dhe interesant. Ndani tekstin në paragrafë të vegjël për ta bërë të lehtë leximin. Për shembull, nëse hapni një faqe me shaka në një gazetë, cilat do të lexoni së pari? Natyrisht, çdo person fillimisht lexon tekste të shkurtra, më pas ato më të gjata dhe, e fundit, por jo më pak e rëndësishme, mbulesa të gjata të këmbëve.
    • Pika e preferuar e Pandas nuk është rëndësia e një artikulli që përmban informacione të vjetruara. Qëndroni të sintonizuar për përditësime dhe ndryshoni tekstet.
    • Shikoni densitetin e fjalëve kyçe, kam shkruar më lart se si të përcaktoni këtë densitet, në shërbimin për të cilin fola do të merrni numrin e saktë të çelësave të kërkuar.
    • Mos bëni plagjiaturë, të gjithë e dinë që nuk mund t'i vidhni gjërat ose mesazhet e njerëzve të tjerë - është e njëjta gjë. Ju do të jeni përgjegjës për vjedhjen duke u futur nën filtër.
    • Shkruani tekste për të paktën dy mijë fjalë, atëherë një artikull i tillë do të duket informues me sytë e robotëve të motorëve të kërkimit.
    • Mos dilni jashtë temës në blogun tuaj. Nëse po drejtoni një blog për të fituar para në internet, atëherë nuk keni nevojë të printoni artikuj rreth armëve ajrore. Kjo mund të ulë vlerësimin e burimit tuaj.
    • Dizajnoni bukur artikuj, ndani ato në paragrafë dhe shtoni fotografi për ta bërë të këndshme për t'u lexuar dhe për të mos dashur të largoheni shpejt nga faqja.
    • Kur blini lidhje, kthejini ato në artikujt më interesantë dhe më të dobishëm që njerëzit do të lexojnë në të vërtetë.

    Epo, tani e dini se çfarë lloj pune bëjnë robotët e motorëve të kërkimit dhe mund të jeni miq me ta. Dhe më e rëndësishmja, roboti i kërkimit në google dhe "panda" dhe "pinguin" janë studiuar në detaje nga ju.

    1.1.1. Komponentët e motorit të kërkimit

    Informacioni në ueb jo vetëm që plotësohet, por gjithashtu ndryshon vazhdimisht, por askush nuk i tregon askujt për këto ndryshime. mungon një sistem duke futur informacione që janë njëkohësisht të disponueshme për të gjithë përdoruesit e internetit. Prandaj, për të strukturuar informacionin, për t'u ofruar përdoruesve mjete të përshtatshme për të kërkuar të dhëna, u krijuan motorët e kërkimit.

    Motorë kërkimi atje jane tipe te ndryshme. Disa prej tyre kërkojnë informacion bazuar në atë që njerëzit vënë në to. Këto mund të jenë drejtori ku redaktorët vendosin informacione rreth sajteve, përshkrimet e shkurtra ose rishikimet e tyre. Ata janë kërkuar midis këtyre përshkrimeve.

    Këto të fundit mbledhin informacion në ueb duke përdorur programe të veçanta. Këto janë motorë kërkimi, të përbërë, si rregull, nga tre komponentë kryesorë:

    Indeksi;

    motor kërkimi.

    Agjent, ose më shpesh - një merimangë, një robot (në literaturën angleze - merimangë, zvarritës), në kërkim të informacionit anashkalon rrjetin ose një pjesë të caktuar të tij. Ky robot mban një listë adresash (URL) që mund të vizitojë dhe indeksojë, me një specifikë motor kërkimi shkarkon periodikisht dokumentet që korrespondojnë me lidhjet dhe i analizon ato. Përmbajtja që rezulton e faqeve ruhet nga roboti në një formë më kompakte dhe transferohet në Indeks. Nëse gjatë analizës së faqes (dokumentit) gjendet një lidhje e re, roboti do ta shtojë atë në listën e tij. Prandaj, çdo dokument ose faqe që ka lidhje mund të gjendet nga roboti. Dhe anasjelltas, nëse faqja ose ndonjë pjesë e saj nuk ka asnjë Linqe te jashtme, roboti mund të mos e gjejë atë.

    Një robot nuk është vetëm një mbledhës informacioni. Ai ka një "inteligjencë" mjaft të zhvilluar. Robotët mund të kërkojnë për faqet e një subjekti të caktuar, të gjenerojnë lista faqesh të renditura sipas trafikut, të nxjerrin dhe përpunojnë informacione nga bazat e të dhënave ekzistuese dhe mund të ndjekin lidhje me thellësi të ndryshme foleje. Por në çdo rast, ata i kalojnë të gjitha informacionet e gjetura në bazën e të dhënave (Index) të motorit të kërkimit.

    Robotët e kërkimit janë lloje të ndryshme:

    ? Merimanga(spider) është një program që shkarkon faqet e internetit në të njëjtën mënyrë si shfletuesi i përdoruesit. Dallimi është se shfletuesi shfaq informacionin që përmban faqe (tekst, grafikë etj.), ndërsa merimanga nuk ka asnjë komponent vizual dhe punon drejtpërdrejt me tekstin HTML të faqes (ngjashëm me atë që do të shihni nëse aktivizoni kodin HTML të pamjes në shfletuesin tuaj).

    ? Zvarritës(zvarritës, merimangë "udhëtuese") - thekson të gjitha lidhjet e pranishme në faqe. Detyra e saj është të përcaktojë se ku duhet të shkojë merimanga më pas, bazuar në lidhje ose bazuar në një listë të paracaktuar adresash. Zvarritësi, duke ndjekur lidhjet e gjetura, kërkon dokumente të reja që janë ende të panjohura për motorin e kërkimit.

    ? Indeksues analizon faqen në pjesët përbërëse të saj dhe i analizon ato. Përzgjidhen dhe analizohen elementë të ndryshëm të faqeve, të tilla si teksti, titujt, veçoritë strukturore dhe të stilit, etiketat HTML të shërbimit të veçantë, etj.

    Indeksi- kjo është pjesa e motorit të kërkimit në të cilën kërkohet informacioni. Indeksi përmban të gjitha të dhënat që i janë transmetuar nga robotët, kështu që madhësia e indeksit mund të arrijë qindra gigabajt. Në fakt, indeksi përmban kopje të të gjitha faqeve të vizituara nga robotët. Nëse roboti zbulon një ndryshim në një faqe që e ka indeksuar tashmë, ai dërgon informacion të përditësuar në Indeks. Duhet të zëvendësojë atë ekzistuesen, por në disa raste jo vetëm që shfaqet një faqe e re në Indeks, por mbetet edhe faqja e vjetër.

    motor kërkimiështë vetë ndërfaqja me të cilën vizitori ndërvepron me Indeksin. Nëpërmjet ndërfaqes, përdoruesit futin kërkesat e tyre dhe marrin përgjigje, dhe pronarët e faqeve i regjistrojnë ato (dhe ky regjistrim është një mënyrë tjetër për të përcjellë adresën e faqes tuaj te roboti). Kur përpunon një pyetje, motori i kërkimit zgjedh faqet dhe dokumentet përkatëse nga shumë miliona burime të indeksuara dhe i rendit ato sipas rëndësisë ose rëndësisë për pyetjen.



Po ngarkohet...
Top