Хайлтын систем, хайлтын систем, аалз роботууд. Хайлтын системийн ирээдүй

Хайлтын системийн роботууд хэрхэн ажилладаг

Хайлтын робот (аалз, робот) нь a жижиг програм, операторын оролцоогүйгээр сая сая вэбсайтад зочилж, гигабайт текстийг сканнердах чадвартай. Хуудсуудыг уншиж, текстийн хуулбарыг хадгалах нь шинэ баримт бичгийг индексжүүлэх эхний шат юм. Хайлтын системийн роботууд хүлээн авсан өгөгдөлд ямар ч боловсруулалт хийдэггүй гэдгийг тэмдэглэх нь зүйтэй. Тэдний даалгавар бол зөвхөн текст мэдээллийг хадгалах явдал юм.

Манай суваг дээрх бусад видеонууд - SEMANTICA-тай интернет маркетинг сур

Хайлтын роботуудын жагсаалт

Runet-ийг сканнердах бүх хайлтын системүүдээс Yandex хамгийн том робот цуглуулгатай. Дараах роботууд индексжүүлэх үүрэгтэй.

  • вэб хуудаснаас мэдээлэл цуглуулдаг үндсэн индексжүүлэгч робот;
  • толин тусгалыг таних чадвартай робот;
  • Yandex хайлтын робот нь зургийг индексжүүлдэг;
  • YAN-д хүлээн зөвшөөрөгдсөн сайтуудын хуудсыг үзэж буй аалз;
  • робот сканнердах фавикон дүрс;
  • сайтын хуудсуудын бэлэн байдлыг тодорхойлдог хэд хэдэн аалз.

Google-ийн гол хайлтын робот нь текстэн мэдээллийг цуглуулдаг. Үндсэндээ энэ нь html файлуудыг үзэж, JS болон CSS-д тодорхой давтамжтайгаар дүн шинжилгээ хийдэг. Индексжүүлэхийг зөвшөөрсөн аливаа агуулгын төрлийг хүлээн авах боломжтой. PS Google нь зургийн индексжүүлэлтийг хянадаг аалзтай. Хайлтын робот бас байдаг - ажиллагааг дэмждэг програм гар утасны хувилбархайх.

Сайтыг хайлтын роботын нүдээр хараарай

Кодын алдаа болон бусад дутагдлыг засахын тулд вэбмастер хайлтын робот сайтыг хэрхэн харж байгааг олж мэдэх боломжтой. Энэ сонголтыг Google PS хангасан. Та вэбмастерын хэрэгслүүд рүү очоод "скан хийх" таб дээр дарах хэрэгтэй. Нээгдсэн цонхноос "Googlebot шиг үзэх" мөрийг сонгоно уу. Дараа нь та судалж буй хуудасны хаягийг хайлтын маягтанд оруулах хэрэгтэй (домэйн болон http: // протоколыг заахгүйгээр).

"Авах ба харуулах" командыг сонгосноор вэбмастер сайтын хуудасны төлөв байдлыг нүдээр үнэлэх боломжтой болно. Үүнийг хийхийн тулд та "харуулах хүсэлт" дээр дарах хэрэгтэй. Вэб баримт бичгийн хоёр хувилбар бүхий цонх нээгдэнэ. Вэбмастер нь байнгын зочин хуудсыг хэрхэн хардаг, хайлтын аалз ямар хэлбэрээр байдаг талаар суралцдаг.

Зөвлөмж!Шинжилж буй вэб баримт бичгийг хараахан индексжүүлээгүй байгаа бол та "индекс рүү нэмэх" >> "зөвхөн энэ URL-г мөлхөх" командыг ашиглаж болно. Аалз хэдхэн минутын дотор баримт бичигт дүн шинжилгээ хийх бөгөөд ойрын ирээдүйд вэб хуудас хайлтын үр дүнд гарч ирнэ. Сар бүр индексжүүлэх хүсэлтийн хязгаар нь 500 баримт бичиг юм.

Индексжүүлэх хурдад хэрхэн нөлөөлөх вэ

Хайлтын роботууд хэрхэн ажилладагийг олж мэдсэнээр вэбмастер өөрийн сайтыг илүү үр дүнтэй сурталчлах боломжтой болно. Олон залуу вэб төслүүдийн гол бэрхшээлүүдийн нэг бол индексжүүлэлт муутай байдаг. Хайлтын системийн роботууд эрх мэдэлгүй интернетийн эх сурвалжид зочлох дургүй байдаг.
Индексжүүлэх хурд нь сайтын шинэчлэлтийн эрчмээс шууд хамаардаг болохыг тогтоосон. Өвөрмөц текстийн материалыг тогтмол нэмж оруулах нь хайлтын системийн анхаарлыг татах болно.

Индексжүүлэлтийг хурдасгахын тулд та нийгмийн хавчуурга болон twitter үйлчилгээг ашиглаж болно. Сайтын газрын зураг үүсгэж, вэб төслийн үндсэн лавлах руу байршуулахыг зөвлөж байна.

Серверийн бүртгэлийг үзэхэд заримдаа хайлтын роботуудаас сайтуудыг хэт их сонирхож байгааг ажиглаж болно. Хэрэв роботууд ашигтай бол (жишээлбэл, PS-ийн индексжүүлэгч ботууд) сервер дээрх ачаалал нэмэгдэж байсан ч үүнийг ажиглахад л үлддэг. Гэхдээ сайт руу нэвтрэх шаардлагагүй олон тооны хоёрдогч роботууд байсаар байна. Эрхэм уншигч танд болон өөртөө зориулж мэдээлэл цуглуулж, тохиромжтой таблет болгон хөрвүүлэв.

Хайлтын робот гэж хэн бэ

хайлтын робот, эсвэл тэдгээрийг бас нэрлэдэг робот, мөлхөгч, аалз - өөр юу ч биш хуудсууд дээрх холбоосууд дээр дарж сайтуудын агуулгыг хайж, сканнердах програм.Хайлтын роботууд нь зөвхөн хайлтын системд зориулагдсан биш юм. Жишээлбэл, Ahrefs үйлчилгээ нь буцах холбоос дээрх өгөгдлийг сайжруулахын тулд аалз ашигладаг бол Facebook нь гарчиг, зураг, тайлбар бүхий холбоосын хуулбарыг харуулахын тулд хуудасны кодыг вэбээр хусдаг. Вэб хусах нь янз бүрийн эх сурвалжаас мэдээлэл цуглуулах явдал юм.

robots.txt дээр аалзны нэрийг ашиглах

Таны харж байгаагаар контент хайхтай холбоотой аливаа ноцтой төсөл нь аалзтай байдаг. Заримдаа энэ нь зарим аалзны сайт руу нэвтрэхийг хязгаарлах нь яаралтай ажил юм тусдаа хэсгүүд. Үүнийг сайтын үндсэн директор доторх robots.txt файлаар дамжуулан хийж болно. Би өмнө нь роботуудыг тохируулах талаар илүү ихийг бичсэн тул үүнийг уншихыг зөвлөж байна.

Robots.txt файл болон түүний удирдамжийг хайлтын роботууд үл тоомсорлож болохыг анхаарна уу. Удирдамж нь зөвхөн роботуудад зориулсан удирдамж юм.

Зааврыг тохируулах хайлтын роботТа энэ роботын хэрэглэгчийн төлөөлөгчд хандсан хэсгийг ашиглаж болно. Өөр өөр аалзны хэсгүүдийг нэг хоосон мөрөөр тусгаарласан.

Хэрэглэгчийн агент: Googlebot Зөвшөөрөх: /

Хэрэглэгчийн агент: Googlebot

зөвшөөрөх: /

Дээрх нь Google-ийн үндсэн мөлхөгч рүү залгах жишээ юм.

Эхэндээ би хайлтын роботууд серверийн бүртгэлд өөрсдийгөө хэрхэн таниулдаг тухай хүснэгтэд оруулгууд нэмэхээр төлөвлөж байсан. Гэхдээ энэ өгөгдөл нь SEO-ийн хувьд тийм ч чухал биш бөгөөд агент жетон бүрт хэд хэдэн төрлийн бүртгэл байж болох тул зөвхөн роботуудын нэр, тэдгээрийн зорилгыг агуулсан байхаар шийдсэн.

Хайлтын роботууд Г о о г л э

хэрэглэгчийн агент Функцүүд
Googlebot Компьютер болон ухаалаг гар утсан дээр оновчтой хуудасны үндсэн мөлхөгч индексжүүлэгч
Mediapartners-Google AdSense зар сурталчилгааны сүлжээний робот
APIs-Google APIs-Google хэрэглэгчийн агент
AdsBot-Google Компьютерт зориулсан вэб хуудсан дээрх зар сурталчилгааны чанарыг шалгана
AdsBot-Google-Mobile Хөдөлгөөнт төхөөрөмжид зориулагдсан вэб хуудсан дээрх зар сурталчилгааны чанарыг шалгана
Googlebot Зураг (Googlebot) Сайтын хуудсан дээрх зургуудыг индексжүүлдэг
Googlebot Мэдээ (Googlebot) Google News-д нэмэх хуудас хайж байна
Googlebot Видео (Googlebot) Видео контентыг индексжүүлдэг
AdsBot-Google-Mobile-Apps Програмын зарын чанарыг шалгана Android төхөөрөмжүүд, ердийн AdsBot-той ижил зарчмаар ажилладаг

Хайлтын роботуудыг I индексжүүлнэ

хэрэглэгчийн агент Функцүүд
Yandex Энэ агент жетоныг robots.txt-д зааж өгөх үед хүсэлт нь бүх Yandex роботууд руу очдог
YandexBot Үндсэн индексжүүлэх робот
YandexDirect YAN түнш сайтуудын агуулгын талаарх мэдээллийг татаж авдаг
Yandex зураг Сайтын зургийг индексжүүлдэг
YandexMetrika Yandex.Metrica робот
YandexMobileBot Хөдөлгөөнт төхөөрөмжийн зохион байгуулалт байгаа эсэхийг шинжлэхийн тулд баримт бичгүүдийг татаж авдаг
YandexMedia Мультимедиа өгөгдлийг индексжүүлэх робот
YandexNews Yandex.News индексжүүлэгч
Yandex хуудас шалгагч Бичил өгөгдөл баталгаажуулагч
YandexMarket Yandex.Market робот;
YandexCalenda Робот Yandex.Calendar
YandexDirectDyn Динамик баннер үүсгэдэг (Шууд)
YaDirectFetcher Зар сурталчилгаа бүхий хуудсуудыг татаж авах боломжтой эсэхийг шалгах, сэдвийг тодруулах (YAN)
Yandex AccessibilityBot Хэрэглэгчид ашиглах боломжтой эсэхийг шалгахын тулд хуудсуудыг татаж авдаг
YandexScreenshotBot Хуудасны агшин зуурын зургийг (дэлгэцийн агшин) авна
YandexVideoParser Yandex.Video үйлчилгээний аалз
Yandex хайлтын дэлгүүр Бүтээгдэхүүний каталогийн YML файлуудыг татаж авдаг
YandexOntoDBAPI Объект хариу үйлдэл үзүүлэх робот динамик өгөгдөл татаж байна

Бусад алдартай хайлтын роботууд

хэрэглэгчийн агент Функцүүд
Байдуспидер Хятадын хайлтын систем Baidu аалз
cliqzbot Cliqz нэргүй хайлтын системийн робот
AhrefsBot Ahrefs хайлтын робот (холбоосын шинжилгээ)
Женио Genieo үйлчилгээний робот
бингбот Bing хайлтын системийн мөлхөгч
Сүрп Yahoo хайлтын системийн мөлхөгч
DuckDuckBot Вэб мөлхөгч PS DuckDuckGo
facebot Вэб мөлхөхөд зориулсан Facebook робот
WebAlta (WebAlta Crawler/2.0) PS WebAlta мөлхөгч хайх
BomboraBot Bombora төсөлд хамрагдсан хуудсыг сканнердах
CCBot Apache Hadoop төслийг ашигладаг Nutch-д суурилсан мөлхөгч
MSNBot Bot PS MSN
Mail.Ru Mail.Ru хайлтын системийн мөлхөгч
ia_архивлагч Alexa үйлчилгээний өгөгдлийг хусах
Теома Үйлчилгээний роботоос асуу

Маш олон хайлтын роботууд байдаг, би зөвхөн хамгийн алдартай, сайн мэддэгийг нь сонгосон. Сайтыг түрэмгий, байнгын мөлхөж байсны улмаас танд тааралдсан роботууд байгаа бол үүнийг сэтгэгдэл дээр бичээрэй, би тэдгээрийг хүснэгтэд нэмэх болно.

Дээд боловсролтой - массажистын сургалт.

Интернетэд нэг зуун сая гаруй эх сурвалж байдаг бөгөөд сая сая хүссэн хуудаснуудбидэнд хэзээ ч мэдэгдэхгүй. Энэ далайд бидэнд хэрэгтэй дуслыг яаж олох вэ? Эндээс л бидний тусламж ирдэг. хайхөө машин. Энэ аалз, зөвхөн тэр вэбийн хаана, юу байгааг мэддэг.

Хайхшинэ машинууд ИнтернетАа, эдгээр нь таныг олоход тань туслах зорилготой сайтууд юм шаардлагатай мэдээлэлВ дэлхийн сүлжээдэлхийн өргөн сүлжээ. Гурван үндсэн функц байдаг бөгөөд бүгдэд нь адилхан хайхшинэ машинууд:

- хайхөгөгдсөн түлхүүр үгс дээр oviks интернетээс "хайх";
- индексжүүлсэн хаягууд хайховиками үгсийн хамт;
- индексжүүлсэн вэб хуудсууд нь суурийг бүрдүүлдэг хайх oviki хэрэглэгчдэд олгодог хайхА түлхүүр үгсэсвэл тэдгээрийн хослолууд.

Эхлээд хайхХовики өдөрт 2000 хүртэлх хүсэлт хүлээн авч, хэдэн зуун мянган хуудсыг индексжүүлсэн. Өнөөдөр хүсэлтийн тоо өдөрт хэдэн зуун сая хуудас, хэдэн арван сая болж байна.

Пхүртэлх хайлтын системүүд дэлхийн өргөн сүлжээ.

Эхлээд хайховиками Интернетмөн "гофер", "Арчи" хөтөлбөрүүд байсан. Тэд холбогдсон дээр байрлах файлуудыг индексжүүлсэн Интернетсерверүүд, цагийг дахин дахин багасгадаг хайхшаардлагатай бичиг баримт. 1980-аад оны сүүлээр ажиллах чадвар ИнтернетАрчи, гофер, Вероника гэх мэтийг ашиглах чадвараас буугаагүй хайхшинэ хөтөлбөрүүд.

Өнөөдөр Вэбхамгийн их хүссэн хэсэг болсон Интернетболон олонхи Интернетхэрэглэгчид гүйцэтгэдэг хайхзөвхөн дотор дэлхийн өргөн сүлжээ (www).

Робот- аалз

ашигласан робот програм хайхшинэ машин, үүнийг бас нэрлэдэг "аалз", аалз(аалз), wed-resource хуудаснаас олдсон үгсийн жагсаалтыг үүсгэх процессыг гүйцэтгэдэг. Процесс гэж нэрлэдэг Вэб мөлхөж байна(мөлхөж). Хайхшинэ аалзбусад олон хуудсуудыг үзэж, хэрэгтэй үгсийн жагсаалтыг гаргаж, засдаг, i.e. ямар нэг утгатай, жин.

Аялал хайхта сүлжээнд байна аалз (аалз) нь хамгийн том сервер, хамгийн алдартай вэб хуудсуудаас эхэлдэг. Ийм сайтыг тойрч, олсон бүх үгсийг индексжүүлсний дараа олсон холбоосыг ашиглан бусад сайтуудыг мөлхөж байна. Ийм байдлаар робот аалзвэб орон зайг бүхэлд нь эзэлдэг.

Google-ийн үүсгэн байгуулагч Сергей Брин, Лоренс Пэйж нар Google-ийн ажлын жишээг өгч байна аалзов. Хэд хэдэн байдаг. Хайхгурваас эхэлнэ аалзби юу. Нэг аалзнэгэн зэрэг 300 хүртэлх хуудасны холболтыг дэмждэг. Оргил ачаалал, дөрөв аалзсекундэд зуу хүртэл хуудас боловсруулах чадвартай бөгөөд 600 орчим килобайт/сек траффик үүсгэх боломжтой. Асаалттай Энэ мөч, та үүнийг уншихад тоонууд нь танд инээдтэй санагдаж магадгүй юм.

Хайлтын системийн роботын түлхүүр үгс

Ихэвчлэн вэб нөөцийн эзэмшигч нь хамрагдахыг хүсдэг хайхшаардлагатай шинэ үр дүн хайхөө үгс. Эдгээр үгсийг нэрлэдэг түлхүүрс. КлючевҮг нь вэб хуудасны агуулгын мөн чанарыг тодорхойлдог. Мета шошго нь үүнд тусална. Дараа нь тэд хайлтын роботыг сонгох боломжийг санал болгодог түлхүүрХуудсыг индексжүүлэхэд ашигладаг үгс. Гэхдээ бид хуудасны агуулгатай холбоогүй түгээмэл асуулгад мета шошго нэмэхийг зөвлөдөггүй. Хайлтын системийн роботууд энэ үзэгдэлтэй тэмцэж байгаа бөгөөд хэрэв энэ нь зүгээр л мета шошгыг орхигдуулсан бол та азтай байх болно. түлхүүрөөрөөр хэлбэл, хуудасны агуулгад тохирохгүй байна.

Мета шошго нь маш хэрэгтэй хэрэгсэл юм түлхүүрТэдний эхний үгс нь хуудасны текстэд хэд хэдэн удаа давтагдсан байдаг. Гэхдээ үүнийг бүү хэтрүүлээрэй, робот хуудасны үүдэнд орох магадлал өндөр байна.

Хайлтын системийг индексжүүлэх алгоритмууд

Алгоритмууд хайхХовикс эцсийн үр дүнгийн үр дүнтэй байдалд анхаарлаа төвлөрүүлдэг боловч хүн бүр үүнд өөр өөр хандлагатай байдаг. Ликос хайхШинэ роботууд гарчиг (гарчиг), холбоос (холбоос) дахь үгсийг индексжүүлж, хуудас дээрх байнга хэрэглэгддэг зуу хүртэлх үг, хуудасны агуулгын эхний 20 мөр дэх үг бүрийг индексжүүлдэг.

Googlebot нь хуудас дээрх үгийн байршлыг харгалзан үздэг (биеийн элементэд). зэрэг үйлчилгээний хэсгүүдийн үгс хадмал орчуулга, гарчиг, мета шошгоболон бусад нь "a", "an" болон "the." гэсэн үг хэллэгийг оруулахгүйгээр онцгой чухал гэж тэмдэглэдэг.

Бусад хайх oviki нь ашигласан үгсийг индексжүүлэхэд арай өөр арга замтай байж болно хайххэрэглэгчдийн шинэ хүсэлт.

Хайлтын системийн роботууд, заримдаа аалз эсвэл мөлхөгч гэж нэрлэдэг програм хангамжийн модулиудвэб хуудсуудыг хайж байна. Тэд хэрхэн ажилладаг вэ? Тэд үнэхээр юу хийж байгаа юм бэ? Тэд яагаад чухал вэ?

Хайлтын системийн оновчлол, хайлтын системийн индексийн мэдээллийн баазтай холбоотой бүх шуугиан дэгдээж байгаа тул та роботууд агуу, хүчирхэг амьтан байх ёстой гэж бодож байж магадгүй юм. Худлаа. Хайлтын системийн роботууд нь тухайн сайтаас ямар мэдээллийг таньж чадах вэ гэдгээрээ эртний хөтчүүдийнхтэй төстэй үндсэн шинж чанартай байдаг. Эртний хөтчүүдийн нэгэн адил роботууд тодорхой зүйлийг хийж чадахгүй. Роботууд фрейм, Flash хөдөлгөөнт дүрс, зураг, JavaScript-г ойлгодоггүй. Тэд нууц үгээр хамгаалагдсан хэсгүүдэд нэвтэрч чадахгүй бөгөөд сайт дээрх бүх товчлуур дээр дарж чадахгүй. Тэд динамик URL-уудыг индексжүүлэх явцад гацаж, JavaScript навигаци дээр зогсох хүртэл маш удаан байж болно.

Хайлтын системийн роботууд хэрхэн ажилладаг вэ?

Вэб мөлхөгчдийг мэдээлэл хайх, мэдээллийн холбоосыг хайж интернетээр аялдаг автоматжуулсан өгөгдөл олборлох программ гэж үзэх нь зүйтэй.

"URL илгээх" хуудсанд зочилсны дараа хайлтын системд өөр вэб хуудас бүртгүүлэх үед робот сайтуудыг үзэх дараалалд шинэ URL-г нэмдэг. Хуудсыг бүртгүүлээгүй байсан ч таны сайт руу холбогдох бусад сайтын линкүүд байдаг тул маш олон роботууд таны сайтыг олох болно. Энэ нь холбоосын алдар нэрийг бий болгох, бусад сэдэвчилсэн эх сурвалжууд дээр холбоосыг байрлуулах нь чухал шалтгаануудын нэг юм.

Танай сайтад ирэхэд роботууд эхлээд robots.txt файл байгаа эсэхийг шалгадаг. Энэ файл нь таны сайтын аль хэсгийг индексжүүлэхгүй байхыг роботуудад хэлж өгдөг. Ихэвчлэн эдгээр нь роботын сонирхдоггүй эсвэл мэдэхгүй байх ёстой файлуудыг агуулсан сангууд байж болно.

Роботууд зочилсон хуудас бүрийнхээ холбоосыг хадгалж, цуглуулж, дараа нь тэдгээр холбоосыг бусад хуудас руу дагадаг. Дэлхий даяарх вэб бүхэлдээ холбоосоор бүтээгдсэн. Интернэт сүлжээг бий болгох анхны санаа нь нэг газраас нөгөө рүү холбоосыг дагах боломжтой байсан юм. Роботууд ингэж хөдөлдөг.

Хуудсуудыг бодит цаг хугацаанд индексжүүлэх чадвар нь хайлтын системийн роботуудын хүлээн авсан мэдээллийг үнэлэх аргыг зохион бүтээсэн хайлтын системийн инженерүүдээс хамаардаг. Хайлтын системийн мэдээллийн санд суулгасны дараа мэдээлэл хайлт хийдэг хэрэглэгчдэд нээлттэй болно. Хайлтын системийн хэрэглэгч хайлтын нэр томъёог оруулахад хамгийн их хамааралтай хариултын зөв багц сайтыг буцааж өгөхийн тулд хэд хэдэн хурдан тооцоолол хийдэг.

Та өөрийн сайтын аль хуудсууд дээр хайлтын робот аль хэдийн зочилсон, серверийн бүртгэлийн файлууд эсвэл бүртгэлийн файлын статистик боловсруулалтын үр дүнг харах боломжтой. Роботуудыг таньж мэдсэнээр тэд танай сайтад хэзээ, аль хуудсууд, хэр олон удаа зочилсныг харах боломжтой. Зарим роботыг Googles Googlebot гэх мэт нэрээр нь амархан таних боломжтой. Бусад нь Inktomis Slurp шиг илүү далд байдаг. Бусад роботуудыг мөн бүртгэлээс олж болох бөгөөд та тэдгээрийг шууд таних боломжгүй байх магадлалтай; Тэдний зарим нь хүний ​​удирддаг хөтөч байж болно.

Өвөрмөц мөлхөгчдийг тодорхойлох, тэдний зочилсон тоог тоолохоос гадна статистик нь танд түрэмгий, зурвасын өргөнийг иддэг мөлхөгч эсвэл таны сайтад зочлохыг хүсэхгүй байгаа мөлхөгчдийг харуулж чадна.

Тэд танай вэбсайтын хуудсыг хэрхэн уншдаг вэ?

Мөлхөгч хуудсанд зочлохдоо түүний харагдах текст, төрөл бүрийн шошгоны агуулгыг сканнердаж байна эх кодтаны хуудас (гарчгийн шошго, мета шошго гэх мэт), түүнчлэн хуудасны холбоосууд. Холбоосуудын үгсээс харахад хайлтын систем нь тухайн хуудасны тухай шийддэг. "Үүрэг гүйцэтгэх" хуудасны гол цэгүүдийг тооцоолоход ашигладаг олон хүчин зүйл байдаг. Хайлтын систем бүр мэдээллийг үнэлэх, боловсруулах өөрийн гэсэн алгоритмтай байдаг. Робот хэрхэн тохируулагдсанаас хамааран мэдээллийг индексжүүлж, дараа нь хайлтын системийн мэдээллийн санд хүргэдэг.

Үүний дараа хайлтын системийн индексийн мэдээллийн санд хүргэгдсэн мэдээлэл нь хайлтын систем болон мэдээллийн санг эрэмблэх үйл явцын нэг хэсэг болно. Зочин хүсэлт гаргах үед хайлтын систем нь бүх мэдээллийн баазыг дамжуулж, холбогдох эцсийн жагсаалтыг буцаана хайлтын асуулга.

Хайлтын системийн мэдээллийн санг сайтар боловсруулж, тохируулдаг. Хэрэв та өгөгдлийн санд байгаа бол роботууд танд үе үе зочилж, хуудсуудын өөрчлөлтийг цуглуулж, хамгийн сүүлийн үеийн мэдээлэлтэй эсэхийг шалгах болно. Зочлох тоо нь хайлтын системийн тохиргооноос хамаардаг бөгөөд энэ нь түүний төрөл, зорилгоос хамааран өөр өөр байж болно.

Заримдаа хайлтын роботууд вэбсайтыг индексжүүлэх боломжгүй байдаг. Хэрэв таны сайт гацсан эсвэл олон тооны зочин зочилж байгаа бол робот үүнийг индексжүүлэх гэж оролдох боломжгүй байж магадгүй юм. Энэ тохиолдолд робот хэр олон удаа зочилж байгаагаас хамааран сайтыг дахин индексжүүлэх боломжгүй. Ихэнх тохиолдолд таны хуудсанд хүрч чадаагүй роботууд таны сайтыг удахгүй ашиглах боломжтой гэж найдаж дараа оролдох болно.

Бүртгэлүүдийг үзэх үед олон мөлхөгчийг тодорхойлох боломжгүй. Тэд тантай зочилж байж магадгүй ч бүртгэлд хэн нэгэн Microsoft хөтөч ашиглаж байна гэх мэтээр бичсэн байна. Зарим роботууд хайлтын системийн нэр (googlebot) эсвэл түүний клон (Scooter = AltaVista) ашиглан өөрсдийгөө тодорхойлдог.

Робот хэрхэн тохируулагдсанаас хамааран мэдээллийг индексжүүлж, дараа нь хайлтын системийн мэдээллийн санд хүргэдэг.

Хайлтын системийн мэдээллийн сан нь янз бүрийн үед өөрчлөгддөг. Хоёрдогч хайлтын илэрцтэй лавлахууд хүртэл роботын өгөгдлийг вэбсайтынхаа агуулга болгон ашигладаг.

Үнэн хэрэгтээ роботуудыг хайлтын системүүд зөвхөн дээрх зүйлд ашигладаггүй. Мэдээллийн сангаас шинэ контент байгаа эсэхийг шалгах, хуучин мэдээллийн санд зочлох, линк өөрчлөгдсөн эсэхийг шалгах, сайтуудыг бүхэлд нь татаж авах гэх мэт роботууд байдаг.

Энэ шалтгааны улмаас бүртгэлийн файлуудыг уншиж, хайлтын системийн үр дүнг хянах нь төслүүдийнхээ индексжүүлэлтийг хянахад тусална.

хайлтын робот дуудсан тусгай хөтөлбөрИнтернетээс олдсон сайтууд болон тэдгээрийн хуудсуудыг мэдээллийн санд оруулах (индексжүүлэх) зорилготой аливаа хайлтын систем. Мөн нэрсийг ашигладаг: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Үйл ажиллагааны зарчим

Хайлтын робот нь хөтөчийн төрлийн програм юм. Тэрээр сүлжээг байнга сканнердаж байна: тэр индексжүүлсэн (түүний аль хэдийн мэддэг) сайтуудаар зочилж, тэдгээрийн холбоосыг дагаж, шинэ эх сурвалжуудыг олдог. Шинэ эх сурвалж олдвол процедурын робот үүнийг хайлтын системийн индекст нэмдэг. Хайлтын робот нь сайтуудын шинэчлэлтүүдийг индексжүүлдэг бөгөөд давтамж нь тогтмол байдаг. Жишээлбэл, долоо хоногт нэг удаа шинэчлэгддэг сайтад аалз ийм давтамжтайгаар зочилдог бөгөөд мэдээллийн сайтуудын контент нийтлэгдсэнээс хэдхэн минутын дотор индексжүүлж болно. Хэрэв бусад эх сурвалжаас ямар ч холбоос сайт руу орохгүй бол хайлтын роботуудыг татахын тулд нөөцийг тусгай маягтаар (Google Webmaster Center, Yandex Webmaster Panel гэх мэт) нэмэх шаардлагатай.

Хайлтын роботуудын төрлүүд

Yandex аалз:

  • Yandex/1.01.001 I бол индексжүүлэх гол бот юм.
  • Yandex/1.01.001 (P) - зургуудыг индексжүүлдэг,
  • Yandex/1.01.001 (H) - сайтын толин тусгалыг олох,
  • Yandex/1.03.003 (D) - вэбмастер самбараас нэмсэн хуудас нь индексжүүлэх параметртэй тохирч байгаа эсэхийг тодорхойлох,
  • YaDirectBot/1.0 (I) - Yandex зар сурталчилгааны сүлжээний нөөцийг индексжүүлдэг.
  • Yandex/1.02.000 (F) - сайтын фавиконыг индексжүүлдэг.

Google аалз:

  • Googlebot бол гол робот,
  • Googlebot News - мэдээг мөлхөж, индексжүүлдэг,
  • Google Mobile - гар утасны төхөөрөмжүүдэд зориулсан вэбсайтуудыг индексжүүлдэг.
  • Googlebot Images - зураг хайх, индексжүүлэх,
  • Googlebot Video - видеог индексжүүлдэг,
  • Google AdsBot - буух хуудасны чанарыг шалгадаг,
  • Google Mobile AdSense болон Google AdSense - Google зар сурталчилгааны сүлжээний сайтуудыг индексжүүлдэг.

Бусад хайлтын системүүд нь жагсаасантай ижил төстэй хэд хэдэн төрлийн роботуудыг ашигладаг.



Ачааж байна...
Топ