Хайлтын системийн роботууд. Хайлтын системүүд нь тэдний робот, аалзнууд Хайлтын аалз

хайлтын робот Интернэтээс олдсон сайтууд болон тэдгээрийн хуудсуудыг мэдээллийн санд (индексжүүлэх) оруулах зориулалттай хайлтын системийн тусгай программ гэж нэрлэдэг. Мөн нэрсийг ашигладаг: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Үйл ажиллагааны зарчим

Хайлтын робот нь хөтөчийн төрлийн програм юм. Тэрээр сүлжээг байнга сканнердаж байна: тэр индексжүүлсэн (түүний аль хэдийн мэддэг) сайтуудаар зочилж, тэдгээрийн холбоосыг дагаж, шинэ эх сурвалжуудыг олдог. Шинэ эх сурвалж олдвол процедурын робот үүнийг хайлтын системийн индекст нэмдэг. Хайлтын робот нь сайтуудын шинэчлэлтүүдийг индексжүүлдэг бөгөөд давтамж нь тогтмол байдаг. Жишээлбэл, долоо хоногт нэг удаа шинэчлэгддэг сайтад аалз ийм давтамжтайгаар зочилдог бөгөөд мэдээллийн сайтуудын контент нийтлэгдсэнээс хэдхэн минутын дотор индексжүүлж болно. Хэрэв бусад эх сурвалжаас ямар ч холбоос сайт руу орохгүй бол хайлтын роботуудыг татахын тулд нөөцийг тусгай маягтаар (Google Webmaster Center, Yandex Webmaster Panel гэх мэт) нэмэх шаардлагатай.

Хайлтын роботуудын төрлүүд

Yandex аалз:

  • Yandex/1.01.001 I бол индексжүүлэх гол бот юм.
  • Yandex/1.01.001 (P) - зургуудыг индексжүүлдэг,
  • Yandex/1.01.001 (H) - сайтын толин тусгалыг олох,
  • Yandex/1.03.003 (D) - вэбмастер самбараас нэмсэн хуудас нь индексжүүлэх параметртэй тохирч байгаа эсэхийг тодорхойлох,
  • YaDirectBot/1.0 (I) - Yandex зар сурталчилгааны сүлжээний нөөцийг индексжүүлдэг.
  • Yandex/1.02.000 (F) - сайтын фавиконыг индексжүүлдэг.

Google аалз:

  • Googlebot бол гол робот,
  • Googlebot News - мэдээг мөлхөж, индексжүүлдэг,
  • Google Mobile - гар утасны төхөөрөмжүүдэд зориулсан вэбсайтуудыг индексжүүлдэг.
  • Googlebot Images - зураг хайх, индексжүүлэх,
  • Googlebot Video - видеог индексжүүлдэг,
  • Google AdsBot - буух хуудасны чанарыг шалгадаг,
  • Google Mobile AdSense болон Google AdSense - Google зар сурталчилгааны сүлжээний сайтуудыг индексжүүлдэг.

Бусад хайлтын системүүд нь жагсаасантай ижил төстэй хэд хэдэн төрлийн роботуудыг ашигладаг.

Ихэвчлэн, Хайлтын системнь хэрэглэгчийн асуулгын шалгуурт тохирсон мэдээллийг хайж олох чиглэлээр мэргэшсэн сайт юм. Ийм сайтуудын гол үүрэг бол сүлжээн дэх мэдээллийг зохион байгуулах, бүтэцжүүлэх явдал юм.

Хайлтын системийн үйлчилгээг ашигладаг ихэнх хүмүүс интернетийн гүнээс шаардлагатай мэдээллийг хайж, машин яг хэрхэн ажилладаг талаар гайхдаггүй.

Сүлжээний энгийн хэрэглэгчийн хувьд хайлтын системийн үйл ажиллагааны зарчмын тухай ойлголт нь тийм ч чухал биш юм, учир нь системийг удирдан чиглүүлдэг алгоритмууд нь оновчтой хайлт хийхээ мэдэхгүй байгаа хүний ​​хэрэгцээг хангах чадвартай байдаг. шаардлагатай мэдээллийг хайж байна. Гэхдээ вэб хөгжүүлэгч болон вэбсайтыг оновчтой болгоход оролцдог мэргэжилтнүүдийн хувьд хамгийн багадаа хайлтын системийн бүтэц, зарчмуудын талаархи анхны ойлголттой байх шаардлагатай.

Хайлтын систем бүр нь маш нарийн нууцлалд хадгалагддаг нарийн алгоритм дээр ажилладаг бөгөөд зөвхөн цөөн тооны ажилтнуудад мэдэгддэг. Гэхдээ сайтыг зохион бүтээх эсвэл оновчтой болгохдоо энэ нийтлэлд авч үзэх хайлтын системийн ерөнхий дүрмийг харгалзан үзэх шаардлагатай.

PS бүр өөрийн гэсэн бүтэцтэй байдаг ч сайтар судалсны дараа тэдгээрийг үндсэн, ерөнхий бүрэлдэхүүн хэсгүүдэд нэгтгэж болно.

Индексжүүлэх модуль

Индексжүүлэх модуль - Энэ элемент нь гурван нэмэлт бүрэлдэхүүн хэсэг (бот) агуулдаг:

1. Аалз (аалз робот) - хуудсуудыг татаж, текстийн урсгалыг шүүж, бүх дотоод холбоосыг гаргаж авдаг. Нэмж дурдахад Spider нь татаж авсан огноо, серверийн хариултын гарчиг, мөн URL - хуудасны хаягийг хадгалдаг.

2. Мөлхөгч (мөлхөж буй робот аалз) - хуудсан дээрх бүх холбоосыг шинжилж, энэ дүн шинжилгээнд үндэслэн аль хуудсанд зочлох, аль нь очиж үзэх нь зохисгүй болохыг тодорхойлдог. Үүнтэй адилаар мөлхөгч нь PS-ээр боловсруулах ёстой шинэ нөөцүүдийг олдог.

3. индексжүүлэгч (Робот индексжүүлэгч) - аалзны татаж авсан интернетийн хуудсуудад дүн шинжилгээ хийдэг. Энэ тохиолдолд хуудас нь өөрөө блокуудад хуваагдаж, морфологийн болон лексик алгоритмуудыг ашиглан индексжүүлэгчээр дүн шинжилгээ хийдэг. Вэб хуудасны янз бүрийн хэсгүүд нь индексжүүлэгчийн шинжилгээнд ордог: гарчиг, текст болон бусад үйлчилгээний мэдээлэл.

Энэ модулийн боловсруулсан бүх баримтууд хайлтын системийн индекс гэж нэрлэгддэг мэдээллийн санд хадгалагддаг. Баримт бичгүүдээс гадна мэдээллийн сан нь шаардлагатай үйлчилгээний өгөгдлийг агуулдаг - эдгээр баримт бичгүүдийг сайтар боловсруулсны үр дүн, хайлтын систем нь хэрэглэгчийн хүсэлтийг биелүүлдэг.

хайлтын сервер

дараагийн, маш чухал бүрэлдэхүүн хэсэгсистемүүд - хэрэглэгчийн хүсэлтийг боловсруулж, хайлтын үр дүнгийн хуудсыг үүсгэх үүрэг бүхий хайлтын сервер.

Хэрэглэгчийн хүсэлтийг боловсруулахдаа хайлтын сервер нь сонгосон баримт бичгийн хэрэглэгчийн хүсэлтэд хамаарах үнэлгээг тооцдог. Энэ зэрэглэл нь хайлтын үр дүнд вэб хуудас ямар байр суурь эзлэхийг тодорхойлдог. Хайлтын шалгуурт тохирсон баримт бичиг бүрийг үр дүнгийн хуудсан дээр хэсэгчлэн харуулна.

Хэсэг нь Товч тодорхойлолтхуудас, үүнд гарчиг, холбоос, түлхүүр үг, товч текст мэдээлэл орно. Хэсэг дээр үндэслэн хэрэглэгч хайлтын системээс сонгосон хуудсууд нь түүний асуулгад хамааралтай эсэхийг үнэлэх боломжтой.

Асуулгын үр дүнг эрэмбэлэхдээ хайлтын серверийн удирддаг хамгийн чухал шалгуур бол бидэнд аль хэдийн танил болсон TCI үзүүлэлт () юм.

PS-ийн тодорхойлсон бүх бүрэлдэхүүн хэсгүүд нь үнэтэй бөгөөд маш их нөөц шаарддаг. Хайлтын системийн гүйцэтгэл нь эдгээр бүрэлдэхүүн хэсгүүдийн харилцан үйлчлэлийн үр дүнтэй байдлаас шууд хамаардаг.

Нийтлэл таалагдсан уу? Блогын мэдээг захиалж эсвэл нийгмийн сүлжээнд хуваалцаарай, би танд хариулах болно


"Хайлтын систем бол тэдний робот, аалз" гэсэн нийтлэлийн 6 сэтгэгдэл

    Би энэ мэдээллийг удаан хугацаанд хайж байсан, баярлалаа.

    Хариулт

    Танай блог байнга хөгжиж байгаад баяртай байна. Иймэрхүү нийтлэлүүд нь зөвхөн алдар нэрийг нэмэгдүүлнэ.

    Хариулт

    Би нэг юм ойлголоо. Асуулт бол PR ямар нэгэн байдлаар TIC-ээс хамаардаг уу?

    Сайн уу найзуудаа! Өнөөдөр та Yandex болон Google хайлтын роботууд хэрхэн ажилладаг, вэбсайтыг сурталчлахад ямар үүрэг гүйцэтгэдэг болохыг олж мэдэх болно. За явцгаая!

    Хайлтын системүүд хэрэглэгчийн асуулгад өндөр чанартай, хамааралтай хариулт бүхий сая сайтаас арван ВЭБ төслийг олохын тулд энэ үйлдлийг хийдэг. Яагаад ердөө арав? Учир нь энэ нь ердөө аравхан албан тушаалаас бүрддэг.

    Найз нөхөд, вэбмастерууд болон хэрэглэгчдийг роботоос хайх

    Хайлтын роботоор сайтад зочлох нь яагаад чухал вэ гэдэг нь аль хэдийн тодорхой болсон бөгөөд энэ нь яагаад хэрэглэгчдэд зориулагдсан бэ? Энэ нь хэрэглэгч зөвхөн түүний хүсэлтэд бүрэн хариу өгөх сайтуудыг нээхийн тулд зөв юм.

    Робот хайх- маш уян хатан хэрэгсэл бөгөөд энэ нь саяхан үүсгэгдсэн сайтыг олох боломжтой бөгөөд энэ сайтын эзэн хараахан оролцоогүй байна. Тиймээс энэ роботыг аалз гэж нэрлэдэг байсан бөгөөд энэ нь сарвуугаа сунгаж, виртуал вэб дээр хаана ч хүрч чаддаг.

    Хайлтын роботыг өөрийн сонирхолд нийцүүлэн удирдах боломжтой юу?

    Зарим хуудсууд хайлтанд ороогүй тохиолдол байдаг. Энэ нь голчлон энэ хуудсыг хайлтын роботоор индексжүүлээгүй байгаатай холбоотой юм. Мэдээжийн хэрэг, эрт орой хэзээ нэгэн цагт хайлтын робот энэ хуудсыг анзаарах болно. Гэхдээ энэ нь цаг хугацаа шаарддаг, заримдаа маш их цаг хугацаа шаарддаг. Гэхдээ энд та хайлтын роботыг энэ хуудсанд илүү хурдан зочлоход тусална.

    Үүнийг хийхийн тулд та сайтаа тусгай лавлах эсвэл жагсаалт, нийгмийн сүлжээнд байрлуулж болно. Ерөнхийдөө хайлтын робот зүгээр л амьдардаг бүх сайтууд дээр. Жишээлбэл, нийгмийн сүлжээнд секунд тутамд шинэчлэлтүүд гарч ирдэг. Өөрийн сайтыг нэхэмжлэхийг оролдоорой, хайлтын робот таны сайтад илүү хурдан ирэх болно.

    Эндээс нэг, гэхдээ гол дүрэм. Хэрэв та хайлтын системийн роботуудыг танай сайтад зочлохыг хүсч байвал тэдгээрийг шинэ контентоор тогтмол тэжээх хэрэгтэй. Агуулга шинэчлэгдэж, сайт хөгжиж байгааг анзаарсан тохиолдолд тэд таны интернет төсөлд илүү олон удаа зочлох болно.

    Хайлтын робот бүр таны контент хэр олон удаа өөрчлөгдөж байгааг санаж чадна. Тэрээр зөвхөн чанарыг төдийгүй цаг хугацааны интервалыг үнэлдэг. Мөн сайтын материал сард нэг удаа шинэчлэгдэж байвал сард нэг удаа сайтад орж ирдэг.

    Тиймээс, хэрэв сайт долоо хоногт нэг удаа шинэчлэгддэг бол хайлтын робот долоо хоногт нэг удаа ирдэг. Хэрэв та сайтыг өдөр бүр шинэчилвэл хайлтын робот өдөр бүр эсвэл өдөр бүр сайтад зочлох болно. Шинэчлэгдсэнээс хойш хэдхэн минутын дотор индексжүүлсэн сайтууд байдаг. Энэ олон нийтийн сүлжээ, мэдээ нэгтгэгч, өдөрт хэд хэдэн нийтлэл нийтэлдэг сайтууд.

    Хэрхэн роботод даалгавар өгч, түүнд ямар нэгэн зүйлийг хориглох вэ?

    Хамгийн эхэнд бид хайлтын системүүд өөр өөр үүрэг даалгаврыг гүйцэтгэдэг хэд хэдэн роботтой болохыг олж мэдсэн. Хэн нэгэн зураг хайж байна, хэн нэгэн холбоос гэх мэт.

    Та тусгай файл ашиглан ямар ч роботыг удирдах боломжтой robots.txt . Энэ файлаас робот сайттай танилцаж эхэлдэг. Энэ файлд та робот сайтыг индексжүүлж чадах эсэх, хэрэв тийм бол аль хэсгүүдийг зааж өгч болно. Эдгээр бүх зааврыг нэг эсвэл бүх роботод зориулж үүсгэж болно.

    Вэбсайтыг сурталчлах сургалт

    Хайлтын систем дэх SEO вэбсайт сурталчилгааны нарийн төвөгтэй байдлын талаар илүү ихийг мэдэж аваарай Google системүүдболон Yandex, би Skype дээр ярьдаг. Би бүх WEB төслүүдээ илүү их ирцэнд хүргэж, үүнээс маш сайн үр дүнд хүрсэн. Хэрэв та сонирхож байвал би танд зааж чадна!

    Найзууд аа, би та бүхэнд дахин мэндчилж байна! Одоо бид хайлтын робот гэж юу болох талаар дүн шинжилгээ хийж, google хайлтын робот, тэдэнтэй хэрхэн найзлах талаар дэлгэрэнгүй ярих болно.

    Эхлээд та хайлтын робот гэж юу болохыг ойлгох хэрэгтэй, тэдгээрийг аалз гэж нэрлэдэг. Хайлтын системийн аалзнууд ямар ажил хийдэг вэ?

    Эдгээр нь вэбсайтуудыг шалгадаг програмууд юм. Тэд таны блог дээрх бүх нийтлэл, хуудсуудыг үзэж, мэдээлэл цуглуулж, дараа нь өөрсдийн ажилладаг хайлтын системийн мэдээллийн сан руу шилжүүлдэг.

    Та хайлтын роботуудын жагсаалтыг бүхэлд нь мэдэх шаардлагагүй, хамгийн чухал зүйл бол Google одоо "панда", "оцон шувуу" гэсэн хоёр үндсэн аалзтай гэдгийг мэдэх явдал юм. Тэд чанар муутай контент, хэрэггүй холбоосуудтай тулалдаж байгаа тул та тэдний дайралтыг хэрхэн няцаахаа мэдэх хэрэгтэй.

    Google Panda хайлтын робот нь хайлтанд зөвхөн өндөр чанартай материалыг сурталчлах зорилгоор бүтээгдсэн. Чанар муутай бүх сайтууд хайлтын үр дүнд багасдаг.

    Анх удаа энэ аалз 2011 онд гарч ирсэн. Үзэгдэхээс өмнө нийтлэлд их хэмжээний текст нийтлэх, асар их хэмжээний материалыг ашиглах замаар аливаа сайтыг сурталчлах боломжтой байсан. түлхүүр үгс. Эдгээр хоёр техник нь хамтдаа хайлтын үр дүнгийн дээд хэсэгт өндөр чанартай контент авчирсангүй, харин сайн сайтууд хайлтын үр дүнд буурсан байна.

    "Панда" тэр даруй бүх сайтуудыг шалгаж, бүх зүйлийг зохих байранд нь оруулдаг. Хэдийгээр тэр чанар муутай контенттой тэмцэж байгаа ч чанартай нийтлэл бүхий жижиг сайтуудыг одоо сурталчлах боломжтой. Хэдийгээр өмнө нь ийм сайтуудыг сурталчлах нь ашиггүй байсан ч асар их хэмжээний контенттой аварга компаниудтай өрсөлдөж чадахгүй байв.

    Одоо бид "панда" хориг арга хэмжээнээс хэрхэн зайлсхийх талаар олж мэдэх болно. Бид эхлээд түүний юунд дургүйг ойлгох ёстой. Тэр муу агуулгатай тэмцэж байгаа гэж дээр би аль хэдийн бичсэн байсан, гэхдээ ямар төрлийн текст түүнд муу болохыг түүний сайт дээр нийтлэхгүйн тулд үүнийг олж мэдье.

    Google хайлтын робот нь энэхүү хайлтын системд зөвхөн өргөдөл гаргагчдад зориулсан өндөр чанартай материалыг гаргахыг хичээдэг. Хэрэв танд мэдээлэл багатай нийтлэлүүд байгаа бөгөөд тэдгээр нь гадаад үзэмжээрээ сонирхол татахуйц биш бол "панда" танд хүрэхгүйн тулд эдгээр бичвэрүүдийг яаралтай дахин бичээрэй.

    Чанартай агуулга нь том, жижиг аль аль нь байж болно, гэхдээ аалз маш их мэдээлэл агуулсан урт нийтлэлийг харвал энэ нь уншигчдад илүү их ашиг тустай байх болно.

    Дараа нь давхардал, өөрөөр хэлбэл хулгайн гэмт хэргийг тэмдэглэх нь зүйтэй. Хэрэв та блогтоо бусдын нийтлэлийг дахин бичнэ гэж бодож байгаа бол тэр даруй сайтаа зогсоож болно. Хуулбарлах нь шүүлтүүр хэрэглэх замаар хатуу шийтгэдэг, мөн хулгайн гэмт хэргийг шалгаж байнамаш хялбар, би энэ сэдвээр нийтлэл бичсэн Текстүүдийн өвөрмөц байдлыг хэрхэн шалгах вэ.

    Анхаарах дараагийн зүйл бол текстийг түлхүүр үгсээр дүүргэх явдал юм. Хэн нэгэн ижил түлхүүр үгсээс нийтлэл бичиж, хайлтын үр дүнд эхний байрыг эзэлнэ гэж бодож байгаа хүн маш их эндүүрч байна. Надад хуудсуудыг хэрхэн хамааралтай эсэхийг шалгах тухай нийтлэл байгаа тул заавал уншаарай.

    "Панда" -ыг өөр юу татах вэ гэвэл ёс суртахууны хувьд хоцрогдсон, сайтад урсгал авчрахгүй хуучин нийтлэлүүд юм. Тэдгээрийг шинэчлэх шаардлагатай байна.

    Мөн google хайлтын робот "оцон шувуу" байдаг. Энэ аалз нь таны сайт дээрх спам болон хаягдал холбоосуудтай тэмцдэг. Мөн бусад эх сурвалжаас худалдаж авсан холбоосыг тооцдог. Тиймээс, энэхүү хайлтын роботоос айхгүйн тулд та холбоосыг худалдаж авахгүй, харин өндөр чанартай контент нийтлэх хэрэгтэй бөгөөд ингэснээр хүмүүс тантай өөрсдөө холбогдоно.

    Одоо хайлтын роботын нүдээр сайтыг төгс харагдуулахын тулд юу хийх хэрэгтэйг томъёолъё.

    • Чанартай контент гаргахын тулд нийтлэл бичихээсээ өмнө сэдвээ сайтар судлаарай. Тэгвэл хүмүүс энэ сэдвийг үнэхээр сонирхож байгаа гэдгийг ойлгох хэрэгтэй.
    • Ашиглах тодорхой жишээнүүдболон зураг, энэ нь нийтлэлийг амьд, сонирхолтой болгоно. Уншихад хялбар болгохын тулд текстийг жижиг догол мөр болгон хуваа. Жишээлбэл, та сонинд хошигнол бүхий хуудас нээвэл алийг нь эхлээд унших вэ? Мэдээжийн хэрэг, хүн бүр эхлээд богино бичвэр, дараа нь урт, хамгийн сүүлд урт хөлийн даавуу уншдаг.
    • Пандагийн дуртай nitpick нь хуучирсан мэдээлэл агуулсан нийтлэлийн хамаарал биш юм. Шинэчлэлтүүдийг хүлээн авч, текстийг өөрчилнө үү.
    • Түлхүүр үгсийн нягтралыг ажиглаарай, би энэ нягтралыг хэрхэн тодорхойлох талаар дээр бичсэн, миний ярьсан үйлчилгээнд та шаардлагатай түлхүүрүүдийн яг тоог хүлээн авах болно.
    • Хулгай хийх хэрэггүй, та бусдын эд зүйл эсвэл мессежийг хулгайлж чадахгүй гэдгийг бүгд мэддэг - энэ нь ижил зүйл юм. Шүүлтүүрийн доор орсноор та хулгайд хариуцлага хүлээх болно.
    • Дор хаяж хоёр мянган үгтэй текст бичээрэй, тэгвэл ийм нийтлэл хайлтын системийн роботуудын нүдээр мэдээлэлтэй харагдах болно.
    • Блогтоо сэдвээс бүү холд. Хэрэв та интернетээр мөнгө олох талаар блог хөтөлж байгаа бол агаарын бууны тухай нийтлэл хэвлэх шаардлагагүй. Энэ нь таны нөөцийн үнэлгээг бууруулж болзошгүй юм.
    • Уншихад таатай, сайтаас хурдан гарахыг хүсэхгүй байхын тулд нийтлэлүүдийг сайхан зохиож, догол мөр болгон хувааж, зураг нэмээрэй.
    • Холбоос худалдаж авахдаа хүмүүсийн унших хамгийн сонирхолтой, хэрэгцээтэй нийтлэлүүдийг оруулаарай.

    За, одоо та хайлтын системийн роботууд ямар ажил хийдгийг мэдэж, тэдэнтэй найзалж чадна. Хамгийн гол нь google хайлтын робот болон "панда", "оцон шувуу"-г та нар нарийвчлан судалсан.

    1.1.1. Хайлтын системийн бүрэлдэхүүн хэсгүүд

    Вэб дээрх мэдээлэл зөвхөн нөхөгдөж зогсохгүй байнга өөрчлөгдөж байдаг ч эдгээр өөрчлөлтүүдийн талаар хэн ч хэнд ч хэлдэггүй. Байхгүй нэг систембүх интернет хэрэглэгчдэд нэгэн зэрэг ашиглах боломжтой мэдээллийг оруулах. Тиймээс мэдээллийг бүтэцжүүлэх, хэрэглэгчдэд өгөгдөл хайх тохиромжтой хэрэгслээр хангахын тулд хайлтын системийг бий болгосон.

    Хайлтын системүүдбайдаг янз бүрийн төрөл. Тэдний зарим нь хүмүүсийн оруулсан зүйл дээр үндэслэн мэдээлэл хайж байдаг. Эдгээр нь редакторууд сайтуудын тухай мэдээлэл, тэдгээрийн товч тайлбар эсвэл тоймыг оруулдаг лавлахууд байж болно. Тэдгээрийг эдгээр тайлбаруудын дунд хайдаг.

    Сүүлийнх нь ашиглан вэб дээр мэдээлэл цуглуулдаг тусгай хөтөлбөрүүд. Эдгээр нь дүрмээр бол гурван үндсэн бүрэлдэхүүн хэсгээс бүрдэх хайлтын системүүд юм.

    индекс;

    Хайлтын систем.

    Агент, эсвэл илүү түгээмэл - аалз, робот (англи хэл дээр - аалз, мөлхөгч), мэдээлэл хайхдаа сүлжээ эсвэл түүний тодорхой хэсгийг тойрч гардаг. Энэхүү робот нь зочилж, индексжүүлж болох хаягуудын жагсаалтыг (URL) хөтөлж, линкүүдтэй харгалзах баримт бичгүүдийг татаж аваад хайлтын систем тус бүрээр тодорхой давтамжтайгаар дүн шинжилгээ хийдэг. Хуудасны үр дүнгийн агуулгыг робот илүү авсаархан хэлбэрээр хадгалж, Индекс рүү шилжүүлдэг. Хэрэв хуудасны (баримт бичиг) дүн шинжилгээ хийх явцад шинэ холбоос олдвол робот үүнийг жагсаалтад нэмнэ. Тиймээс ямар ч баримт бичиг эсвэл холбоос бүхий сайтыг робот олж болно. Мөн эсрэгээр, хэрэв сайт эсвэл түүний аль нэг хэсэг нь байхгүй бол гадаад холбоосууд, робот үүнийг олохгүй байж магадгүй.

    Робот бол зүгээр нэг мэдээлэл цуглуулагч биш. Түүнд нэлээд хөгжсөн "оюун ухаан" бий. Роботууд нь тодорхой сэдвийн сайтуудыг хайж олох, урсгалаар ангилсан сайтуудын жагсаалтыг гаргах, одоо байгаа мэдээллийн сангаас мэдээллийг задлах, боловсруулах, янз бүрийн үүрлэх гүнтэй холбоосуудыг дагаж болно. Гэхдээ ямар ч тохиолдолд тэд олсон бүх мэдээллийг хайлтын системийн мэдээллийн санд (индекс) дамжуулдаг.

    Робот хайхбайдаг янз бүрийн төрөл:

    ? Аалз(spider) нь вэб хуудсуудыг хэрэглэгчийн хөтөчтэй ижил аргаар татаж авдаг програм юм. Ялгаа нь вэб хөтч нь тухайн хуудсанд байгаа мэдээллийг (текст, график гэх мэт) харуулдаг бол аалз нь ямар ч харааны бүрэлдэхүүн хэсэггүй бөгөөд хуудасны HTML тексттэй шууд ажилладаг (хэрэв та үүнийг харвал харагдахтай адил) юм. Хөтөч дээрээ HTML кодыг харахыг асаана уу).

    ? Мөлхөгч(мөлхөгч, "аялагч" аалз) - хуудсан дээр байгаа бүх холбоосыг онцлон тэмдэглэнэ. Үүний үүрэг бол холбоосууд эсвэл урьдчилан тодорхойлсон хаягийн жагсаалтад үндэслэн аалз хаашаа явах ёстойг тодорхойлох явдал юм. Мөлхөгч нь олсон холбоосыг дагаж хайлтын системд үл мэдэгдэх шинэ баримт бичгүүдийг хайж байна.

    ? Индексжүүлэгчхуудсыг бүрэлдэхүүн хэсгүүдэд нь задлан шинжилнэ. Текст, гарчиг, бүтцийн болон хэв маягийн онцлог, тусгай үйлчилгээний HTML шошго гэх мэт хуудасны янз бүрийн элементүүдийг сонгож, дүн шинжилгээ хийдэг.

    Индекс- энэ бол хайлтын системийн мэдээлэл хайдаг хэсэг юм. Индекс нь роботуудын дамжуулсан бүх өгөгдлийг агуулдаг тул индексийн хэмжээ хэдэн зуун гигабайт хүрч чаддаг. Үнэн хэрэгтээ энэ индекс нь роботуудын зочилсон бүх хуудасны хуулбарыг агуулдаг. Хэрэв робот аль хэдийн индексжүүлсэн хуудасны өөрчлөлтийг илрүүлбэл шинэчлэгдсэн мэдээллийг Индекс рүү илгээдэг. Энэ нь одоо байгаа хуудсыг солих ёстой, гэхдээ зарим тохиолдолд Индекс дээр шинэ хуудас гарч ирэхээс гадна хуучин хуудас хэвээр үлддэг.

    Хайлтын системнь зочин Индекстэй харьцдаг интерфейс юм. Интерфэйсээр дамжуулан хэрэглэгчид хүсэлтээ оруулж, хариу хүлээн авдаг бөгөөд сайтын эзэд тэдгээрийг бүртгэдэг (мөн энэ бүртгэл нь таны сайтын хаягийг робот руу дамжуулах өөр нэг арга юм). Хайлтын систем нь асуулга боловсруулахдаа олон сая индексжүүлсэн эх сурвалжаас харгалзах хуудас, баримт бичгүүдийг сонгон авч, асуулгад хамаарах ач холбогдол, хамаарлаар нь эрэмбэлдэг.



Ачааж байна...
Топ