Търсене на паяци. Робот за търсене

Здравейте всички! Днес ще ви разкажа как работи роботът за търсене. Ще научите и какво представляват роботите за търсене. Тяхното предназначение и характеристики.

Като начало нека започна с едно определение.

Робот за търсене- това е вид програма, която посещава хипертекстови връзки, извлича всички последващи документи от определен ресурс и ги въвежда в индекса на търсачката.

Всеки робот за търсене има свое собствено уникално име - Crawler, Spider и др.

Какво прави роботът за търсене?

Както казах, всеки робот има свое уникално име и съответно всеки изпълнява своя специфична работа или, да кажем, предназначение.

Нека да разгледаме какви функции изпълняват:

  • Заявка за достъп до сайта;
  • Заявка за обработка и извличане на страници;
  • Заявка за анализ на съдържанието;
  • Търсене на връзки;
  • Мониторинг на актуализиране;
  • Заявка за RSS данни (събиране на съдържание);
  • Индексиране.

Например Yandex има няколко робота, които отделно индексират, анализират, събират информация за следните данни:

  • Видео;
  • изображения;
  • Огледало на сайта;
  • XML файлове;
  • файл robots.txt;
  • коментари;

Като цяло, всъщност роботът за търсене просто посещава интернет ресурси, събирайки необходимите данни, които след това предава на индексатора на търсачката.

Индексаторът на търсачката е този, който обработва получените данни и правилно изгражда индекса на търсачката. Дори бих казал, че роботът е "куриер", който само събира информация.

Как се държат роботите и как да ги управляваме

Разликите между поведението на робот и обикновен потребител на сайта са следните:

1. Първо, това се отнася до контролируемостта. На първо място, роботът изисква от вашия хостинг () файла robots.txt, който показва какво може да се индексира и какво не.

2. Специална разлика между робота е скоростта. Между всяка заявка, която се отнася до две различни документи, скоростта им е секунди и дори части от секундата.

Дори за това има специално правило, което може да бъде указано във файла robots.txt, така че роботът търсачкиограничете заявките, като по този начин намалите натоварването на блога.

3. Също така бих искал да отбележа тяхната непредсказуемост. Когато робот посети вашия блог, действията му не могат да бъдат проследени, невъзможно е да се знае откъде идва и т.н. Той действа според собствения си принцип и в реда, в който е изградена опашката за индексиране.

4. И още нещо, това е, когато роботът, на първо място, обръща внимание на хипертекста и текстови документи, а не във файлове, свързани с CSS стили така нататък.

Искате ли да видите как изглежда страницата на вашия блог в очите на робот за търсене? Просто изключете Flash, изображенията и стиловете във вашия браузър.

И ще видите, че всеки робот за търсене индексира само HTML кода на страницата, без никакви снимки или друго съдържание.

И сега е време да поговорим за това как да ги управляваме. Както казах по-рано, роботите могат да бъдат контролирани чрез специален файл robots.txt, в който можете да напишете инструкциите и изключенията, които са ни необходими, за да контролираме поведението им във вашия блог.

робот за търсене Наречен специална програмавсяка търсачка, която е предназначена да въвежда в базата данни (индексира) намерените в интернет сайтове и техните страници. Използват се и имената: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип на действие

Роботът за търсене е програма от тип браузър. Той непрекъснато сканира мрежата: посещава индексирани (вече познати му) сайтове, следва връзки от тях и намира нови ресурси. Когато бъде намерен нов ресурс, роботът-процедура го добавя към индекса на търсачката. Роботът за търсене също индексира актуализации на сайтове, чиято честота е фиксирана. Например, сайт, който се актуализира веднъж седмично, ще бъде посещаван от паяк с тази честота, а съдържанието на новинарските сайтове може да бъде индексирано в рамките на минути след публикуването. Ако връзката от други ресурси не води към сайта, тогава, за да привлечете роботи за търсене, ресурсът трябва да бъде добавен чрез специална форма (Google Webmaster Center, Yandex Webmaster Panel и др.).

Видове роботи за търсене

Yandex паяци:

  • Yandex/1.01.001 I е основният индексиращ бот,
  • Yandex/1.01.001 (P) - индексира снимки,
  • Yandex/1.01.001 (H) - намира огледални сайтове,
  • Yandex/1.03.003 (D) - определя дали страницата, добавена от панела за уеб администратори, отговаря на параметрите за индексиране,
  • YaDirectBot/1.0 (I) - индексира ресурси от рекламната мрежа Yandex,
  • Yandex/1.02.000 (F) — индексира favicons на сайта.

Google Spiders:

  • Googlebot е основният робот,
  • Googlebot News - обхожда и индексира новини,
  • Google Mobile - индексира уебсайтове за мобилни устройства,
  • Googlebot Images - търси и индексира изображения,
  • Googlebot Video - индексира видеоклипове,
  • Google AdsBot - проверява качеството на целевата страница,
  • Google Mobile AdSense и Google AdSense - индексира сайтовете от рекламната мрежа на Google.

Други търсачки също използват няколко вида роботи, които са функционално подобни на изброените.

обикновено, търсачкае сайт, който е специализиран в намирането на информация, която отговаря на критериите за заявка на потребителя. Основната задача на такива сайтове е да организират и структурират информацията в мрежата.

Повечето хора, използвайки услугите на търсачката, никога не се чудят как точно работи машината, търсейки необходимата информация от дълбините на Интернет.

За обикновения потребител на мрежата самата концепция за принципите на работа на търсачките не е критична, тъй като алгоритмите, които ръководят системата, са в състояние да задоволят нуждите на човек, който не знае как да направи оптимизирана заявка, когато търсене на необходимата информация. Но за уеб разработчик и специалисти, занимаващи се с оптимизация на уебсайтове, е просто необходимо да имат поне първоначалните концепции за структурата и принципите на търсачките.

Всяка търсачка работи с точни алгоритми, които се пазят в най-строга тайна и са известни само на тесен кръг служители. Но когато проектирате сайт или го оптимизирате, е задължително да вземете предвид общите правила за функциониране на търсачките, които са разгледани в тази статия.

Въпреки факта, че всеки PS има своя собствена структура, след внимателно проучване те могат да бъдат комбинирани в основни, обобщаващи компоненти:

Модул за индексиране

Модул за индексиране - Този елемент включва три допълнителни компонента (ботове):

1. Паяк (робот паяк) - изтегля страници, филтрира текстовия поток, извлича всички вътрешни хипервръзки от него. В допълнение, Spider запазва датата на изтегляне и заглавието на отговора на сървъра, както и URL - адреса на страницата.

2. Обхождане (пълзящ робот паяк) - анализира всички връзки на страницата и въз основа на този анализ определя коя страница да посети и коя не си струва да бъде посетена. По същия начин роботът намира нови ресурси, които трябва да бъдат обработени от PS.

3. индексатор (Робот-индексатор) - занимава се с анализ на интернет страници, изтеглени от паяк. В този случай самата страница се разделя на блокове и се анализира от индексатора с помощта на морфологични и лексикални алгоритми. Различни части от уеб страница попадат под анализа на индексатора: заглавия, текстове и друга служебна информация.

Всички документи, обработвани от този модул, се съхраняват в базата данни на търсещия, наречена системен индекс. В допълнение към самите документи, базата данни съдържа необходимите сервизни данни - резултат от внимателна обработка на тези документи, ръководени от които търсачката изпълнява заявките на потребителите.

сървър за търсене

следващ, много важен компонентсистеми - сървър за търсене, чиято задача е да обработи потребителска заявка и да генерира страница с резултати от търсенето.

Обработвайки заявката на потребителя, сървърът за търсене изчислява степента на съответствие на избраните документи спрямо заявката на потребителя. Това класиране определя позицията, която една уеб страница ще заеме в резултатите от търсенето. Всеки документ, който отговаря на критериите за търсене, се показва на страницата с резултати като фрагмент.

Фрагментът е Кратко описаниестраница, включително заглавие, връзка, ключови думи и кратка текстова информация. Въз основа на фрагмента потребителят може да прецени доколко страниците, избрани от търсачката, съответстват на неговата заявка.

Най-важният критерий, от който сървърът за търсене се ръководи при класиране на резултатите от заявка, е индикаторът TCI (), който вече ни е познат.

Всички описани компоненти на PS са скъпи и много ресурсоемки. Ефективността на търсачката директно зависи от ефективността на взаимодействието на тези компоненти.

Хареса ли ви статията? Абонирайте се за новини в блога или споделете в социалните мрежи и аз ще ви отговоря


6 коментара към публикацията „Търсачките са техните роботи и паяци“

    Отдавна търся тази информация, благодаря.

    Отговор

    Радвам се, че блогът ви непрекъснато се развива. Публикации като тази само увеличават популярността.

    Отговор

    Разбрах нещо. Въпросът е дали PR по някакъв начин зависи от TIC?

    Как работят роботите на търсачките

    Роботът за търсене (паяк, бот) е a малка програма, способен да посещава милиони уебсайтове без участието на оператор и да сканира гигабайти текстове. Четенето на страниците и запазването на техните текстови копия е първият етап от индексирането на нови документи. Трябва да се отбележи, че роботите на търсачките не обработват получените данни. Тяхната задача е само да съхраняват текстова информация.

    Още видеоклипове в нашия канал - научете интернет маркетинг със SEMANTICA

    Списък с роботи за търсене

    От всички търсачки, участващи в сканирането на Runet, Yandex има най-голямата колекция от ботове. Следните ботове отговарят за индексирането:

    • основният индексиращ робот, който събира данни от уеб страници;
    • бот, способен да разпознава огледала;
    • Yandex робот за търсене, който индексира изображения;
    • паяк, разглеждащ страниците на сайтове, приети в YAN;
    • икони на фавикони за сканиране на роботи;
    • няколко паяка, които определят наличността на страниците на сайта.

    Основният робот за търсене на Google събира текстова информация. По принцип разглежда html файлове, анализира JS и CSS на редовни интервали. Може да приема всякакви типове съдържание, разрешени за индексиране. PS Google има паяк, който контролира индексирането на изображения. Има и робот за търсене - програма, която поддържа функционирането мобилна версияТърсене.

    Вижте сайта през очите на робот за търсене

    За да коригира грешки в кода и други недостатъци, уеб администраторът може да разбере как роботът за търсене вижда сайта. Тази опция се предоставя от Google PS. Ще трябва да отидете на инструментите за уеб администратори и след това да кликнете върху раздела „сканиране“. В прозореца, който се отваря, изберете реда „преглед като Googlebot“. След това трябва да въведете адреса на изследваната страница във формата за търсене (без да посочвате домейна и http:// протокола).

    Избирайки командата "получете и покажете", уеб администраторът ще може визуално да оцени състоянието на страницата на сайта. За да направите това, трябва да кликнете върху квадратчето за отметка "заявка за показване". Ще се отвори прозорец с две версии на уеб документа. Уеб администраторът научава как редовният посетител вижда страницата и под каква форма е достъпна за паяка за търсене.

    Съвет! Ако уеб документът, който се анализира, все още не е индексиран, тогава можете да използвате командата „добавяне към индекс“ >> „обхождане само на този URL“. Паякът ще анализира документа след няколко минути, в близко бъдеще уеб страницата ще се появи в резултатите от търсенето. Месечният лимит за заявка за индексиране е 500 документа.

    Как да повлияем на скоростта на индексиране

    След като разбере как работят роботите за търсене, уеб администраторът ще може да популяризира сайта си много по-ефективно. Един от основните проблеми на много млади уеб проекти е лошото индексиране. Роботите на търсачките не са склонни да посещават неавторитетни интернет ресурси.
    Установено е, че скоростта на индексиране пряко зависи от интензивността, с която се актуализира сайтът. Редовното добавяне на уникални текстови материали ще привлече вниманието на търсачката.

    За да ускорите индексирането, можете да използвате социални отметки и услугата twitter. Препоръчително е да генерирате карта на сайта и да я качите в основната директория на уеб проекта.

    Има висше образование - обучение за масажист.

    Има повече от сто милиона ресурси в интернет и милиони желаните странициникога няма да ни бъде известна. Как да намерим капката, от която се нуждаем в този океан? Тук ни идва на помощ. Търсенесобствена машина. Това паяк, и само той знае какво и на кое място в мрежата има.

    Търсененови машини интернетах, това са сайтове, специално създадени да ви помогнат да намерите необходимата информация V глобална мрежасветовната мрежа. Има три основни функции, еднакви за всички Търсененови машини:

    - Търсене oviks по дадените ключови думи "търси" в интернет;
    - индексирани адреси Търсене ovikami заедно с думи;
    - индексираните уеб страници формират основата, която Търсене oviki предоставя на потребителите ТърсенеА ключови думиили комбинации от тях.

    Първо Търсене Hoviki получава до 2000 заявки на ден и индексира стотици хиляди страници. Днес броят на заявките на ден достига стотици милиони страници и десетки милиони.

    Птърсачки до световната мрежа.

    Първо Търсене ovikami интернети имаше програми "gopher" и "Archie". Те индексират файлове, разположени на свързан интернетсървъри, многократно намаляване на времето за Търсененеобходимите документи. В края на 1980 г. способността за работа в интернетне се сведе до възможността да се използва Archie, gopher, Veronica и други подобни Търсененови програми.

    Днес Мрежастана най-търсената част интернети мнозинството интернетпотребителите извършват Търсенесамо в световната мрежа (www).

    робот- паяк

    Програмата за роботи, използвана в Търсененови машини, нарича се още "паяк", паяк(паяк), изпълнява процеса на създаване на списък с думи, намиращи се на страницата на wed-resource. Процесът се нарича Обхождане на мрежата(пълзене). Търсененов паякпреглежда много други страници, изгражда и коригира списък с полезни думи, т.е. имащи някакво значение, тежест.

    Пътуване през Търсене u в мрежата паяк (паяк) започва с най-големия сървър и най-популярните уеб страници. След като заобиколи такъв сайт и индексира всички намерени думи, той отива да обходи други сайтове, използвайки намерените връзки. По този начин роботът паякулавя цялото уеб пространство.

    Основателите на Google Сергей Брин и Лорънс Пейдж дават пример за работата на Google паяков. Има няколко. Търсенезапочва три паяк ami. един паякподдържа до 300 връзки към страници едновременно. Пиково натоварване, четири паяки са способни да обработват до сто страници в секунда, като същевременно генерират трафик от около 600 килобайта/сек. На този момент, когато прочетете това, може би числата ще ви се сторят смешни.

    Ключови думи за робота на търсачката

    Обикновено собственикът на уеб ресурс иска да бъде включен Търсененови резултати за необходимите Търсенеой думи. Тези думи се наричат ключс. КлючевДумите определят същността на съдържанието на една уеб страница. И мета таговете помагат за това. След това те предлагат на робота за търсене избор ключ th думи, използвани за индексиране на страницата. Но ние не препоръчваме добавяне на мета тагове към популярни заявки, които не са свързани със съдържанието на самата страница. Ботовете на търсачките се борят с това явление и ще имате късмет, ако просто пропусне мета таговете с ключс други думи, не отговарят на съдържанието на страниците.

    Мета таговете са много полезен инструмент, когато ключПървите думи от тях се повтарят няколко пъти в текста на страницата. Но не прекалявайте, има шанс роботът да приеме страницата за врата.

    Алгоритми за индексиране на търсачките

    Алгоритми Търсене Hoviks се фокусират върху ефективността на крайния резултат, но всеки има различни подходи към това. Ликос ТърсенеНовите роботи индексират думите в заглавието (title), връзките (links) и до сто често използвани думи на страницата и всяка дума от първите 20 реда от съдържанието на страницата.

    Googlebot взема предвид местоположението на думата на страницата (в елемента body). Словесни раздели, като напр субтитри, заглавие, мета таговеи др., отбелязва като особено важно, като изключва междуметията "a", "an" и "the.".

    други Търсене oviki може да има малко по-различен подход към индексирането на думите, използвани за Търсененови заявки от потребители.



Зареждане...
Връх