Каква работа вършат паяците на търсачките? Намиране на информация в мрежата

Преглеждайки регистрационните файлове на сървъра, понякога можете да наблюдавате прекомерен интерес към сайтове от роботи за търсене. Ако ботовете са полезни (например индексиращи ботове на PS), остава само да се наблюдава, дори ако натоварването на сървъра се увеличи. Но все още има много вторични роботи, чийто достъп до сайта не е необходим. За себе си и за вас, скъпи читателю, събрах информация и я превърнах в удобен таблет.

Кои са роботите за търсене

бот за търсене, или както още ги наричат, робот, пълзящ, паяк - нищо повече от програма, която търси и сканира съдържанието на сайтове, като щрака върху връзките на страниците.Роботите за търсене не са само за търсачките. Например услугата Ahrefs използва паяци, за да подобри данните за обратните връзки, Facebook извършва уеб сканиране на кода на страницата, за да покаже повторно публикуване на връзки със заглавия, снимки и описания. Уеб скрапингът е събиране на информация от различни ресурси.

Използване на имена на паяци в robots.txt

Както можете да видите, всеки сериозен проект, свързан с търсене на съдържание, има своите паяци. И понякога е спешна задача да ограничите достъпа на някои паяци до сайта или неговия отделни секции. Това може да стане чрез файла robots.txt в основната директория на сайта. Написах повече за настройката на роботите по-рано, препоръчвам ви да го прочетете.

Моля, обърнете внимание, че файлът robots.txt и неговите директиви могат да бъдат игнорирани от роботите за търсене. Директивите са само насоки за ботове.

Можете да зададете директива за робот за търсене, като използвате секцията - обжалване на потребителския агент на този робот. Секциите за различните паяци са разделени с един празен ред.

Потребителски агент: Googlebot Allow: /

Потребителски агент: Googlebot

позволява: /

Горното е пример за извикване на основния робот на Google.

Първоначално планирах да добавя записи към таблицата за това как ботовете за търсене се идентифицират в регистрационните файлове на сървъра. Но тъй като тези данни са от малко значение за SEO и може да има няколко вида записи за всеки токен на агент, беше решено да се мине само с името на ботовете и тяхната цел.

Роботи за търсене G o o g l e

потребителски агент	Функции
Googlebot	Основният индексатор за обхождане за страници, оптимизирани за компютър и смартфон
Mediapartners-Google	Робот за рекламна мрежа на AdSense
APIs-Google	APIs-потребителски агент на Google
AdsBot-Google	Проверява качеството на рекламите на уеб страници, предназначени за компютър
AdsBot-Google-Mobile	Проверява качеството на рекламите на уеб страници, предназначени за мобилни устройства
Изображение на Googlebot (Googlebot)	Индексира изображения на страниците на сайта
Googlebot Новини (Googlebot)	Търся страници за добавяне към Google Новини
Googlebot Video (Googlebot)	Индексира видео съдържание
AdsBot-Google-Mobile-Apps	Проверява качеството на рекламите в приложенията за Android устройства, работи на същите принципи като обикновения AdsBot

Роботи за търсене, които индексирам

потребителски агент	Функции
Яндекс	Когато този токен на агент е указан в robots.txt, заявката отива до всички ботове на Yandex
YandexBot	Основен робот за индексиране
YandexDirect	Изтегля информация за съдържанието на партньорските сайтове на YAN
YandexImages	Индексира изображения на сайта
YandexMetrika	Робот Yandex.Metrica
YandexMobileBot	Изтегля документи за анализ за наличие на оформление за мобилни устройства
YandexMedia	Робот индексира мултимедийни данни
YandexNews	Индексатор на Yandex.News
YandexPagechecker	Валидатор на микроданни
YandexMarket	робот Yandex.Market;
YandexCalenda	Робот Yandex.Calendar
YandexDirectDyn	Генерира динамични банери (директно)
YaDirectFetcher	Изтегля страници с реклами, за да провери наличността им и да изясни темите (YAN)
YandexAccessibilityBot	Изтегля страници, за да провери наличността им за потребителите
YandexScreenshotBot	Прави моментна снимка (екранна снимка) на страницата
YandexVideoParser	Yandex.Video услуга паяк
YandexSearchShop	Изтегля YML файлове на продуктови каталози
YandexOntoDBAPI	Робот за реакция на обект, изтеглящ динамични данни

Други популярни ботове за търсене

потребителски агент	Функции
Байдупаяк	Китайска търсачка Baidu spider
clickzbot	Cliqz анонимен робот за търсачки
AhrefsBot	Ahrefs търсач бот (анализ на връзки)
Genieo	Обслужващ робот Genieo
bingbot	Робот за търсене на Bing
Пълнене	Обхождане на търсачката на Yahoo
DuckDuckBot	Уеб робот PS DuckDuckGo
facebot	Facebook робот за уеб обхождане
WebAlta (WebAlta Crawler/2.0)	Търсещ робот PS WebAlta
BomboraBot	Сканира страници, участващи в проекта Bombora
CCBot	Базиран на Nutch робот, който използва проекта Apache Hadoop
MSNBot	Бот PS MSN
Mail.Ru	Робот за търсене на Mail.Ru
ia_archiver	Извличане на данни за услугата Alexa
Теома	Попитайте сервизен бот

Има много търсачки, избрах само най-популярните и добре познати. Ако има ботове, които сте срещали поради агресивно и упорито обхождане на сайта, моля, посочете това в коментарите, аз също ще ги добавя в таблицата.

Роботите на търсачките, понякога наричани паяци или роботи, са софтуерни модулитърсене на уеб страници. Как действат? Какво всъщност правят? Защо са важни?

С целия шум около оптимизирането на търсачките и базите данни с индекси на търсачките, може би си мислите, че роботите трябва да са велики и мощни същества. Не е вярно. Роботите на търсачките имат само основни функции, подобни на тези на ранните браузъри по отношение на информацията, която могат да разпознаят в даден сайт. Подобно на ранните браузъри, роботите просто не могат да правят определени неща. Роботите не разбират рамки, Flash анимации, изображения или JavaScript. Те не могат да влизат в защитени с парола секции и не могат да кликват върху всички бутони, които са на сайта. Те могат да блокират в процеса на индексиране на динамични URL адреси и да бъдат много бавни, до точката на спиране и безсилни над навигацията в JavaScript.

Как работят роботите на търсачките?

Уеб роботите трябва да се разглеждат като автоматизирани програми за извличане на данни, които сърфират в мрежата в търсене на информация и връзки към информация.

Когато, след като сте посетили страницата за изпращане на URL, регистрирате друга уеб страница в търсачката, нов URL се добавя към опашката за преглед на сайтове от робота. Дори и да не регистрирате страница, много роботи ще намерят вашия сайт, защото има връзки от други сайтове, водещи към вашия. Това е една от причините, поради които е важно да се изгради популярност на връзките и да се поставят връзки на други тематични ресурси.

Когато дойдат на вашия сайт, роботите първо проверяват дали има файл robots.txt. Този файл казва на роботите кои секции от вашия сайт не трябва да бъдат индексирани. Обикновено това могат да бъдат директории, съдържащи файлове, от които роботът не се интересува или не трябва да знае.

Роботите съхраняват и събират връзки от всяка страница, която посещават, и по-късно следват тези връзки към други страници. всичко световна мрежаизграден от връзки. Първоначалната идея за създаване на интернет мрежата беше, че ще бъде възможно да се следват връзки от едно място на друго. Ето как се движат роботите.

Изобретателността за индексиране на страници в реално време зависи от инженерите на търсачките, които са измислили методите, използвани за оценка на информацията, получена от роботите на търсачките. вградени в базата данни търсачка, информацията е достъпна за потребители, които извършват търсения. Когато потребител на търсачка въведе термин за търсене, се правят поредица от бързи изчисления, за да се гарантира, че правилният набор от сайтове за най-подходящия отговор действително се връща.

Можете да видите кои страници от вашия сайт вече са били посетени от търсещия робот, ръководен от лог файловете на сървъра или резултатите от статистическата обработка на лог файла. Като идентифицирате роботите, можете да видите кога са посетили вашия сайт, кои страници и колко често. Някои роботи се разпознават лесно по имената си, като Googlebot на Google. Други са по-скрити, като Inktomis Slurp. Други роботи също могат да бъдат намерени в регистрационните файлове и е възможно да не можете веднага да ги идентифицирате; някои от тях може дори да са управлявани от хора браузъри.

В допълнение към идентифицирането на уникалните роботи и отчитането на броя на посещенията им, статистиката може също да ви покаже агресивни, изяждащи честотната лента роботи или роботи, които не искате да посещават вашия сайт.

Как те четат страниците на вашия уебсайт?

Когато роботът посети страница, той сканира нейния видим текст, съдържанието на различни тагове в нея програмен кодвашата страница (заглавен таг, мета тагове и др.), както и хипервръзки на страницата. Съдейки по думите на връзките, търсачката решава за какво е страницата. Има много фактори, използвани за изчисляване на ключовите точки на една страница, която „играе роля“. Всяка търсачка има свой собствен алгоритъм за оценка и обработка на информацията. В зависимост от това как е конфигуриран роботът, информацията се индексира и след това се доставя в базата данни на търсачката.

След това информацията, предоставена на базите данни на индекса на търсачката, става част от търсачката и процеса на класиране на базата данни. Когато посетител направи заявка, търсачката преминава през цялата база данни, за да върне окончателен списък, който е подходящ заявка за търсене.

База данни търсачкиса внимателно обработени и подравнени. Ако вече сте в базата данни, роботи ще ви посещават периодично, за да събират всички промени в страниците и да се уверят, че имат най-новата информация. Броят на посещенията зависи от настройките на търсачката, които могат да варират в зависимост от нейния вид и цел.

Понякога роботите за търсене не могат да индексират уебсайт. Ако вашият сайт се е сринал или голям брой посетители го посещават, роботът може да се окаже безсилен в опита си да го индексира. Когато това се случи, сайтът не може да бъде повторно индексиран, в зависимост от това колко често го посещава роботът. В повечето случаи роботите, които не са успели да достигнат до вашите страници, ще опитат по-късно с надеждата, че сайтът ви скоро ще бъде достъпен.

Много роботи не могат да бъдат идентифицирани, когато преглеждате регистрационните файлове. Може да ви посещават, но регистрационните файлове казват, че някой използва браузъра на Microsoft и т.н. Някои роботи се идентифицират с помощта на името на търсачка (googlebot) или неин клонинг (Scooter = AltaVista).

В зависимост от това как е конфигуриран роботът, информацията се индексира и след това се доставя в базите данни на търсачката.

Базите данни на търсачките подлежат на модификация по различно време. Дори директории, които имат вторични резултати от търсенето, използват данни от роботи като съдържание на своя уебсайт.

Всъщност роботите не се използват от търсачките само за горното. Има роботи, които проверяват бази данни за ново съдържание, посещават старо съдържание на база данни, проверяват дали връзките са се променили, изтеглят цели сайтове за сърфиране и т.н.

Поради тази причина четенето на регистрационните файлове и следенето на резултатите от търсачката ви помага да следите индексирането на вашите проекти.

робот за търсене извиква се специална програма на търсачка, която е предназначена да въвежда в базата данни (индексиране) сайтове, намерени в Интернет и техните страници. Използват се и имената: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип на действие

Роботът за търсене е програма от тип браузър. Той непрекъснато сканира мрежата: посещава индексирани (вече познати му) сайтове, следва връзки от тях и намира нови ресурси. Когато бъде намерен нов ресурс, роботът-процедура го добавя към индекса на търсачката. Роботът за търсене също индексира актуализации на сайтове, чиято честота е фиксирана. Например, сайт, който се актуализира веднъж седмично, ще бъде посещаван от паяк с тази честота, а съдържанието на новинарските сайтове може да бъде индексирано в рамките на минути след публикуването. Ако връзката от други ресурси не води към сайта, тогава, за да привлечете роботи за търсене, ресурсът трябва да бъде добавен чрез специална форма (Google Webmaster Center, Yandex Webmaster Panel и др.).

Видове роботи за търсене

Yandex паяци:

Yandex/1.01.001 I е основният индексиращ бот,
Yandex/1.01.001 (P) - индексира снимки,
Yandex/1.01.001 (H) - намира огледални сайтове,
Yandex/1.03.003 (D) - определя дали страницата, добавена от панела за уеб администратори, отговаря на параметрите за индексиране,
YaDirectBot/1.0 (I) - индексира ресурси от рекламната мрежа Yandex,
Yandex/1.02.000 (F) — индексира favicons на сайта.

Google Spiders:

Googlebot е основният робот,
Googlebot News - обхожда и индексира новини,
Google Mobile - индексира уебсайтове за мобилни устройства,
Googlebot Images - търси и индексира изображения,
Googlebot Video - индексира видеоклипове,
Google AdsBot - проверява качеството на целевата страница,
Google Mobile AdSense и Google AdSense - индексира сайтовете от рекламната мрежа на Google.

Други търсачки също използват няколко вида роботи, които са функционално подобни на изброените.

1.1.1. Компоненти на търсачката

Информацията в мрежата не само се попълва, но и постоянно се променя, но никой не казва на никого за тези промени. Отсъстващ една системавъвеждане на информация, която е достъпна едновременно за всички интернет потребители. Ето защо, за да се структурира информацията, да се предоставят на потребителите удобни средства за търсене на данни, бяха създадени търсачки.

Търсачките са различни видове. Някои от тях търсят информация въз основа на това, което хората влагат в тях. Това могат да бъдат директории, където информация за сайтове, техните Кратко описаниеили рецензиите се въвеждат от редактори. Те се търсят сред тези описания.

Последните събират информация в мрежата с помощта на специални програми. Това са търсачки, състоящи се, като правило, от три основни компонента:

Индекс;

търсачка.

агент, или по-често - паяк, робот (в англоезичната литература - spider, crawler), в търсене на информация заобикаля мрежата или определена част от нея. Този робот поддържа списък с адреси (URL), които може да посещава и индексира, изтегля документи, съответстващи на връзките, и ги анализира на редовни интервали за всяка търсачка. Полученото съдържание на страниците се записва от робота в по-компактна форма и се прехвърля в Индекса. Ако по време на анализа на страницата (документа) бъде открита нова връзка, роботът ще я добави към своя списък. Следователно всеки документ или сайт, който има връзки, може да бъде намерен от робота. И обратното, ако сайтът или част от него няма такива външни връзки, роботът може да не го намери.

Роботът не е просто събирач на информация. Той има доста развита "интелигентност". Роботите могат да търсят сайтове с определена тема, да генерират списъци със сайтове, сортирани по трафик, да извличат и обработват информация от съществуващи бази данни и да следват връзки с различна дълбочина на вмъкване. Но във всеки случай те предават цялата намерена информация в базата данни (Индекс) на търсачката.

Търсещите роботи са различни видове:

? Паяк(паяк) е програма, която изтегля уеб страници по същия начин като браузъра на потребителя. Разликата е, че браузърът показва информацията, съдържаща се на страницата (текст, графика и т.н.), докато паякът няма визуални компоненти и работи директно с HTML текста на страницата (подобно на това, което ще видите, ако включете прегледа на HTML кода във вашия браузър).

? Обхождане(краулер, "пътуващ" паяк) - подчертава всички връзки, присъстващи на страницата. Неговата задача е да определи къде следва да отиде паякът въз основа на връзки или въз основа на предварително зададен списък с адреси. Роботът, следвайки намерените връзки, търси нови документи, които все още не са известни на търсачката.

? Индексаторанализира страницата на нейните съставни части и ги анализира. Избират се и се анализират различни елементи на страницата, като текст, заглавия, структурни и стилови характеристики, специални сервизни HTML тагове и др.

Индекс- това е частта от търсачката, в която се търси информация. Индексът съдържа всички данни, които са му предадени от роботи, така че размерът на индекса може да достигне стотици гигабайти. Всъщност индексът съдържа копия на всички страници, посетени от роботи. Ако роботът открие промяна на страница, която вече е индексирал, той изпраща актуализирана информация към индекса. Тя трябва да замени съществуващата, но в някои случаи не само се появява нова страница в индекса, но и старата страница остава.

търсачкае самият интерфейс, чрез който посетителят взаимодейства с Индекса. Чрез интерфейса потребителите въвеждат своите заявки и получават отговори, а собствениците на сайтове ги регистрират (и тази регистрация е друг начин да предадете адреса на вашия сайт на робота). Когато обработва заявка, търсачката избира съответните страници и документи измежду многото милиони индексирани ресурси и ги подрежда по важност или релевантност за заявката.