Търсачки, търсачки и роботи паяци. Бъдещето на търсачките

Как работят роботите на търсачките

Роботът за търсене (паяк, бот) е a малка програма, способен да посещава милиони уебсайтове без участието на оператор и да сканира гигабайти текстове. Четенето на страниците и запазването на техните текстови копия е първият етап от индексирането на нови документи. Трябва да се отбележи, че роботите на търсачките не обработват получените данни. Тяхната задача е само да съхраняват текстова информация.

Още видеоклипове в нашия канал - научете интернет маркетинг със SEMANTICA

Списък с роботи за търсене

От всички търсачки, участващи в сканирането на Runet, Yandex има най-голямата колекция от ботове. Следните ботове отговарят за индексирането:

основният индексиращ робот, който събира данни от уеб страници;
бот, способен да разпознава огледала;
Yandex робот за търсене, който индексира изображения;
паяк, разглеждащ страниците на сайтове, приети в YAN;
икони на фавикони за сканиране на роботи;
няколко паяка, които определят наличността на страниците на сайта.

Основният робот за търсене на Google събира текстова информация. По принцип разглежда html файлове, анализира JS и CSS на редовни интервали. Може да приема всякакви типове съдържание, разрешени за индексиране. PS Google има паяк, който контролира индексирането на изображения. Има и робот за търсене - програма, която поддържа функционирането мобилна версияТърсене.

Вижте сайта през очите на робот за търсене

За да коригира грешки в кода и други недостатъци, уеб администраторът може да разбере как роботът за търсене вижда сайта. Тази опция се предоставя от Google PS. Ще трябва да отидете на инструментите за уеб администратори и след това да кликнете върху раздела „сканиране“. В прозореца, който се отваря, изберете реда „преглед като Googlebot“. След това трябва да въведете адреса на изследваната страница във формата за търсене (без да посочвате домейна и http:// протокола).

Избирайки командата "получете и покажете", уеб администраторът ще може визуално да оцени състоянието на страницата на сайта. За да направите това, трябва да кликнете върху квадратчето за отметка "заявка за показване". Ще се отвори прозорец с две версии на уеб документа. Уеб администраторът научава как редовният посетител вижда страницата и под каква форма е достъпна за паяка за търсене.

Съвет! Ако уеб документът, който се анализира, все още не е индексиран, тогава можете да използвате командата „добавяне към индекс“ >> „обхождане само на този URL“. Паякът ще анализира документа след няколко минути, в близко бъдеще уеб страницата ще се появи в резултатите от търсенето. Месечният лимит за заявка за индексиране е 500 документа.

Как да повлияем на скоростта на индексиране

След като разбере как работят роботите за търсене, уеб администраторът ще може да популяризира сайта си много по-ефективно. Един от основните проблеми на много млади уеб проекти е лошото индексиране. Роботите на търсачките не са склонни да посещават неавторитетни интернет ресурси.
Установено е, че скоростта на индексиране пряко зависи от интензивността, с която се актуализира сайтът. Редовното добавяне на уникални текстови материали ще привлече вниманието на търсачката.

За да ускорите индексирането, можете да използвате социални отметки и услугата twitter. Препоръчително е да генерирате карта на сайта и да я качите в основната директория на уеб проекта.

Преглеждайки регистрационните файлове на сървъра, понякога можете да наблюдавате прекомерен интерес към сайтове от роботи за търсене. Ако ботовете са полезни (например индексиращи ботове на PS), остава само да се наблюдава, дори ако натоварването на сървъра се увеличи. Но все още има много вторични роботи, чийто достъп до сайта не е необходим. За себе си и за вас, скъпи читателю, събрах информация и я превърнах в удобен таблет.

Кои са роботите за търсене

бот за търсене, или както още ги наричат, робот, пълзящ, паяк - нищо повече от програма, която търси и сканира съдържанието на сайтове, като щрака върху връзките на страниците.Роботите за търсене не са само за търсачките. Например услугата Ahrefs използва паяци, за да подобри данните за обратните връзки, Facebook извършва уеб сканиране на кода на страницата, за да покаже повторно публикуване на връзки със заглавия, снимки и описания. Уеб скрапингът е събиране на информация от различни ресурси.

Използване на имена на паяци в robots.txt

Както можете да видите, всеки сериозен проект, свързан с търсене на съдържание, има своите паяци. И понякога е спешна задача да ограничите достъпа на някои паяци до сайта или неговия отделни секции. Това може да стане чрез файла robots.txt в основната директория на сайта. Написах повече за настройката на роботите по-рано, препоръчвам ви да го прочетете.

Моля, обърнете внимание, че файлът robots.txt и неговите директиви могат да бъдат игнорирани от роботите за търсене. Директивите са само насоки за ботове.

Задайте директива за робот за търсенеМожете да използвате секцията - обръщение към потребителския агент на този робот. Секциите за различните паяци са разделени с един празен ред.

Потребителски агент: Googlebot Allow: /

Потребителски агент: Googlebot

позволява: /

Горното е пример за извикване на основния робот на Google.

Първоначално планирах да добавя записи към таблицата за това как ботовете за търсене се идентифицират в регистрационните файлове на сървъра. Но тъй като тези данни са от малко значение за SEO и може да има няколко вида записи за всеки токен на агент, беше решено да се мине само с името на ботовете и тяхната цел.

Роботи за търсене G o o g l e

потребителски агент	Функции
Googlebot	Основният индексатор за обхождане за страници, оптимизирани за компютър и смартфон
Mediapartners-Google	Робот за рекламна мрежа на AdSense
APIs-Google	APIs-потребителски агент на Google
AdsBot-Google	Проверява качеството на рекламите на уеб страници, предназначени за компютър
AdsBot-Google-Mobile	Проверява качеството на рекламите на уеб страници, предназначени за мобилни устройства
Изображение на Googlebot (Googlebot)	Индексира изображения на страниците на сайта
Googlebot Новини (Googlebot)	Търся страници за добавяне към Google Новини
Googlebot Video (Googlebot)	Индексира видео съдържание
AdsBot-Google-Mobile-Apps	Проверява качеството на рекламите в приложенията за Android устройства, работи на същите принципи като обикновения AdsBot

Роботи за търсене, които индексирам

потребителски агент	Функции
Яндекс	Когато този токен на агент е указан в robots.txt, заявката отива до всички ботове на Yandex
YandexBot	Основен робот за индексиране
YandexDirect	Изтегля информация за съдържанието на партньорските сайтове на YAN
YandexImages	Индексира изображения на сайта
YandexMetrika	Робот Yandex.Metrica
YandexMobileBot	Изтегля документи за анализ за наличие на оформление за мобилни устройства
YandexMedia	Робот индексира мултимедийни данни
YandexNews	Индексатор на Yandex.News
YandexPagechecker	Валидатор на микроданни
YandexMarket	робот Yandex.Market;
YandexCalenda	Робот Yandex.Calendar
YandexDirectDyn	Генерира динамични банери (директно)
YaDirectFetcher	Изтегля страници с реклами, за да провери наличността им и да изясни темите (YAN)
YandexAccessibilityBot	Изтегля страници, за да провери наличността им за потребителите
YandexScreenshotBot	Прави моментна снимка (екранна снимка) на страницата
YandexVideoParser	Yandex.Video услуга паяк
YandexSearchShop	Изтегля YML файлове на продуктови каталози
YandexOntoDBAPI	Робот за реакция на обект, изтеглящ динамични данни

Други популярни ботове за търсене

потребителски агент	Функции
Байдупаяк	Китайска търсачка Baidu spider
clickzbot	Cliqz анонимен робот за търсачки
AhrefsBot	Ahrefs търсач бот (анализ на връзки)
Genieo	Обслужващ робот Genieo
bingbot	Робот за търсене на Bing
Пълнене	Обхождане на търсачката на Yahoo
DuckDuckBot	Уеб робот PS DuckDuckGo
facebot	Facebook робот за уеб обхождане
WebAlta (WebAlta Crawler/2.0)	Търсещ робот PS WebAlta
BomboraBot	Сканира страници, участващи в проекта Bombora
CCBot	Базиран на Nutch робот, който използва проекта Apache Hadoop
MSNBot	Бот PS MSN
Mail.Ru	Робот за търсене на Mail.Ru
ia_archiver	Извличане на данни за услугата Alexa
Теома	Попитайте сервизен бот

Има много търсачки, избрах само най-популярните и добре познати. Ако има ботове, които сте срещали поради агресивно и упорито обхождане на сайта, моля, посочете това в коментарите, аз също ще ги добавя в таблицата.

Има висше образование - обучение за масажист.

Има повече от сто милиона ресурси в интернет и милиони желаните странициникога няма да ни бъде известна. Как да намерим капката, от която се нуждаем в този океан? Тук ни идва на помощ. Търсенесобствена машина. Това паяк, и само той знае какво и на кое място в мрежата има.

Търсененови машини интернетах, това са сайтове, специално създадени да ви помогнат да намерите необходимата информация V глобална мрежасветовната мрежа. Има три основни функции, еднакви за всички Търсененови машини:

- Търсене oviks по дадените ключови думи "търси" в интернет;
- индексирани адреси Търсене ovikami заедно с думи;
- индексираните уеб страници формират основата, която Търсене oviki предоставя на потребителите ТърсенеА ключови думиили комбинации от тях.

Първо Търсене Hoviki получава до 2000 заявки на ден и индексира стотици хиляди страници. Днес броят на заявките на ден достига стотици милиони страници и десетки милиони.

Птърсачки до световната мрежа.

Първо Търсене ovikami интернети имаше програми "gopher" и "Archie". Те индексират файлове, разположени на свързан интернетсървъри, многократно намаляване на времето за Търсененеобходимите документи. В края на 1980 г. способността за работа в интернетне се сведе до възможността да се използва Archie, gopher, Veronica и други подобни Търсененови програми.

Днес Мрежастана най-търсената част интернети мнозинството интернетпотребителите извършват Търсенесамо в световната мрежа (www).

робот- паяк

Програмата за роботи, използвана в Търсененови машини, нарича се още "паяк", паяк(паяк), изпълнява процеса на създаване на списък с думи, намиращи се на страницата на wed-resource. Процесът се нарича Обхождане на мрежата(пълзене). Търсененов паякпреглежда много други страници, изгражда и коригира списък с полезни думи, т.е. имащи някакво значение, тежест.

Пътуване през Търсене u в мрежата паяк (паяк) започва с най-големия сървър и най-популярните уеб страници. След като заобиколи такъв сайт и индексира всички намерени думи, той отива да обходи други сайтове, използвайки намерените връзки. По този начин роботът паякулавя цялото уеб пространство.

Основателите на Google Сергей Брин и Лорънс Пейдж дават пример за работата на Google паяков. Има няколко. Търсенезапочва три паяк ami. един паякподдържа до 300 връзки към страници едновременно. Пиково натоварване, четири паяки са способни да обработват до сто страници в секунда, като същевременно генерират трафик от около 600 килобайта/сек. На този момент, когато прочетете това, може би числата ще ви се сторят смешни.

Ключови думи за робота на търсачката

Обикновено собственикът на уеб ресурс иска да бъде включен Търсененови резултати за необходимите Търсенеой думи. Тези думи се наричат ключс. КлючевДумите определят същността на съдържанието на една уеб страница. И мета таговете помагат за това. След това те предлагат на робота за търсене избор ключ th думи, използвани за индексиране на страницата. Но ние не препоръчваме добавяне на мета тагове към популярни заявки, които не са свързани със съдържанието на самата страница. Ботовете на търсачките се борят с това явление и ще имате късмет, ако просто пропусне мета таговете с ключс други думи, не отговарят на съдържанието на страниците.

Мета таговете са много полезен инструмент, когато ключПървите думи от тях се повтарят няколко пъти в текста на страницата. Но не прекалявайте, има шанс роботът да приеме страницата за врата.

Алгоритми за индексиране на търсачките

Алгоритми Търсене Hoviks се фокусират върху ефективността на крайния резултат, но всеки има различни подходи към това. Ликос ТърсенеНовите роботи индексират думите в заглавието (title), връзките (links) и до сто често използвани думи на страницата и всяка дума от първите 20 реда от съдържанието на страницата.

Googlebot взема предвид местоположението на думата на страницата (в елемента body). Словесни раздели, като напр субтитри, заглавие, мета таговеи др., отбелязва като особено важно, като изключва междуметията "a", "an" и "the.".

други Търсене oviki може да има малко по-различен подход към индексирането на думите, използвани за Търсененови заявки от потребители.

Роботите на търсачките, понякога наричани паяци или роботи, са софтуерни модулитърсене на уеб страници. Как действат? Какво всъщност правят? Защо са важни?

С целия шум около оптимизирането на търсачките и базите данни с индекси на търсачките, може би си мислите, че роботите трябва да са велики и мощни същества. Не е вярно. Роботите на търсачките имат само основни функции, подобни на тези на ранните браузъри по отношение на информацията, която могат да разпознаят в даден сайт. Подобно на ранните браузъри, роботите просто не могат да правят определени неща. Роботите не разбират рамки, Flash анимации, изображения или JavaScript. Те не могат да влизат в защитени с парола секции и не могат да кликват върху всички бутони, които са на сайта. Те могат да блокират в процеса на индексиране на динамични URL адреси и да бъдат много бавни, до точката на спиране и безсилни над навигацията в JavaScript.

Как работят роботите на търсачките?

Уеб роботите трябва да се разглеждат като автоматизирани програми за извличане на данни, които сърфират в мрежата в търсене на информация и връзки към информация.

Когато, след като сте посетили страницата за изпращане на URL, регистрирате друга уеб страница в търсачката, нов URL се добавя към опашката за преглед на сайтове от робота. Дори и да не регистрирате страница, много роботи ще намерят вашия сайт, защото има връзки от други сайтове, водещи към вашия. Това е една от причините, поради които е важно да се изгради популярност на връзките и да се поставят връзки на други тематични ресурси.

Когато дойдат на вашия сайт, роботите първо проверяват дали има файл robots.txt. Този файл казва на роботите кои секции от вашия сайт не трябва да бъдат индексирани. Обикновено това могат да бъдат директории, съдържащи файлове, от които роботът не се интересува или не трябва да знае.

Роботите съхраняват и събират връзки от всяка страница, която посещават, и по-късно следват тези връзки към други страници. Цялата световна мрежа е изградена от връзки. Първоначалната идея за създаване на интернет мрежата беше, че ще бъде възможно да се следват връзки от едно място на друго. Ето как се движат роботите.

Изобретателността за индексиране на страници в реално време зависи от инженерите на търсачките, които са измислили методите, използвани за оценка на информацията, получена от роботите на търсачките. Веднъж вградена в база данни на търсачката, информацията е достъпна за потребителите, които извършват търсения. Когато потребител на търсачка въведе термин за търсене, се правят поредица от бързи изчисления, за да се гарантира, че правилният набор от сайтове за най-подходящия отговор действително се връща.

Можете да видите кои страници от вашия сайт вече са били посетени от търсещия робот, ръководен от лог файловете на сървъра или резултатите от статистическата обработка на лог файла. Като идентифицирате роботите, можете да видите кога са посетили вашия сайт, кои страници и колко често. Някои роботи се разпознават лесно по имената си, като Googlebot на Google. Други са по-скрити, като Inktomis Slurp. Други роботи също могат да бъдат намерени в регистрационните файлове и е възможно да не можете веднага да ги идентифицирате; някои от тях може дори да са управлявани от хора браузъри.

В допълнение към идентифицирането на уникалните роботи и отчитането на броя на посещенията им, статистиката може също да ви покаже агресивни, изяждащи честотната лента роботи или роботи, които не искате да посещават вашия сайт.

Как те четат страниците на вашия уебсайт?

Когато роботът посети страница, той сканира нейния видим текст, съдържанието на различни тагове в нея програмен кодвашата страница (заглавен таг, мета тагове и др.), както и хипервръзки на страницата. Съдейки по думите на връзките, търсачката решава за какво е страницата. Има много фактори, използвани за изчисляване на ключовите точки на една страница, която „играе роля“. Всяка търсачка има свой собствен алгоритъм за оценка и обработка на информацията. В зависимост от това как е конфигуриран роботът, информацията се индексира и след това се доставя в базата данни на търсачката.

След това информацията, предоставена на базите данни на индекса на търсачката, става част от търсачката и процеса на класиране на базата данни. Когато посетител направи заявка, търсачката преминава през цялата база данни, за да върне окончателен списък, който е подходящ заявка за търсене.

Базите данни на търсачките се обработват внимателно и подравняват. Ако вече сте в базата данни, роботи ще ви посещават периодично, за да събират всички промени в страниците и да се уверят, че имат най-новата информация. Броят на посещенията зависи от настройките на търсачката, които могат да варират в зависимост от нейния вид и цел.

Понякога роботите за търсене не могат да индексират уебсайт. Ако вашият сайт се е сринал или голям брой посетители го посещават, роботът може да се окаже безсилен в опита си да го индексира. Когато това се случи, сайтът не може да бъде повторно индексиран, в зависимост от това колко често го посещава роботът. В повечето случаи роботите, които не са успели да достигнат до вашите страници, ще опитат по-късно с надеждата, че сайтът ви скоро ще бъде достъпен.

Много роботи не могат да бъдат идентифицирани, когато преглеждате регистрационните файлове. Може да ви посещават, но регистрационните файлове казват, че някой използва браузъра на Microsoft и т.н. Някои роботи се идентифицират с помощта на името на търсачка (googlebot) или неин клонинг (Scooter = AltaVista).

В зависимост от това как е конфигуриран роботът, информацията се индексира и след това се доставя в базите данни на търсачката.

Базите данни на търсачките подлежат на модификация по различно време. Дори директории, които имат вторични резултати от търсенето, използват данни от роботи като съдържание на своя уебсайт.

Всъщност роботите не се използват от търсачките само за горното. Има роботи, които проверяват бази данни за ново съдържание, посещават старо съдържание на база данни, проверяват дали връзките са се променили, изтеглят цели сайтове за сърфиране и т.н.

Поради тази причина четенето на регистрационните файлове и следенето на резултатите от търсачката ви помага да следите индексирането на вашите проекти.

робот за търсене Наречен специална програмавсяка търсачка, която е предназначена да въвежда в базата данни (индексира) намерените в интернет сайтове и техните страници. Използват се и имената: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип на действие

Роботът за търсене е програма от тип браузър. Той непрекъснато сканира мрежата: посещава индексирани (вече познати му) сайтове, следва връзки от тях и намира нови ресурси. Когато бъде намерен нов ресурс, роботът-процедура го добавя към индекса на търсачката. Роботът за търсене също индексира актуализации на сайтове, чиято честота е фиксирана. Например, сайт, който се актуализира веднъж седмично, ще бъде посещаван от паяк с тази честота, а съдържанието на новинарските сайтове може да бъде индексирано в рамките на минути след публикуването. Ако връзката от други ресурси не води към сайта, тогава, за да привлечете роботи за търсене, ресурсът трябва да бъде добавен чрез специална форма (Google Webmaster Center, Yandex Webmaster Panel и др.).

Видове роботи за търсене

Yandex паяци:

Yandex/1.01.001 I е основният индексиращ бот,
Yandex/1.01.001 (P) - индексира снимки,
Yandex/1.01.001 (H) - намира огледални сайтове,
Yandex/1.03.003 (D) - определя дали страницата, добавена от панела за уеб администратори, отговаря на параметрите за индексиране,
YaDirectBot/1.0 (I) - индексира ресурси от рекламната мрежа Yandex,
Yandex/1.02.000 (F) — индексира favicons на сайта.

Google Spiders:

Googlebot е основният робот,
Googlebot News - обхожда и индексира новини,
Google Mobile - индексира уебсайтове за мобилни устройства,
Googlebot Images - търси и индексира изображения,
Googlebot Video - индексира видеоклипове,
Google AdsBot - проверява качеството на целевата страница,
Google Mobile AdSense и Google AdSense - индексира сайтовете от рекламната мрежа на Google.

Други търсачки също използват няколко вида роботи, които са функционално подобни на изброените.