Яку роботу виконують роботи павуки пошукових систем? Пошук інформації у Web

Переглядаючи серверні логи, іноді можна спостерігати надмірний інтерес до сайтів з боку пошукових роботів. Якщо боти корисні (наприклад, боти ПС, що індексують) — залишається лише спостерігати, навіть якщо збільшується навантаження на сервер. Але є ще безліч другорядних роботів, доступ яких до сайту не обов'язковий. Для себе та для вас, дорогий читачу, я зібрав інформацію та переробив її у зручну табличку.

Хто такі пошукові роботи

Пошуковий бот, або як їх ще називають, робот, краулер, павук — ні що інше, як програма, яка здійснює пошук та сканування вмісту сайтів, переходячи за посиланнями на сторінках.Пошукові роботи є не тільки у пошукових систем. Наприклад, сервіс Ahrefs використовує павуків, щоб покращити дані щодо зворотних посилань, Facebook здійснює веб-скрапінг коду сторінок для відображення репостів посилань із заголовками, картинкою, описом. Веб-скрапінг – це збір інформації з різних ресурсів.

Використання імен павуків у robots.txt

Як бачимо, будь-який серйозний проект, пов'язаний із пошуком контенту, має своїх павуків. І іноді гостро постає завдання обмежити доступ деяким павукам до сайту або його окремим розділам. Це можна зробити через файл robots.txt у кореневій директорії сайту. Докладніше про налаштування роботи я писав раніше, рекомендую ознайомитися.

Зверніть увагу – файл robots.txt та його директиви можуть бути проігноровані пошуковими роботами. Директиви є лише рекомендаціями для роботів.

Задати директиву для пошукового робота можна, використовуючи секцію - звернення до користувача цього робота. Секції для різних павуків поділяються одним порожнім рядком.

User-agent: Googlebot Allow: /

User-agent: Googlebot

Allow : /

Вище наведено приклад звернення до основної пошукової роботи Google.

Спочатку я планував додати до таблиці записи про те, як ідентифікують себе пошукові роботи в логах сервера. Але так як для SEO ці дані мають мало значення і для кожного токена агента може бути кілька видів записів, було вирішено обійтися лише назвою ботів та їх призначенням.

Пошукові роботи G o o g l e

User-agent	Функції
Googlebot	Основний краулер-індексатор сторінок для ПК та оптимізованих для смартфонів
Mediapartners-Google	Робот рекламної мережі AdSense
APIs-Google	Агент користувача APIs-Google
AdsBot-Google	Перевіряє якість реклами на веб-сторінках, призначених для ПК
AdsBot-Google-Mobile	Перевіряє якість реклами на веб-сторінках для мобільних пристроїв.
Googlebot-Image (Googlebot)	Індексує зображення на сторінках сайту
Googlebot-News (Googlebot)	Шукає сторінки для додавання до Google Новини
Googlebot-Video (Googlebot)	Індексує відеоматеріали
AdsBot-Google-Mobile-Apps	Перевіряє якість реклами у додатках для пристроїв Androidпрацює за тими ж принципами, що і звичайний AdsBot

Пошукові роботи Я ндекс

User-agent	Функції
Yandex	При зазначенні даного токена агента в robots.txt звернення йде до всіх бот Яндекса
YandexBot	Основний індексуючий робот
YandexDirect	Завантажує інформацію про контент сайтів-партнерів РСЯ
YandexImages	Індексує зображення сайтів
YandexMetrika	Робот Яндекс.Метрики
YandexMobileBot	Завантажує документи для аналізу на наявність верстки під мобільні пристрої
YandexMedia	Робот, що індексує мультимедійні дані
YandexNews	Індексатор Яндекс.Новин
YandexPagechecker	Валідатор мікророзмітки
YandexMarket	Робот Яндекс.Маркета;
YandexCalenda	Робот Яндекс.Календаря
YandexDirectDyn	Генерує динамічні банери (Директ)
YaDirectFetcher	Завантажує сторінки з рекламними оголошеннями для перевірки їх доступності та уточнення тематики (РМЯ)
YandexAccessibilityBot	Завантажує сторінки для перевірки їх доступності користувачам
YandexScreenshotBot	Робить знімок (скриншот) сторінки
YandexVideoParser	Павук сервісу Яндекс.Відео
YandexSearchShop	Завантажує YML-файли каталогів товарів
YandexOntoDBAPI	Робот об'єктної відповіді, що завантажує динамічні дані

Інші популярні пошукові боти

User-agent	Функції
Baiduspider	Спайдер китайської пошукової системи Baidu
Cliqzbot	Робот анонімної пошукової системи Cliqz
AhrefsBot	Пошуковий бот сервісу Ahrefs (посилальний аналіз)
Genieo	Робот сервісу Genieo
Bingbot	Краулер пошукової системи Bing
Slurp	Краулер пошукової системи Yahoo
DuckDuckBot	Веб-краулер ПС DuckDuckGo
facebot	Робот Facebook для веб-краулінгу
WebAlta (WebAlta Crawler/2.0)	Пошуковий краулер ПС WebAlta
BomboraBot	Сканує сторінки, задіяні у проекті Bombora
CCBot	Краулер на основі Nutch, який використовує проект Apache Hadoop
MSNBot	Бот ПС MSN
Mail.Ru	Краулер пошукової системи Mail.Ru
ia_archiver	Скраппіт дані для сервісу Alexa
Teoma	Бот сервісу Ask

Пошукових ботів дуже багато, я відібрав лише найпопулярніших та найвідоміших. Якщо є боти, з якими ви стикалися через агресивне та наполегливе сканування сайтів, прошу в коментарях вказати це, я додам їх також до таблиці.

Роботи пошукової системи, іноді їх називають "павуки" або "кроулери" (crawler) - це програмні модулі, що займаються пошуком веб-сторінок. Як вони працюють? Що ж вони роблять насправді? Чому вони важливі?

Враховуючи весь шум навколо пошукової оптимізації та індексних баз даних пошукових систем, ви, напевно, думаєте, що роботи мають бути великі і могутні істоти. Неправда. Роботи пошукача мають лише базові функції, схожі на ті, якими володіли одні з перших броузерів, щодо того, яку інформацію вони можуть розпізнати на сайті. Як і ранні броузери, роботи просто не можуть робити певні речі. Роботи не розуміють фреймів, Flash анімацій, зображень чи JavaScript. Вони не можуть зайти в розділи, захищені паролем і не можуть натискати на всі кнопочки, які є на сайті. Вони можуть заткнутися в процесі індексування динамічних адрес URL і працювати дуже повільно, аж до зупинки та безсилля над JavaScript-навігацією.

Як працюють роботи пошукової машини?

Пошукові роботи варто сприймати як програми автоматизованого отримання даних, що подорожують по мережі в пошуках інформації та посилань на інформацію.

Коли, зайшовши на сторінку Submit a URL, ви реєструєте чергову web-сторінку в пошуковій системі - в чергу для перегляду сайтів роботом додається новий URL. Навіть якщо ви не реєструєте сторінку, безліч роботів знайде ваш сайт, оскільки існують посилання з інших сайтів, що посилаються на ваш сайт. Ось одна з причин, чому важливо будувати популярність посилань і розміщувати посилання на інших тематичних ресурсах.

Прийшовши на ваш сайт, роботи спочатку перевіряють, чи файл robots.txt. Цей файл повідомляє роботам, які розділи вашого сайту не підлягають індексації. Зазвичай це можуть бути директорії, що містять файли, якими робот не цікавиться або не слід знати.

Роботи зберігають та збирають посилання з кожної сторінки, яку вони відвідують, а пізніше проходять за цими посиланнями на інші сторінки. Вся Всесвітня мережапобудована із посилань. Початкова ідея створення Інтернет мережі була в тому, щоб була можливість переміщатися за посиланнями від одного місця до іншого. Ось так переміщуються роботи.

Дотепність щодо індексування сторінок у реальному режимі часу залежить від інженерів пошукових машин, які винайшли методи, що використовуються для оцінки інформації, яку отримують пошукові роботи. Будучи впроваджена до бази даних пошукової машиниінформація доступна користувачам, які здійснюють пошук. Коли користувач пошукової машини вводить пошуковий запит, виконується ряд швидких обчислень для впевненості в тому, що видається дійсно правильний набір сайтів для найбільш релевантної відповіді.

Ви можете переглянути, які сторінки вашого сайту вже відвідав пошуковий робот, керуючись лог-файлами сервера або результатами статистичної обробки лог-файлу. Ідентифікуючи роботів, ви побачите, коли вони відвідали ваш сайт, які сторінки та як часто. Деякі роботи легко ідентифікуються за своїми іменами, як Googlebots. Інші більш приховані, наприклад, Inktomis Slurp. Інші роботи також можуть зустрічатися в логах і не виключено, що ви не зможете відразу їх ідентифікувати; деякі з них можуть виявитися навіть броузерами, якими керують люди.

Окрім ідентифікації унікальних пошукових роботів та підрахунку кількості їх візитів, статистика також може показати вам агресивних, що поглинають ширину катала пропускання роботів або роботів, небажаних для відвідування вашого сайту.

Як вони читають сторінки вашого веб-сайту?

Коли пошуковий робот відвідує сторінку, він переглядає її видимий текст, зміст різних тегів у вихідний кодвашої сторінки (title tag, meta tags, тощо), а також гіперпосилання на сторінці. Судячи зі слів посилань, пошукова машина вирішує, про що сторінка. Є багато факторів, що використовуються для обчислення ключових моментів сторінки, що «грають роль». Кожна пошукова машина має свій власний алгоритм для оцінки та обробки інформації. Залежно від того, як робот налаштований, інформація індексується, а потім доставляється до бази даних пошукової системи.

Після цього інформація, доставлена в індексні бази даних пошукової системи, стає частиною пошуковика та процесу ранжування в базі. Коли відвідувач запитує, пошуковик переглядає всю базу даних для видачі кінцевого списку, релевантного пошуковому запиту.

Бази даних пошукових системпіддаються ретельній обробці та приведенню у відповідність. Якщо ви вже потрапили в базу даних, роботи будуть відвідувати вас періодично для збору будь-яких змін на сторінках і впевненості в тому, що мають останню інформацію. Кількість відвідувань залежить від установок пошукової машини, які можуть змінюватись від її виду та призначення.

Іноді пошукові роботи не в змозі проіндексувати веб-сайт. Якщо ваш сайт впав або на сайт йде велика кількість відвідувачів, робот може бути безсилим у спробах його індексації. Коли таке відбувається, сайт не може бути переіндексований, що залежить від частоти відвідування роботом. У більшості випадків, роботи, які не змогли досягти ваших сторінок, спробують пізніше, сподіваючись, що ваш сайт найближчим часом буде доступний.

Багато пошукових робіт не можуть бути ідентифіковані, коли ви переглядаєте логи. Вони можуть відвідувати вас, але логи стверджують, що хтось використовує Microsoft броузер і т.д. Деякі роботи ідентифікують себе використанням імені пошукової системи (googlebot) або його клону (Scooter = AltaVista).

Залежно від того, як робот налаштований, інформація індексується, а потім доставляється до баз даних пошукової машини.

Бази даних пошукових машин піддаються модифікації у різні терміни. Навіть директорії, що мають вторинні пошукові результати, використовують дані роботів як зміст свого web-сайту.

Власне, роботи не використовуються пошуковими системами лише для вищевикладеного. Існують роботи, які перевіряють бази даних на наявність нового змісту, відвідують старий вміст бази, перевіряють, чи не змінилися посилання, завантажують цілі сайти для перегляду і так далі.

Тому читання лог-файлів і стеження за видачею пошукової системи допомагає вам спостерігати за індексацією ваших проектів.

Пошуковим роботом називається спеціальна програма будь-якої пошукової системи, яка призначена для занесення до бази (індексування) знайдених в Інтернеті сайтів та їх сторінок. Також використовуються назви: краулер, павук, бот, автоматичнийindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип роботи

Пошуковий робот – це програма браузерного типу. Він постійно сканує мережу: відвідує проіндексовані (вже відомі йому) сайти, переходить за посиланнями з них та знаходить нові ресурси. При виявленні нового ресурсу робот процедур додає його до індексу пошуковика. Пошуковий робот також індексує поновлення на сайтах, періодичність яких фіксується. Наприклад, оновлюваний раз на тиждень сайт відвідуватиметься павуком з цією частотою, а контент на сайтах новин може потрапити в індекс вже через кілька хвилин після публікації. Якщо на сайт не веде жодне посилання з інших ресурсів, для залучення пошукових роботів ресурс необхідно додати через спеціальну форму (Центр вебмайстрів Google, панель вебмайстра Яндекс і т.д.).

Види пошукових роботів

Павуки Яндекса:

Yandex/1.01.001 I - основний бот, що займається індексацією,
Yandex/1.01.001 (P) - індексує картинки,
Yandex/1.01.001 (H) — знаходить дзеркала сайтів,
Yandex/1.03.003 (D) — визначає, чи відповідає сторінка, додана з панелі вебмайстра, параметрам індексації,
YaDirectBot/1.0 (I) - індексує ресурси з рекламної мережі Яндекса,
Yandex/1.02.000 (F) - індексує фавікон сайтів.

Павуки Google:

Робот Googlebot - основний робот,
Googlebot News — сканує та індексує новини,
Google Mobile - індексує сайти для мобільних пристроїв,
Googlebot Images — шукає та індексує зображення,
Googlebot Video - індексує відео,
Google AdsBot — перевіряє якість цільової сторінки,
Google Mobile AdSense та Google AdSense – індексує сайти рекламної мережі Google.

Інші пошукові системи також використовують роботів декількох видів, функціонально схожих з перерахованими.

1.1.1. Компоненти пошукових машин

Інформація в Мережі не тільки поповнюється, а й постійно змінюється, але про ці зміни ніхто не повідомляє. Відсутнє єдина системазанесення інформації, одночасно доступна всім користувачів Інтернету. Тому з метою структурування інформації, надання користувачам зручних засобів пошуку даних було створено пошукові машини.

Пошукові системи бувають різних видів. Одні з них шукають інформацію на основі того, що в них заклали люди. Це можуть бути каталоги, куди відомості про сайти, їх короткий описабо огляди заносять редактори. Пошук у них ведеться серед цих описів.

Другі збирають інформацію у Мережі, використовуючи спеціальні програми. Це пошукові машини, що складаються, як правило, із трьох основних компонентів:

Індексу;

Пошуковий механізм.

Агент, або звичніше - павук, робот (в англомовної літературі - spider, crawler), у пошуках інформації обходить мережу чи її певну часть. Цей робот зберігає список адрес (URL), які він може відвідати та проіндексувати, з певною для кожної пошукової машини періодичністю завантажує відповідні посиланням документи та аналізує їх. Отриманий вміст сторінок зберігається роботом більш компактному вигляді і передається в Індекс. Якщо при аналізі сторінки (документа) буде виявлено нове посилання, робот додасть його до свого списку. Тому будь-який документ чи сайт, на який є посилання, може бути знайдений роботом. І навпаки, якщо на сайт чи будь-яку його частину немає жодних зовнішніх посиланьробот може його не знайти.

Робот - це не просто збирач інформації. Він має досить розвинений "інтелект". Роботи можуть шукати сайти певної тематики, формувати списки сайтів, відсортованих за відвідуваністю, отримувати та обробляти інформацію з існуючих баз даних, можуть виконувати переходи за посиланнями різної глибини вкладеності. Але в будь-якому випадку всю знайдену інформацію вони передають базі даних (Індексу) пошукової машини.

Пошукові роботи бувають різних типів:

? Spider(павук) - це програма, яка завантажує веб-сторінки тим самим способом, що й браузер користувача. Відмінність полягає в тому, що браузер відображає інформацію, що міститься на сторінці (текстову, графічну і т. д.), а павук не має жодних візуальних компонентів і працює безпосередньо з HTML-текстом сторінки (аналогічно тому, що ви побачите, якщо увімкнете перегляд HTML-код у вашому браузері).

? Crawler(краулер, що "мандрує" павук) - виділяє всі посилання, присутні на сторінці. Його завдання - визначити, куди далі має йти павук, спираючись на посилання або виходячи із заздалегідь заданого списку адрес. Краулер, слідуючи за знайденими посиланнями, здійснює пошук нових документів, ще невідомих пошуковій системі.

? Індексаторрозбирає сторінку на складові та аналізує їх. Виділяються та аналізуються різні елементи сторінки, такі як текст, заголовки, структурні та стильові особливості, спеціальні службові HTML-теги тощо.

Індекс- Це та частина пошукової машини, в якій здійснюється пошук інформації. Індекс містить усі дані, які були передані йому роботами, тому розмір індексу може досягати сотень гігабайт. Практично в індексі знаходяться копії всіх відвіданих роботами сторінок. Якщо робот виявив зміну на вже проіндексованій ним сторінці, він передає в Індекс оновлену інформацію. Вона повинна заміщати існуючу, але в ряді випадків в Індексі з'являється не тільки нова, але і стара сторінка.

Пошуковий механізм- це той самий інтерфейс, за допомогою якого відвідувач взаємодіє з індексом. Через інтерфейс користувачі вводять свої запити та отримують відповіді, а власники сайтів реєструють їх (і ця реєстрація – ще один спосіб донести до робота адресу свого сайту). При обробці запиту пошуковий механізм виконує відбір відповідних сторінок і документів серед багатьох мільйонів проіндексованих ресурсів і вибудовує їх у порядку важливості або відповідності запиту.