Пошукові машини, пошуковики та роботи-павуки. Майбутнє пошукових систем

Як функціонують роботи пошукових систем

Пошуковий робот (павук, бот) є невелику програму, здатну без участі оператора відвідувати мільйони веб-сайтів та сканувати гігабайти текстів. Зчитування сторінок та збереження їх текстових копій – це перша стадія індексації нових документів. Слід зазначити, що роботи пошукових систем не здійснюють будь-якої обробки отриманих даних. У їхнє завдання входить лише збереження текстової інформації.

Більше відео на нашому каналі - вивчайте інтернет-маркетинг із SEMANTICA

Список пошукових роботів

З усіх пошукачів, що займаються скануванням Рунета, найбільшу колекцію ботів має Яндекс. За індексацію відповідають такі роботи:

головний індексуючий робот, який збирає дані зі сторінок web-сайтів;
бот, здатний розпізнавати дзеркала;
пошуковий робот Яндекс, який здійснює індексацію картинок;
павук, який переглядає сторінки сайтів, прийнятих у РСЯ;
робот сканування іконок favicon;
кілька павуків, які визначають доступність сторінок сайту.

Головний пошуковий робот Google займається збиранням текстової інформації. В основному він переглядає html-файли, з певною періодичністю аналізує JS та CSS. Здатний приймати будь-які типи контенту, дозволені до індексації. ПС Google має павук, що контролює індексацію зображень. Є також пошуковий робот – програма, яка підтримує функціонування мобільної версіїпошуку.

Побачити сайт очима пошукового робота

Щоб виправити помилки коду та інші недоліки, вебмастер може дізнатися, як бачить сайт пошуковий робот. Цю можливість надає ПС Google. Потрібно перейти в інструменти для вебмайстрів, а потім натиснути на вкладку «сканування». У вікні потрібно вибрати рядок «переглянути як Googlebot». Далі потрібно завести адресу досліджуваної сторінки в пошукову форму (без зазначення домену та протоколу http://).

Вибравши команду «отримати та відобразити», вебмастер зможе візуально оцінити стан сторінки сайту. Для цього знадобиться натиснути на галочку «запит на відображення». Відкриється вікно із двома версіями web-документа. Вебмайстр дізнається, як бачить сторінку звичайний відвідувач, і в якому вигляді вона доступна для пошукового павука.

Якщо аналізований web-документ ще не проіндексований, то можна скористатися командою «додати в індекс» >> «сканувати тільки цей URL». Павук проаналізує документ за кілька хвилин, найближчим часом web-сторінка з'явиться у видачі. Місячний ліміт запитів на індексацію складає 500 документів.

Як вплинути на швидкість індексування

З'ясувавши, як працюють пошукові роботи, вебмайстер зможе набагато результативніше просувати свій сайт. Однією з основних проблем багатьох молодих веб-проектів є погана індексація. Роботи пошукових систем неохоче відвідують неавторитетні інтернет ресурси.
Встановлено, що швидкість індексації залежить від того, з якою інтенсивністю оновлюється сайт. Регулярне додавання унікальних текстових матеріалів дозволить привернути увагу пошукової системи.

Для прискорення індексації можна скористатися соцзакладками та сервісом twitter. Рекомендується сформувати карту сайту Sitemap та завантажити її у кореневу директорію web-проекту.

Переглядаючи серверні логі, іноді можна спостерігати надмірний інтерес до сайтів з боку пошукових роботів. Якщо боти корисні (наприклад, що індексують боти ПС) залишається лише спостерігати, навіть якщо збільшується навантаження на сервер. Але є ще безліч другорядних роботів, доступ яких до сайту не обов'язковий. Для себе і для вас, дорогий читачу, я зібрав інформацію та переробив її у зручну табличку.

Хто такі пошукові роботи

Пошуковий бот, або як їх ще називають, робот, краулер, павук — ні що інше, як програма, яка здійснює пошук та сканування вмісту сайтів, переходячи за посиланнями на сторінках.Пошукові роботи є не тільки у пошукових систем. Наприклад, сервіс Ahrefs використовує павуків, щоб покращити дані за зворотними посиланнями, Facebook здійснює веб-скрапінг коду сторінок для відображення репостів посилань із заголовками, картинкою, описом. Веб-скрапінг – це збір інформації з різних ресурсів.

Використання імен павуків у robots.txt

Як бачимо, будь-який серйозний проект, пов'язаний із пошуком контенту, має своїх павуків. І іноді гостро постає завдання обмежити доступ деяким павукам до сайту або його окремим розділам. Це можна зробити через файл robots.txt у кореневій директорії сайту. Докладніше про налаштування робота я писав раніше, рекомендую ознайомитися.

Зверніть увагу – файл robots.txt та його директиви можуть бути проігноровані пошуковими роботами. Директиви є лише рекомендаціями для роботів.

Задати директиву для пошукового робота можна, використовуючи секцію - звернення до користувача-агенту цього робота. Секції для різних павуків поділяються одним порожнім рядком.

User-agent: Googlebot Allow: /

User-agent: Googlebot

Allow : /

Вище наведено приклад звернення до основного пошукового роботу Google.

Спочатку я планував додати до таблиці запису про те, як ідентифікують себе пошукові роботи в логах сервера. Але так як для SEO ці дані мають мало значення і для кожного токена агента може бути кілька видів записів, було вирішено обійтися лише назвою ботів та їх призначенням.

Пошукові роботи G o o g l e

User-agent	Функції
Googlebot	Основний краулер-індексатор сторінок для ПК та оптимізованих для смартфонів
Mediapartners-Google	Робот рекламної мережі AdSense
APIs-Google	Агент користувача APIs-Google
AdsBot-Google	Перевіряє якість реклами на веб-сторінках, призначених для ПК
AdsBot-Google-Mobile	Перевіряє якість реклами на веб-сторінках для мобільних пристроїв.
Googlebot-Image (Googlebot)	Індексує зображення на сторінках сайту
Googlebot-News (Googlebot)	Шукає сторінки для додавання до Google Новини
Googlebot-Video (Googlebot)	Індексує відеоматеріали
AdsBot-Google-Mobile-Apps	Перевіряє якість реклами у додатках для пристроїв Android, працює за тими ж принципами, що і звичайний AdsBot

Пошукові роботи Я ндекс

User-agent	Функції
Yandex	При зазначенні даного токена агента в robots.txt звернення йде до всіх бот Яндекса
YandexBot	Основний індексуючий робот
YandexDirect	Завантажує інформацію про контент сайтів-партнерів РСЯ
YandexImages	Індексує зображення сайтів
YandexMetrika	Робот Яндекс.Метрики
YandexMobileBot	Завантажує документи для аналізу на наявність верстки під мобільні пристрої
YandexMedia	Робот, що індексує мультимедійні дані
YandexNews	Індексатор Яндекс.Новин
YandexPagechecker	Валідатор мікророзмітки
YandexMarket	Робот Яндекс.Маркета;
YandexCalenda	Робот Яндекс.Календаря
YandexDirectDyn	Генерує динамічні банери (Дірект)
YaDirectFetcher	Завантажує сторінки з рекламними оголошеннями для перевірки їх доступності та уточнення тематики (РМЯ)
YandexAccessibilityBot	Завантажує сторінки для перевірки їх доступності користувачам
YandexScreenshotBot	Робить знімок (скриншот) сторінки
YandexVideoParser	Павук сервісу Яндекс.Відео
YandexSearchShop	Завантажує YML-файли каталогів товарів
YandexOntoDBAPI	Робот об'єктної відповіді, що завантажує динамічні дані

Інші популярні пошукові боти

User-agent	Функції
Baiduspider	Спайдер китайської пошукової системи Baidu
Cliqzbot	Робот анонімний пошукової системи Cliqz
AhrefsBot	Пошуковий бот сервісу Ahrefs (посилальний аналіз)
Genieo	Робот сервісу Genieo
Bingbot	Краулер пошукової системи Bing
Slurp	Краулер пошукової системи Yahoo
DuckDuckBot	Веб-краулер ПС DuckDuckGo
facebot	Робот Facebook для веб-краулінгу
WebAlta (WebAlta Crawler/2.0)	Пошуковий краулер ПС WebAlta
BomboraBot	Сканує сторінки, задіяні у проекті Bombora
CCBot	Краулер на основі Nutch, який використовує проект Apache Hadoop
MSNBot	Бот ПС MSN
Mail.Ru	Краулер пошукової системи Mail.Ru
ia_archiver	Скраппіт дані для сервісу Alexa
Teoma	Бот сервісу Ask

Пошукових ботів дуже багато, я відібрав лише найпопулярніших та найвідоміших. Якщо є боти, з якими ви стикалися через агресивне та наполегливе сканування сайтів, прошу в коментарях вказати це, я додам їх також до таблиці.

Вища освіта доступне - масажист навчання.

В Інтернеті не одна сотня мільйонів ресурсів, та мільйони потрібних сторінокзалишаться невідомі нам ніколи. Як знайти у цьому океані потрібну нам крапельку? Ось тут і приходить нам на допомогу пошукова машина. Це павук, і тільки він знає, що і в якому місці павутиння у нього знаходиться.

Пошукові машини Інтернета це сайти, спеціально зроблені так, щоб допомогти відшукати потрібну інформаціюу глобальній мережі всесвітньої павутини. Є три основні функції, однакові для всіх пошукових машин:

- пошуковики на за заданими ключовими словами "обшукують" інтернет;
- адреси, що індексуються пошуковиками разом із словами;
- проіндексовані web-сторінки утворюють базу, яку пошуковики надають користувачам для пошука ключових слівабо комбінацій із них.

Перші пошуковики отримували за день до 2,000 запитів та індексували за сотнями тисяч сторінок. Сьогодні кількість запитів на день йде на сотні мільйонів сторінок та десятки мільйонів.

Ппошукові машини до World Wide Web.

Першими пошуковеками Інтернета були програми "gopher" та "Archie". Вони індексували файли, що знаходяться на підключених до Інтернетсерверах, багаторазово знижуючи час на пошукнеобхідних документів. Наприкінці 1980-х років уміння працювати в Інтернете зводилося до вміння користуватися Archie, gopher, Veronica та подібними пошукові програми.

Сьогодні Webстав найбільш затребуваною частиною Інтернета і більшість Інтернеткористувачів здійснюють пошуктільки в World Wide Web (WWW).

Робот- павук

Програма-робот застосовується в пошукових машинах, ще вона називається "Spider", павук(Спайдер), Здійснює процес створення списку слів, знайдених на сторінці wed-ресурсу. Процес називається Web crawling(краулінг). Пошуковий павукпереглядає багато інших сторінок, будує і фіксує список корисних слів, тобто. мають якесь значення, вага.

Подорож по пошуку мережі, павук (Spider) починає з найбільшого сервера та найпопулярніших web-сторінок. Обійшовши такий сайт та проіндексувавши всі знайдені слова, він відправляється сканувати інші сайти за знайденими посиланнями. Таким чином, робот- павукзахоплює весь web-простір.

Засновники Google, Сергій Брін та Лауренс Пейдж, наводять приклад роботи гугловських павуків. Їх декілька. Пошукпочинається трьома павукамі. Один павукодночасно підтримує до 300 з'єднань зі сторінками. На піковому завантаженні, чотири павука здатні обробляти до ста сторінок за секунду, генеруючи при цьому трафік близько 600 кілобайт/сек. На даний момент, коли ви читаєте це, можливо цифри вам здадуться смішними.

Ключові слова для пошуковця

Зазвичай власник web-ресурсу хоче бути включеним до пошукові результати за потрібними пошукним словами. Ці слова називаються ключівними. КлючівЦі слова визначають суть змісту web-сторінки. І допомагають у цьому Мета-Теги. Вони то і пропонують пошуковому роботу вибір ключівслів, що використовуються для індексації сторінки. Але не рекомендуємо накручувати мета-теги понад популярними запитами, не пов'язаними змістом з самою сторінкою. Пошукові роботи борються з цим явищем, і вам пощастить, якщо він просто викине з розгляду мета-теги з ключівними словами, що не відповідають вмісту сторінок.

Метатеги дуже корисний інструмент, коли ключівЦі слова з них повторюються в тексті сторінки кілька разів. Але не переборщите, існує ймовірність, що робот прийме сторінку за дорві.

Алгоритми індексації пошукових систем

Алгоритми пошукВовики спрямовані на ефективність кінцевого результату, але підходи до цього у всіх різні. У Lycos пошукНові роботи індексують слова в заголовку (title), посиланнях (лінках) і до сотні слів, що часто вживаються, на сторінці і кожне слово з перших 20 рядків контенту сторінки.

Робот Google бере до уваги розташування слова на сторінці (в елементі body). Слова службових розділів, таких як subtitles, title, meta tagsта ін позначає як особливо важливі, виключаючи вигуки "a," "an" і "the.".

Інші пошуковики можуть мати дещо інший спосіб підходу до індексації слів, що використовуються для пошукових запитів користувачами.

Роботи пошукової системи, іноді їх називають "павуки" або "кроулери" (crawler) - це програмні модулі, що займаються пошуком веб-сторінок Як вони працюють? Що ж вони роблять насправді? Чому вони важливі?

Враховуючи весь шум навколо пошукової оптимізації та індексних баз даних пошукових систем, ви, напевно, думаєте, що роботи мають бути великі і могутні істоти. Неправда. Роботи пошукача мають лише базові функції, схожі на ті, якими володіли одні з перших броузерів, щодо того, яку інформацію вони можуть розпізнати на сайті. Як і ранні броузери, роботи просто не можуть робити певні речі. Роботи не розуміють фреймів, Flash анімацій, зображень чи JavaScript. Вони не можуть зайти в розділи, захищені паролем і не можуть натискати на всі кнопки, які є на сайті. Вони можуть заткнутися в процесі індексування динамічних адрес URL і працювати дуже повільно, аж до зупинки та безсилля над JavaScript-навігацією.

Як працюють роботи пошукової машини?

Пошукові роботи варто сприймати як програми автоматизованого отримання даних, що подорожують по мережі в пошуках інформації та посилань на інформацію.

Коли, зайшовши на сторінку Submit a URL, ви реєструєте чергову web-сторінку в пошуковій системі - у чергу для перегляду сайтів роботом додається новий URL. Навіть якщо ви не реєструєте сторінку, безліч роботів знайде ваш сайт, оскільки існують посилання з інших сайтів, що посилаються на ваш сайт. Ось одна з причин, чому важливо будувати популярність посилань і розміщувати посилання на інших тематичних ресурсах.

Прийшовши на ваш сайт, роботи спочатку перевіряють, чи файл robots.txt. Цей файл повідомляє роботам, які розділи вашого сайту не підлягають індексації. Зазвичай це можуть бути директорії, що містять файли, якими робот не цікавиться або йому не слід знати.

Роботи зберігають та збирають посилання з кожної сторінки, яку вони відвідують, а пізніше проходять за цими посиланнями на інші сторінки. Вся Всесвітня мережапобудована із посилань. Початкова ідея створення Інтернет мережі була в тому, щоб була можливість переміщатися за посиланнями від одного місця до іншого. Отак переміщуються і роботи.

Дотепність щодо індексування сторінок у реальному режимі часу залежить від інженерів пошукових машин, які винайшли методи, що використовуються для оцінки інформації, яку отримують пошукові роботи. Будучи впроваджена до бази даних пошукової машини, інформація доступна користувачам, які здійснюють пошук. Коли користувач пошукової машини вводить пошуковий запит, проводиться ряд швидких обчислень для впевненості, що видається дійсно правильний набір сайтів для найбільш релевантної відповіді.

Ви можете переглянути, які сторінки вашого сайту вже відвідав пошуковий робот, керуючись лог-файлами сервера або результатами статистичної обробки лог-файлу. Ідентифікуючи роботів, ви побачите, коли вони відвідали ваш сайт, які сторінки та як часто. Деякі роботи легко ідентифікуються за іменами, як Googles Googlebot. Інші приховані, як, наприклад, Inktomis Slurp. Інші роботи також можуть зустрічатися в логах і не виключено, що ви не зможете відразу їх ідентифікувати; деякі з них навіть можуть виявитися броузерами, якими керують люди.

Крім ідентифікації унікальних пошукових роботів та підрахунку кількості їх візитів, статистика також може показати вам агресивних, що поглинають ширину катала пропускання роботів чи роботів, небажаних для відвідування вашого сайту.

Як вони читають сторінки вашого веб-сайту?

Коли пошуковий робот відвідує сторінку, він переглядає її видимий текст, зміст різних тегів вихідному кодівашої сторінки (title tag, meta tags, тощо), а також гіперпосилання на сторінці. Судячи зі слів посилань, пошукова машина вирішує, про що сторінка. Є багато факторів, що використовуються для обчислення ключових моментів сторінки, що «грають роль». Кожна пошукова машина має власний алгоритм для оцінки та обробки інформації. Залежно від того, як робот налаштований, інформація індексується, а потім доставляється до бази даних пошукової системи.

Після цього інформація, доставлена в індексні бази даних пошукової системи, стає частиною пошуковика та процесу ранжування в базі. Коли відвідувач запитує, пошуковик переглядає всю базу даних для видачі кінцевого списку, релевантного пошуковому запиту.

Бази даних пошукових систем піддаються ретельній обробці та приведенню у відповідність. Якщо ви вже потрапили в базу даних, роботи будуть відвідувати вас періодично для збору будь-яких змін на сторінках і впевненості в тому, що мають найостаннішу інформацію. Кількість відвідувань залежить від установок пошукової машини, які можуть змінюватись від її виду та призначення.

Іноді пошукові роботи не в змозі проіндексувати веб-сайт. Якщо ваш сайт упав або на сайт йде велика кількість відвідувачів, робот може бути безсилим у спробах його індексації. Коли таке відбувається, сайт не може бути переіндексований, що залежить від частоти відвідування роботом. У більшості випадків, роботи, які не змогли досягти ваших сторінок, спробують пізніше, сподіваючись, що ваш сайт найближчим часом буде доступний.

Багато пошукових робіт не можуть бути ідентифіковані, коли ви переглядаєте логи. Вони можуть відвідувати вас, але логи стверджують, що хтось використовує Microsoft браузер і т.д. Деякі роботи ідентифікують себе використанням імені пошукової системи (googlebot) або його клону (Scooter = AltaVista).

Залежно від того, як робот налаштований, інформація індексується, а потім доставляється до баз даних пошукової машини.

Бази даних пошукових машин піддаються модифікації у різні терміни. Навіть директорії, що мають вторинні пошукові результати, використовують дані роботів як зміст свого web-сайту.

Власне, роботи не використовуються пошуковими системами лише для вищевикладеного. Існують роботи, які перевіряють бази даних на наявність нового змісту, відвідують старий вміст бази, перевіряють, чи не змінилися посилання, завантажують цілі сайти для перегляду і так далі.

Тому читання лог-файлів і стеження за видачею пошукової системи допомагає вам спостерігати за індексацією ваших проектів.

Пошуковим роботом називається спеціальна програмабудь-якої пошукової системи, яка призначена для занесення до бази (індексування) знайдених в Інтернеті сайтів та їх сторінок. Також використовуються назви: краулер, павук, бот, автоматичнийindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип роботи

Пошуковий робот – це програма браузерного типу. Він постійно сканує мережу: відвідує проіндексовані (вже відомі йому) сайти, переходить за посиланнями з них та знаходить нові ресурси. При виявленні нового ресурсу робота процедур додає його в індекс пошуковика. Пошуковий робот також індексує поновлення на сайтах, періодичність яких фіксується. Наприклад, оновлюваний раз на тиждень сайт відвідуватиметься павуком з цією частотою, а контент на сайтах новин може потрапити в індекс вже через кілька хвилин після публікації. Якщо на сайт не веде жодне посилання з інших ресурсів, для залучення пошукових роботів ресурс необхідно додати через спеціальну форму (Центр вебмайстрів Google, панель вебмайстра Яндекс і т.д.).

Види пошукових роботів

Павуки Яндекса:

Yandex/1.01.001 I - основний бот, що займається індексацією,
Yandex/1.01.001 (P) - індексує картинки,
Yandex/1.01.001 (H) — знаходить дзеркала сайтів,
Yandex/1.03.003 (D) — визначає, чи відповідає сторінка, додана з панелі вебмайстра, параметрам індексації,
YaDirectBot/1.0 (I) - індексує ресурси з рекламної мережі Яндекса,
Yandex/1.02.000 (F) - індексує фавікон сайтів.

Павуки Google:

Робот Googlebot - основний робот,
Googlebot News - сканує та індексує новини,
Google Mobile - індексує сайти для мобільних пристроїв,
Googlebot Images — шукає та індексує зображення,
Googlebot Video - індексує відео,
Google AdsBot – перевіряє якість цільової сторінки,
Google Mobile AdSense та Google AdSense – індексує сайти рекламної мережі Google.

Інші пошукові системи також використовують роботів декількох видів, функціонально схожих з перерахованими.