Welche Arbeit leisten Suchmaschinen-Spider? Suche nach Informationen im Web

Wenn Sie Serverprotokolle durchsehen, können Sie manchmal ein übermäßiges Interesse von Suchrobotern an Websites feststellen. Wenn die Bots nützlich sind (z. B. PS-Indizierungsbots), bleibt nur noch das Beobachten, auch wenn die Belastung des Servers steigt. Es gibt aber auch viele kleinere Roboter, deren Zugriff auf die Website nicht erforderlich ist. Für mich und für Sie, lieber Leser, habe ich die Informationen gesammelt und in ein praktisches Tablet umgewandelt.

Wer sind Suchroboter?

Suchbot, oder wie sie auch genannt werden, Roboter, Crawler, Spinne – nichts weiter als ein Programm, das den Inhalt von Websites durchsucht und scannt, indem es den Links auf den Seiten folgt. Nicht nur Suchmaschinen verfügen über Suchroboter. Beispielsweise verwendet der Ahrefs-Dienst Spiders, um Daten zu Backlinks zu verbessern, Facebook führt Web-Scraping des Seitencodes durch, um erneut gepostete Links mit Titeln, Bildern und Beschreibungen anzuzeigen. Unter Web Scraping versteht man das Sammeln von Informationen aus verschiedenen Ressourcen.

Verwendung von Spider-Namen in robots.txt

Wie Sie sehen, hat jedes ernsthafte Projekt im Zusammenhang mit der Inhaltssuche seine eigenen Spider. Und manchmal besteht die dringende Aufgabe darin, den Zugriff einiger Spinnen auf die Site oder ihre Website zu beschränken separate Abschnitte. Dies kann über die Datei robots.txt im Stammverzeichnis der Site erfolgen. Ich habe vorhin mehr über das Einrichten von Robotern geschrieben, ich empfehle Ihnen, es zu lesen.

Bitte beachten Sie, dass die robots.txt-Datei und ihre Anweisungen möglicherweise von Suchrobotern ignoriert werden. Anweisungen sind nur Empfehlungen für Bots.

Sie können eine Anweisung für einen Suchroboter festlegen, indem Sie den Abschnitt „Kontaktieren Sie den Benutzeragenten dieses Roboters“ verwenden. Abschnitte für verschiedene Spider werden durch eine Leerzeile getrennt.

User-Agent: Googlebot Zulassen: /

Benutzeragent: Googlebot

Erlauben: /

Oben sehen Sie ein Beispiel für einen Aufruf der Hauptsuchmaschine von Google.

Ursprünglich hatte ich geplant, der Tabelle Einträge darüber hinzuzufügen, wie Such-Bots sich in den Serverprotokollen identifizieren. Da diese Daten jedoch für SEO von geringer Bedeutung sind und es zu jedem Agent-Token mehrere Arten von Datensätzen geben kann, entschied man sich, sich nur mit den Namen der Bots und ihrem Zweck zu begnügen.

Suchroboter G o o g l e

User-Agent	Funktionen
Googlebot	Der wichtigste Crawler-Indexer von Seiten für PC und optimiert für Smartphones
Medienpartner-Google	AdSense-Werbenetzwerkroboter
APIs-Google	APIs – Google User Agent
AdsBot-Google	Überprüft die Qualität der Werbung auf Webseiten, die für PCs bestimmt sind
AdsBot-Google-Mobile	Überprüft die Qualität der Werbung auf Webseiten, die für mobile Geräte konzipiert sind
Googlebot-Bild (Googlebot)	Indiziert Bilder auf Website-Seiten
Googlebot-Neuigkeiten (Googlebot)	Sucht nach Seiten, die zu Google News hinzugefügt werden können
Googlebot-Video (Googlebot)	Indiziert Videomaterialien
AdsBot-Google-Mobile-Apps	Überprüft die Qualität der Werbung in Bewerbungen für Android-Geräte, funktioniert nach den gleichen Prinzipien wie regulärer AdsBot

Suchroboter indizieren

User-Agent	Funktionen
Yandex	Wenn Sie dieses Agent-Token in robots.txt angeben, geht die Anfrage an alle Yandex-Bots
YandexBot	Einfacher Indexierungsroboter
YandexDirect	Lädt Informationen über den Inhalt von YAN-Partnerseiten herunter
YandexImages	Indiziert Website-Bilder
YandexMetrika	Yandex.Metrica-Roboter
YandexMobileBot	Lädt Dokumente zur Analyse auf das Vorhandensein eines Layouts für mobile Geräte herunter
YandexMedia	Roboter indiziert Multimediadaten
YandexNews	Yandex.News Indexer
YandexPagechecker	Mikro-Markup-Validator
YandexMarket	Yandex.Market-Roboter;
YandexCalenda	Yandex.Calendar-Roboter
YandexDirectDyn	Erzeugt dynamische Banner (direkt)
YaDirectFetcher	Lädt Seiten mit Anzeigen herunter, um deren Verfügbarkeit zu prüfen und das Thema zu klären (YAN)
YandexAccessibilityBot	Lädt Seiten herunter, um deren Verfügbarkeit für Benutzer zu überprüfen
YandexScreenshotBot	Macht einen Schnappschuss (Screenshot) der Seite
YandexVideoParser	Yandex.Video-Dienstspinne
YandexSearchShop	Lädt YML-Dateien von Produktkatalogen herunter
YandexOntoDBAPI	Objektantwort-Bot, der dynamische Daten herunterlädt

Andere beliebte Suchbots

User-Agent	Funktionen
Baiduspider	Spinne der chinesischen Suchmaschine Baidu
Cliqzbot	Roboter der anonymen Suchmaschine Cliqz
AhrefsBot	Ahrefs Suchbot (Linkanalyse)
Genieo	Genieo-Serviceroboter
Bingbot	Bing-Suchmaschinen-Crawler
Schlürfen	Yahoo-Suchmaschinen-Crawler
DuckDuckBot	Webcrawler PS DuckDuckGo
Facebot	Facebook-Roboter zum Webcrawlen
WebAlta (WebAlta Crawler/2.0)	Suchcrawler PS WebAlta
BomboraBot	Scannt Seiten, die am Bombora-Projekt beteiligt sind
CCBot	Nutch-basierter Crawler, der das Apache Hadoop-Projekt verwendet
MSNBot	PS MSN-Bot
Mail.Ru	Mail.Ru-Suchmaschinen-Crawler
ia_archiver	Verschrottung von Daten für den Alexa-Dienst
Teoma	Fragen Sie den Service-Bot

Es gibt viele Such-Bots, ich habe nur die beliebtesten und bekanntesten ausgewählt. Wenn Sie aufgrund des aggressiven und anhaltenden Scannens von Websites auf Bots gestoßen sind, geben Sie dies bitte in den Kommentaren an. Ich werde sie auch zur Tabelle hinzufügen.

Suchmaschinenroboter, manchmal auch Spider oder Crawler genannt, sind es Softwaremodule Suche nach Webseiten. Wie arbeiten Sie? Was machen sie eigentlich? Warum sind sie wichtig?

Angesichts des ganzen Lärms rund um Suchmaschinenoptimierung und Suchmaschinenindexdatenbanken könnte man meinen, dass Roboter großartige und mächtige Kreaturen sein müssen. Nicht wahr. Suchmaschinen-Bots verfügen nur über grundlegende Funktionen, die denen früherer Browser ähneln, was die Art und Weise angeht, welche Informationen sie auf einer Website erkennen können. Wie frühere Browser können Roboter bestimmte Dinge einfach nicht tun. Roboter verstehen keine Frames, Flash-Animationen, Bilder oder JavaScript. Sie können keine passwortgeschützten Bereiche betreten und nicht alle Schaltflächen auf der Website anklicken. Sie können bei der Indizierung dynamischer URLs stecken bleiben und sehr langsam werden, bis die JavaScript-Navigation gestoppt und wirkungslos wird.

Wie funktionieren Suchmaschinenroboter?

Suchroboter sollten als automatisierte Datenabrufprogramme betrachtet werden, die das Internet auf der Suche nach Informationen und Links zu Informationen durchsuchen.

Wenn Sie zur Seite „URL senden“ gehen und eine andere Webseite in einer Suchmaschine registrieren, wird eine neue URL zur Warteschlange hinzugefügt, damit der Roboter Websites anzeigen kann. Selbst wenn Sie keine Seite registrieren, werden viele Robots Ihre Website finden, da Links von anderen Websites auf Ihre Website verweisen. Dies ist einer der Gründe, warum es wichtig ist, Linkpopularität aufzubauen und Links zu anderen thematischen Ressourcen zu platzieren.

Wenn Robots auf Ihre Website kommen, prüfen sie zunächst, ob eine robots.txt-Datei vorhanden ist. Diese Datei teilt Robots mit, welche Abschnitte Ihrer Website nicht indiziert werden sollen. In der Regel handelt es sich dabei um Verzeichnisse mit Dateien, an denen der Roboter nicht interessiert ist oder von denen er nichts wissen sollte.

Roboter speichern und sammeln Links von jeder Seite, die sie besuchen, und folgen diesen Links später zu anderen Seiten. Alle weltweites Netz aus Links aufgebaut. Die ursprüngliche Idee für die Schaffung eines Internet-Netzwerks bestand darin, Links von einem Ort zum anderen zu verfolgen. So bewegen sich Roboter.

Die Genialität der Indexierung von Seiten in Echtzeit hängt von Suchmaschineningenieuren ab, die die Methoden erfunden haben, mit denen die von Suchmaschinenrobotern abgerufenen Informationen ausgewertet werden. Einbettung in die Datenbank Suchmaschine, stehen die Informationen Benutzern zur Verfügung, die suchen. Wenn ein Suchmaschinenbenutzer eine Suchanfrage eingibt, werden eine Reihe schneller Berechnungen durchgeführt, um sicherzustellen, dass tatsächlich die richtige Gruppe von Websites für die relevanteste Antwort zurückgegeben wird.

Sie können mithilfe von Server-Logdateien oder den Ergebnissen der statistischen Verarbeitung der Logdatei einsehen, welche Seiten Ihrer Website bereits von einem Suchroboter besucht wurden. Durch die Identifizierung von Robots können Sie sehen, wann, welche Seiten und wie oft diese Ihre Website besucht haben. Manche Roboter lassen sich leicht anhand ihres Namens identifizieren, wie zum Beispiel der Googlebot von Google. Andere sind eher versteckt, wie Inktomis Slurp. In den Protokollen können auch andere Roboter auftauchen, die Sie möglicherweise nicht sofort identifizieren können. Bei einigen handelt es sich möglicherweise sogar um von Menschen betriebene Browser.

Neben der Identifizierung einzigartiger Suchroboter und der Zählung der Anzahl ihrer Besuche können Statistiken Ihnen auch aggressive, bandbreitenfressende Roboter oder Roboter zeigen, die für den Besuch Ihrer Website unerwünscht sind.

Wie lesen sie die Seiten Ihrer Website?

Wenn ein Suchroboter eine Seite besucht, schaut er sich deren sichtbaren Text und den Inhalt verschiedener Tags an Quellcode Ihrer Seite (Titel-Tag, Meta-Tags usw.) sowie Hyperlinks auf der Seite. Anhand der Wörter in den Links entscheidet die Suchmaschine, worum es auf der Seite geht. Zur Berechnung der Schlüsselaspekte einer Seite spielen viele Faktoren eine Rolle. Jede Suchmaschine verfügt über einen eigenen Algorithmus zur Auswertung und Verarbeitung von Informationen. Je nachdem, wie der Roboter konfiguriert ist, werden die Informationen indiziert und dann an die Datenbank der Suchmaschine geliefert.

Danach werden die an die Indexdatenbanken der Suchmaschine übermittelten Informationen Teil des Suchmaschinen- und Datenbankrankingprozesses. Wenn ein Besucher eine Anfrage stellt, durchsucht die Suchmaschine die gesamte Datenbank, um die endgültige Liste der relevanten Informationen zurückzugeben Suchanfrage.

Datenbank Suchmaschinen werden sorgfältig bearbeitet und in Einklang gebracht. Wenn Sie sich bereits in der Datenbank befinden, werden Sie regelmäßig von Robotern besucht, um alle Änderungen an den Seiten zu erfassen und sicherzustellen, dass die Informationen auf dem neuesten Stand sind. Die Anzahl der Besuche hängt von den Einstellungen der Suchmaschine ab, die je nach Art und Zweck variieren können.

Manchmal sind Suchroboter nicht in der Lage, eine Website zu indizieren. Wenn Ihre Website abgestürzt ist oder eine große Anzahl an Besuchern auf der Website ist, ist der Roboter bei seinen Versuchen, sie zu indizieren, möglicherweise hilflos. In diesem Fall kann die Website nicht erneut indiziert werden, was davon abhängt, wie oft der Roboter sie besucht. In den meisten Fällen versuchen Roboter, die Ihre Seiten nicht erreichen, es später noch einmal, in der Hoffnung, dass Ihre Website bald verfügbar ist.

Viele Webcrawler können beim Anzeigen der Protokolle nicht identifiziert werden. Möglicherweise besuchen sie Sie, aber in den Protokollen steht, dass jemand einen Microsoft-Browser usw. verwendet. Manche Roboter identifizieren sich über den Namen einer Suchmaschine (Googlebot) oder deren Klon (Scooter = AltaVista).

Je nachdem, wie der Roboter konfiguriert ist, werden die Informationen indiziert und dann an die Datenbanken der Suchmaschinen übermittelt.

Suchmaschinendatenbanken unterliegen zu verschiedenen Zeiten Änderungen. Sogar Verzeichnisse mit sekundären Suchergebnissen verwenden Roboterdaten als Inhalt ihrer Website.

Tatsächlich werden Robots von Suchmaschinen nicht nur für die oben genannten Zwecke eingesetzt. Es gibt Roboter, die Datenbanken auf neue Inhalte überprüfen, alte Datenbankinhalte besuchen, überprüfen, ob sich Links geändert haben, ganze Websites zum Anzeigen herunterladen und so weiter.

Aus diesem Grund hilft Ihnen das Lesen von Protokolldateien und das Überwachen von Suchmaschinenergebnissen dabei, die Indizierung Ihrer Projekte zu überwachen.

Suchroboter ist ein spezielles Programm einer Suchmaschine, das dazu dient, im Internet gefundene Websites und deren Seiten in eine Datenbank (Index) einzutragen. Auch verwendete Namen: Crawler, Spider, Bot, Automaticindexer, Ant, Webcrawler, Bot, Webscutter, Webrobots, Webspider.

Arbeitsprinzip

Ein Suchroboter ist ein browserartiges Programm. Es scannt ständig das Netzwerk: Besucht indizierte (ihm bereits bekannte) Websites, folgt den Links von ihnen und findet neue Ressourcen. Wenn eine neue Ressource entdeckt wird, fügt der Prozedurroboter sie dem Suchmaschinenindex hinzu. Der Suchroboter indiziert auch Aktualisierungen auf Websites, deren Häufigkeit festgelegt ist. Beispielsweise wird eine Website, die einmal pro Woche aktualisiert wird, mit dieser Häufigkeit von einem Spider besucht, und Inhalte auf Nachrichtenseiten können innerhalb von Minuten nach der Veröffentlichung indiziert werden. Wenn keine Links von anderen Ressourcen zur Website führen, muss die Ressource über ein spezielles Formular (Google Webmaster Center, Yandex Webmaster Panel usw.) hinzugefügt werden, um Suchroboter anzulocken.

Arten von Suchrobotern

Yandex-Spinnen:

Yandex/1.01.001 I – der wichtigste Bot, der an der Indexierung beteiligt ist,
Yandex/1.01.001 (P) – indiziert Bilder,
Yandex/1.01.001 (H) – findet Spiegelseiten,
Yandex/1.03.003 (D) – bestimmt, ob die vom Webmaster-Panel hinzugefügte Seite die Indexierungsparameter erfüllt,
YaDirectBot/1.0 (I) – indiziert Ressourcen aus dem Yandex-Werbenetzwerk,
Yandex/1.02.000 (F) – indiziert Site-Favicons.

Google Spiders:

Googlebot ist der Hauptroboter
Googlebot News – scannt und indiziert Nachrichten,
Google Mobile – indiziert Websites für mobile Geräte,
Googlebot Images – sucht und indiziert Bilder,
Googlebot Video – indiziert Videos,
Google AdsBot – prüft die Qualität der Zielseite,
Google Mobile AdSense und Google AdSense – indiziert Websites des Google-Werbenetzwerks.

Auch andere Suchmaschinen nutzen mehrere Robotertypen, die funktionell den aufgeführten ähneln.

1.1.1. Suchmaschinenkomponenten

Informationen im Internet werden nicht nur aktualisiert, sondern ändern sich auch ständig, aber niemand informiert irgendjemanden über diese Änderungen. Abwesend ein System Aufzeichnung von Informationen, die allen Internetnutzern gleichzeitig zugänglich sind. Um Informationen zu strukturieren und Benutzern bequeme Möglichkeiten zur Datensuche zu bieten, wurden daher Suchmaschinen entwickelt.

Suchmaschinen sind verschiedene Typen. Einige von ihnen suchen nach Informationen basierend auf dem, was die Leute in sie eingegeben haben. Dies können Verzeichnisse sein, in denen Informationen zu Websites usw. enthalten sind Kurzbeschreibung oder Rezensionen werden von Redakteuren eingegeben. Die Suche erfolgt innerhalb dieser Beschreibungen.

Letztere sammeln Informationen im Internet spezielle Programme. Dabei handelt es sich um Suchmaschinen, die in der Regel aus drei Hauptkomponenten bestehen:

Index;

Suchmaschine.

Agent, oder häufiger - eine Spinne, ein Roboter (in der englischen Literatur - Spinne, Crawler), kriecht auf der Suche nach Informationen durch das Netzwerk oder einen bestimmten Teil davon. Dieser Roboter speichert eine Liste von Adressen (URLs), die er besuchen und indizieren kann, und lädt mit einer für jede Suchmaschine festgelegten Häufigkeit Dokumente herunter, die den Links entsprechen, und analysiert sie. Der resultierende Seiteninhalt wird vom Roboter in kompakterer Form gespeichert und in den Index übertragen. Wenn bei der Analyse einer Seite (Dokument) ein neuer Link entdeckt wird, fügt der Roboter ihn seiner Liste hinzu. Daher kann jedes Dokument oder jede Website, die Links enthält, von einem Roboter gefunden werden. Und umgekehrt, wenn es keine gibt Externe Links, findet der Roboter es möglicherweise nicht.

Ein Roboter ist nicht nur ein Informationssammler. Er hat eine ziemlich entwickelte „Intelligenz“. Roboter können nach Sites zu einem bestimmten Thema suchen, nach Traffic sortierte Site-Listen erstellen, Informationen aus vorhandenen Datenbanken abrufen und verarbeiten und Links unterschiedlicher Verschachtelungstiefe folgen. In jedem Fall übertragen sie aber alle gefundenen Informationen in die Datenbank der Suchmaschine (Index).

Es gibt Suchroboter verschiedene Arten:

? Spinne(Spider) ist ein Programm, das Webseiten auf die gleiche Weise herunterlädt wie der Browser des Benutzers. Der Unterschied besteht darin, dass der Browser die auf der Seite enthaltenen Informationen (Text, Grafiken usw.) anzeigt, während der Spider keine visuellen Komponenten hat und direkt mit dem HTML-Text der Seite arbeitet (ähnlich dem, was Sie sehen, wenn Sie Aktivieren Sie die Anzeige von HTML-Code in Ihrem Browser).

? Raupe(Crawler, „reisende“ Spinne) – hebt alle auf der Seite vorhandenen Links hervor. Seine Aufgabe besteht darin, anhand von Links oder einer vorgegebenen Liste von Adressen zu bestimmen, wohin der Spider als nächstes gehen soll. Der Crawler sucht anhand der gefundenen Links nach neuen Dokumenten, die der Suchmaschine noch unbekannt sind.

? Indexer zerlegt die Seite in ihre Bestandteile und analysiert sie. Verschiedene Seitenelemente werden identifiziert und analysiert, wie z. B. Texte, Überschriften, Struktur- und Stilmerkmale, spezielle HTML-Service-Tags usw.

Index- Dies ist der Teil der Suchmaschine, in dem nach Informationen gesucht wird. Der Index enthält alle Daten, die von Robotern an ihn übertragen wurden, sodass die Größe des Index Hunderte von Gigabyte erreichen kann. In der Praxis enthält der Index Kopien aller von Robotern besuchten Seiten. Wenn der Roboter eine Änderung auf einer bereits indizierten Seite erkennt, übermittelt er aktualisierte Informationen an den Index. Sie soll die bestehende ersetzen, aber in manchen Fällen erscheint nicht nur eine neue Seite im Index, sondern die alte Seite bleibt auch bestehen.

Suchmaschine- Dies ist genau die Schnittstelle, über die der Besucher mit dem Index interagiert. Über die Schnittstelle geben Benutzer ihre Fragen ein und erhalten Antworten, und Websitebesitzer registrieren sie (und diese Registrierung ist eine weitere Möglichkeit, dem Roboter die Adresse ihrer Website zu übermitteln). Bei der Bearbeitung einer Anfrage wählt die Suchmaschine relevante Seiten und Dokumente aus vielen Millionen indizierten Ressourcen aus und ordnet sie in der Reihenfolge ihrer Wichtigkeit bzw. Relevanz für die Anfrage.