Suchmaschinen-Roboter. Suchmaschinen ihre Roboter und Spinnen Suchspinnen

Suchroboter ein spezielles Programm einer Suchmaschine wird aufgerufen, das dazu bestimmt ist, im Internet gefundene Websites und deren Seiten in die Datenbank einzugeben (Indexierung). Es werden auch die Namen verwendet: Crawler, Spider, Bot, Automaticindexer, Ant, Webcrawler, Bot, Webscutter, Webrobots, Webspider.

Arbeitsprinzip

Der Suchroboter ist ein browserartiges Programm. Er scannt ständig das Netzwerk: Er besucht indizierte (ihm bereits bekannte) Sites, folgt Links von ihnen und findet neue Ressourcen. Wenn eine neue Ressource gefunden wird, fügt der Prozedurroboter sie dem Suchmaschinenindex hinzu. Der Suchroboter indiziert auch Updates auf Websites, deren Häufigkeit festgelegt ist. Beispielsweise wird eine Website, die einmal pro Woche aktualisiert wird, von einer Spinne mit dieser Häufigkeit besucht, und Inhalte auf Nachrichtenseiten können innerhalb von Minuten nach der Veröffentlichung indiziert werden. Wenn kein Link von anderen Ressourcen zur Website führt, muss die Ressource über ein spezielles Formular (Google Webmaster Center, Yandex Webmaster Panel usw.) hinzugefügt werden, um Suchroboter anzuziehen.

Arten von Suchrobotern

Yandex-Spinnen:

Yandex/1.01.001 I ist der Hauptindizierungs-Bot,
Yandex/1.01.001 (P) - indiziert Bilder,
Yandex/1.01.001 (H) - findet Seitenspiegel,
Yandex/1.03.003 (D) - bestimmt, ob die aus dem Webmaster-Panel hinzugefügte Seite mit den Indizierungsparametern übereinstimmt,
YaDirectBot/1.0 (I) - indiziert Ressourcen aus dem Yandex-Werbenetzwerk,
Yandex/1.02.000 (F) — indiziert Site-Favicons.

Google Spider:

Googlebot ist der Hauptroboter,
Googlebot News – crawlt und indiziert Nachrichten,
Google Mobile - indiziert Websites für mobile Geräte,
Googlebot Images - sucht und indiziert Bilder,
Googlebot Video - indiziert Videos,
Google AdsBot – überprüft die Qualität der Zielseite,
Google Mobile AdSense und Google AdSense - indiziert die Websites des Google-Werbenetzwerks.

Andere Suchmaschinen verwenden auch mehrere Arten von Robotern, die den aufgeführten funktional ähnlich sind.

Allgemein, Suchmaschine ist eine Website, die darauf spezialisiert ist, Informationen zu finden, die den Suchkriterien des Benutzers entsprechen. Die Hauptaufgabe solcher Sites besteht darin, Informationen im Netzwerk zu organisieren und zu strukturieren.

Die meisten Menschen, die die Dienste einer Suchmaschine nutzen, fragen sich nie, wie genau die Maschine funktioniert, und suchen nach den notwendigen Informationen aus den Tiefen des Internets.

Für einen gewöhnlichen Benutzer des Netzwerks ist das eigentliche Konzept der Funktionsprinzipien von Suchmaschinen nicht kritisch, da die Algorithmen, die das System leiten, in der Lage sind, die Bedürfnisse einer Person zu befriedigen, die nicht weiß, wie sie wann eine optimierte Abfrage durchführen soll Suche nach den notwendigen Informationen. Aber für einen Webentwickler und Spezialisten, die sich mit der Website-Optimierung befassen, ist es einfach notwendig, zumindest die ersten Konzepte der Struktur und der Prinzipien von Suchmaschinen zu haben.

Jede Suchmaschine arbeitet mit präzisen Algorithmen, die streng vertraulich behandelt werden und nur einem kleinen Kreis von Mitarbeitern bekannt sind. Beim Entwerfen oder Optimieren einer Website müssen jedoch unbedingt die allgemeinen Regeln für das Funktionieren von Suchmaschinen berücksichtigt werden, die in diesem Artikel behandelt werden.

Trotz der Tatsache, dass jede PS ihre eigene Struktur hat, können sie nach sorgfältiger Untersuchung zu grundlegenden, verallgemeinernden Komponenten kombiniert werden:

Indexierungsmodul

Indizierungsmodul - Dieses Element enthält drei zusätzliche Komponenten (Bots):

1. Spinne (Spider-Roboter) - lädt Seiten herunter, filtert den Textstrom und extrahiert alle internen Hyperlinks daraus. Außerdem speichert Spider das Datum des Downloads und den Titel der Serverantwort, sowie die URL – die Seitenadresse.

2. Crawler (crawling robot spider) - analysiert alle Links auf der Seite und bestimmt basierend auf dieser Analyse, welche Seite besucht werden soll und welche nicht besuchenswert ist. Auf die gleiche Weise findet der Crawler neue Ressourcen, die vom PS verarbeitet werden sollen.

3. Indexierer (Robot-Indexer) - befasst sich mit der Analyse von Internetseiten, die von einem Spider heruntergeladen wurden. In diesem Fall wird die Seite selbst in Blöcke unterteilt und vom Indexer mit morphologischen und lexikalischen Algorithmen analysiert. Verschiedene Teile einer Webseite fallen unter die Analyse des Indexers: Überschriften, Texte und andere Serviceinformationen.

Alle von diesem Modul verarbeiteten Dokumente werden in der Datenbank des Suchenden gespeichert, die als Systemindex bezeichnet wird. Neben den Dokumenten selbst enthält die Datenbank die notwendigen Servicedaten – das Ergebnis einer sorgfältigen Bearbeitung dieser Dokumente, an denen sich die Suchmaschine orientiert, um Nutzerwünsche zu erfüllen.

Suchserver

als nächstes sehr wichtiger Bestandteil systems - ein Suchserver, dessen Aufgabe es ist, eine Benutzeranfrage zu verarbeiten und eine Seite mit Suchergebnissen zu generieren.

Der Suchserver verarbeitet die Anfrage des Benutzers und berechnet die Relevanzbewertung der ausgewählten Dokumente für die Anfrage des Benutzers. Dieses Ranking bestimmt die Position, die eine Webseite in den Suchergebnissen einnehmen wird. Jedes Dokument, das den Suchkriterien entspricht, wird auf der Ergebnisseite als Snippet angezeigt.

Der Ausschnitt ist Kurzbeschreibung Seite, einschließlich Titel, Link, Schlüsselwörter und kurze Textinformationen. Anhand des Snippets kann der Nutzer die Relevanz der von der Suchmaschine ausgewählten Seiten zu seiner Anfrage bewerten.

Das wichtigste Kriterium, an dem sich der Suchserver beim Ranking der Ergebnisse einer Suchanfrage orientiert, ist der uns bereits bekannte TCI-Indikator ().

Alle beschriebenen Komponenten des PS sind teuer und sehr ressourcenintensiv. Die Leistung einer Suchmaschine hängt direkt von der Effektivität des Zusammenspiels dieser Komponenten ab.

Der Artikel hat Ihnen gefallen? Abonnieren Sie Blog-News oder teilen Sie sie in sozialen Netzwerken, und ich werde Ihnen antworten

6 Kommentare zum Beitrag „Suchmaschinen sind ihre Roboter und Spinnen“

Ich habe lange nach diesen Informationen gesucht, danke.

Antworten

Ich freue mich, dass sich dein Blog ständig weiterentwickelt. Beiträge wie dieser tragen nur zur Popularität bei.

Antworten

Ich habe etwas verstanden. Die Frage ist, hängt PR irgendwie vom TIC ab?

Hallo Freunde! Heute erfahren Sie, wie Suchroboter von Yandex und Google funktionieren und welche Funktion sie bei der Website-Werbung erfüllen. So lass uns gehen!

Suchmaschinen führen diese Aktion aus, um aus einer Million Websites zehn WEB-Projekte zu finden, die eine qualitativ hochwertige und relevante Antwort auf die Anfrage eines Benutzers haben. Warum nur zehn? Denn es besteht nur aus zehn Positionen.

Suchen Sie nach Robotern, Freunden, Webmastern und Benutzern

Warum es wichtig ist, die Website von Suchrobotern zu besuchen, ist bereits klar geworden, und warum ist es für den Benutzer? Das ist richtig, damit der Benutzer nur die Seiten öffnet, die auf seine Anfrage vollständig eingehen.

Suchroboter- ein sehr flexibles Tool, das in der Lage ist, eine Website zu finden, sogar eine, die gerade erstellt wurde und an der der Eigentümer dieser Website noch nicht beteiligt war. Daher wurde dieser Bot Spinne genannt, er kann seine Pfoten ausstrecken und im virtuellen Netz überall hinkommen.

Ist es möglich, den Suchroboter in Ihren Interessen zu steuern

Es kann vorkommen, dass einige Seiten nicht in die Suche einbezogen werden. Das liegt vor allem daran, dass diese Seite noch nicht von einem Suchroboter indexiert wurde. Natürlich wird der Suchroboter früher oder später auf diese Seite aufmerksam. Aber es braucht Zeit, und manchmal ziemlich viel Zeit. Aber hier können Sie dem Suchroboter helfen, diese Seite schneller zu besuchen.

Dazu können Sie Ihre Website in speziellen Verzeichnissen oder Listen sozialer Netzwerke platzieren. Generell auf allen Seiten, wo der Suchroboter einfach lebt. In sozialen Netzwerken gibt es zum Beispiel jede Sekunde ein Update. Versuchen Sie, Ihre Website zu beanspruchen, und der Suchroboter wird viel schneller zu Ihrer Website gelangen.

Daraus folgt eine, aber die Hauptregel. Wenn Sie möchten, dass Suchmaschinen-Bots Ihre Website besuchen, müssen sie regelmäßig mit neuen Inhalten gefüttert werden. Falls sie bemerken, dass der Inhalt aktualisiert wird, die Website sich entwickelt, werden sie Ihr Internetprojekt viel häufiger besuchen.

Jeder Suchroboter kann sich merken, wie oft sich Ihre Inhalte ändern. Er bewertet nicht nur die Qualität, sondern auch Zeitintervalle. Und wenn das Material auf der Site einmal im Monat aktualisiert wird, wird es einmal im Monat auf der Site erscheinen.

Wenn also die Seite einmal pro Woche aktualisiert wird, kommt der Suchroboter einmal pro Woche. Wenn Sie die Website jeden Tag aktualisieren, besucht der Suchroboter die Website jeden oder jeden zweiten Tag. Es gibt Seiten, die innerhalb weniger Minuten nach dem Update indiziert werden. Das soziale Netzwerke, Nachrichtenaggregatoren und Websites, die mehrere Artikel pro Tag veröffentlichen.

Wie kann man einem Roboter eine Aufgabe geben und ihm etwas verbieten?

Ganz am Anfang haben wir gelernt, dass Suchmaschinen mehrere Roboter haben, die unterschiedliche Aufgaben ausführen. Jemand sucht nach Bildern, jemand nach Links und so weiter.

Sie können jeden Roboter mit einer speziellen Datei steuern robots.txt . Aus dieser Datei beginnt der Roboter, sich mit der Site vertraut zu machen. In dieser Datei können Sie festlegen, ob der Robot die Seite indexieren darf, wenn ja, welche Abschnitte. Alle diese Anweisungen können für einen oder alle Roboter erstellt werden.

Schulung zur Website-Promotion

Erfahren Sie mehr über die Feinheiten der SEO-Website-Promotion in Suchmaschinen Google-Systeme und Yandex, ich spreche über mein Skype. Ich habe alle meine WEB-Projekte zur Teilnahme gebracht und damit hervorragende Ergebnisse erzielt. Ich kann Sie unterrichten, wenn Sie interessiert sind!

Freunde, ich grüße euch noch einmal! Jetzt werden wir analysieren, was Suchroboter sind, und ausführlich über den Google-Suchroboter sprechen und wie man mit ihnen befreundet ist.

Zuerst müssen Sie verstehen, was Suchroboter im Allgemeinen sind, sie werden auch Spinnen genannt. Welche Aufgabe haben Suchmaschinen-Spider?

Dies sind Programme, die Websites überprüfen. Sie sichten alle Beiträge und Seiten Ihres Blogs, sammeln Informationen, die sie dann in die Datenbank der Suchmaschine übertragen, für die sie arbeiten.

Sie müssen nicht die gesamte Liste der Suchroboter kennen, das Wichtigste ist zu wissen, dass Google jetzt zwei Hauptspinnen hat, die "Panda" und "Pinguin" heißen. Sie kämpfen mit minderwertigen Inhalten und Junk-Links, und Sie müssen wissen, wie Sie ihre Angriffe abwehren können.

Der Google-Panda-Suchroboter wurde entwickelt, um nur qualitativ hochwertiges Material in der Suche zu fördern. Alle Websites mit Inhalten von geringer Qualität werden in den Suchergebnissen abgesenkt.

Das erste Mal, dass diese Spinne 2011 auftauchte. Vor ihrem Erscheinen war es möglich, jede Website zu bewerben, indem man eine große Menge an Text in Artikeln veröffentlichte und eine große Menge an Text verwendete Schlüsselwörter. Zusammen brachten diese beiden Techniken qualitativ hochwertige Inhalte nicht an die Spitze der Suchergebnisse, aber gute Seiten gingen in den Suchergebnissen zurück.

„Panda“ brachte die Dinge sofort in Ordnung, indem er alle Seiten überprüfte und jeden an seinen rechtmäßigen Platz stellte. Obwohl sie mit minderwertigen Inhalten zu kämpfen hat, können jetzt sogar kleine Websites mit hochwertigen Artikeln beworben werden. Obwohl es früher sinnlos war, für solche Websites zu werben, konnten sie nicht mit den Giganten konkurrieren, die eine große Menge an Inhalten haben.

Jetzt werden wir herausfinden, wie wir die „Panda“-Sanktionen vermeiden können. Wir müssen zuerst verstehen, was sie nicht mag. Ich habe oben bereits geschrieben, dass sie mit schlechten Inhalten zu kämpfen hat, aber welche Art von Text schlecht für sie ist, lassen Sie uns herausfinden, um dies nicht auf ihrer Website zu veröffentlichen.

Der Google-Suchroboter ist bestrebt sicherzustellen, dass nur hochwertige Materialien für Bewerber in dieser Suchmaschine ausgegeben werden. Wenn Sie Artikel haben, in denen wenig Informationen enthalten sind und diese nicht ansprechend aussehen, dann schreiben Sie diese Texte dringend um, damit der "Panda" Sie nicht erreicht.

Hochwertiger Inhalt kann sowohl groß als auch klein sein, aber wenn die Spinne einen langen Artikel mit vielen Informationen sieht, wird der Leser davon mehr profitieren.

Dann ist auf Duplizierung, also Plagiat, hinzuweisen. Wenn Sie glauben, dass Sie die Artikel anderer Leute für Ihren Blog umschreiben, können Sie Ihrer Website sofort ein Ende setzen. Das Kopieren wird streng bestraft, indem ein Filter angewendet wird, und Plagiate werden überprüft ganz einfach, ich habe einen Artikel zum Thema geschrieben wie man Texte auf Eindeutigkeit prüft.

Das nächste, was auffällt, ist die Übersättigung des Textes mit Schlüsselwörtern. Wer denkt, dass er einen Artikel mit denselben Keywords schreiben und in den Suchergebnissen den ersten Platz einnehmen wird, der irrt gewaltig. Ich habe einen Artikel darüber, wie man Seiten auf Relevanz überprüft, lesen Sie ihn unbedingt.

Und was einen „Panda“ sonst noch anziehen kann, sind alte Artikel, die moralisch überholt sind und keinen Traffic auf die Website bringen. Sie müssen aktualisiert werden.

Es gibt auch einen Google-Suchroboter "Pinguin". Diese Spinne bekämpft Spam und Junk-Links auf Ihrer Website. Es berechnet auch gekaufte Links von anderen Ressourcen. Um also keine Angst vor diesem Suchroboter zu haben, sollten Sie keine Links kaufen, sondern hochwertige Inhalte veröffentlichen, damit die Leute selbst auf Sie verlinken.

Lassen Sie uns nun formulieren, was getan werden muss, damit die Website durch die Augen eines Suchroboters perfekt aussieht:

Um qualitativ hochwertige Inhalte zu erstellen, studieren Sie das Thema zuerst gut, bevor Sie einen Artikel schreiben. Dann müssen Sie verstehen, dass die Leute wirklich an diesem Thema interessiert sind.

Verwenden konkrete Beispiele und Bilder, das macht den Artikel lebendig und interessant. Unterteilen Sie den Text in kleine Absätze, um ihn leichter lesbar zu machen. Wenn Sie zum Beispiel eine Seite mit Witzen in einer Zeitung aufschlagen, welche werden Sie zuerst lesen? Natürlich liest jeder zuerst kurze Texte, dann längere und nicht zuletzt lange Fußtücher.

Pandas liebster Nitpick ist nicht die Relevanz eines Artikels, der veraltete Informationen enthält. Bleiben Sie dran für Updates und Änderungstexte.

Achten Sie auf die Dichte der Schlüsselwörter, ich habe oben geschrieben, wie Sie diese Dichte bestimmen können. In dem von mir erwähnten Dienst erhalten Sie die genaue Anzahl der erforderlichen Schlüssel.

Plagiieren Sie nicht, jeder weiß, dass Sie die Sachen oder Texte anderer nicht stehlen können - es ist dasselbe. Sie sind für Diebstahl verantwortlich, wenn Sie unter den Filter gelangen.

Schreiben Sie Texte für mindestens zweitausend Wörter, dann wird ein solcher Artikel durch die Augen von Suchmaschinen-Robotern informativ aussehen.

Weichen Sie in Ihrem Blog nicht vom Thema ab. Wenn Sie einen Blog zum Geldverdienen im Internet betreiben, müssen Sie keine Artikel über Luftgewehre drucken. Dies kann die Bewertung Ihrer Ressource verringern.

Gestalten Sie Artikel schön, unterteilen Sie sie in Absätze und fügen Sie Bilder hinzu, damit sie angenehm zu lesen sind und die Website nicht schnell verlassen möchten.

Wenn Sie Links kaufen, machen Sie sie zu den interessantesten und nützlichsten Artikeln, die die Leute tatsächlich lesen werden.

Nun, jetzt wissen Sie, welche Arbeit Suchmaschinen-Roboter leisten, und Sie können mit ihnen befreundet sein. Und das Wichtigste: Der Google-Suchroboter sowie „Panda“ und „Pinguin“ wurden von Ihnen ausführlich studiert.

1.1.1. Suchmaschinenkomponenten

Informationen im Web werden nicht nur ergänzt, sondern ändern sich auch ständig, aber niemand erzählt irgendjemandem von diesen Änderungen. Abwesend ein System Eingabe von Informationen, die allen Internetnutzern gleichzeitig zur Verfügung stehen. Um Informationen zu strukturieren und Benutzern bequeme Möglichkeiten zur Suche nach Daten bereitzustellen, wurden daher Suchmaschinen erstellt.

Suchmaschinen es gibt verschiedene Typen. Einige von ihnen suchen nach Informationen basierend auf dem, was die Leute in sie eingeben. Dies können Verzeichnisse sein, in die Redakteure Informationen über Websites, ihre Kurzbeschreibungen oder Rezensionen eingeben. Sie werden unter diesen Beschreibungen gesucht.

Letztere sammeln Informationen im Web mit spezielle Programme. Dies sind Suchmaschinen, die in der Regel aus drei Hauptkomponenten bestehen:

Index;

Suchmaschine.

Agent, oder häufiger - eine Spinne, ein Roboter (in der englischen Literatur - Spinne, Crawler), umgeht auf der Suche nach Informationen das Netzwerk oder einen bestimmten Teil davon. Dieser Robot führt eine Liste mit Adressen (URLs), die er besuchen und indizieren kann, lädt Dokumente herunter, die den Links entsprechen, und analysiert sie in regelmäßigen Abständen für jede Suchmaschine. Die resultierenden Inhalte der Seiten werden vom Robot in kompakterer Form gespeichert und in den Index übernommen. Wenn während der Analyse der Seite (Dokument) ein neuer Link gefunden wird, fügt der Roboter ihn seiner Liste hinzu. Daher kann der Roboter jedes Dokument oder jede Website mit Links finden. Und umgekehrt, wenn die Website oder ein Teil davon keine hat Externe Links, findet der Roboter sie möglicherweise nicht.

Ein Roboter ist nicht nur ein Informationssammler. Er hat eine ziemlich entwickelte "Intelligenz". Roboter können nach Sites zu einem bestimmten Thema suchen, Listen mit Sites erstellen, die nach Verkehr sortiert sind, Informationen aus bestehenden Datenbanken extrahieren und verarbeiten und Links unterschiedlicher Verschachtelungstiefe folgen. Aber in jedem Fall geben sie alle gefundenen Informationen an die Datenbank (Index) der Suchmaschine weiter.

Suchroboter es gibt verschiedene Arten:

? Spinne(Spider) ist ein Programm, das Webseiten genauso herunterlädt wie der Browser des Benutzers. Der Unterschied besteht darin, dass der Browser die auf der Seite enthaltenen Informationen (Text, Grafiken usw.) anzeigt, während der Spider keine visuellen Komponenten hat und direkt mit dem HTML-Text der Seite arbeitet (ähnlich wie Sie sehen, wenn Sie schalten Sie die Anzeige von HTML-Code in Ihrem Browser ein).

? Crawler(Crawler, "reisende" Spinne) - hebt alle auf der Seite vorhandenen Links hervor. Seine Aufgabe ist es, anhand von Links oder anhand einer vordefinierten Liste von Adressen zu bestimmen, wohin der Spider als nächstes gehen soll. Der Crawler sucht nach den gefundenen Links nach neuen Dokumenten, die der Suchmaschine noch unbekannt sind.

? Indexierer zerlegt die Seite in ihre Bestandteile und analysiert sie. Verschiedene Seitenelemente werden ausgewählt und analysiert, wie z. B. Texte, Überschriften, Struktur- und Stilmerkmale, spezielle Service-HTML-Tags usw.

Index- das ist der Teil der Suchmaschine, in dem nach Informationen gesucht wird. Der Index enthält alle Daten, die ihm von Robotern übergeben wurden, sodass die Größe des Index Hunderte von Gigabyte erreichen kann. Tatsächlich enthält der Index Kopien aller Seiten, die von Robotern besucht werden. Erkennt der Robot eine Änderung auf einer bereits indexierten Seite, sendet er aktualisierte Informationen an den Index. Sie soll die bestehende ersetzen, aber in manchen Fällen erscheint nicht nur eine neue Seite im Index, sondern die alte Seite bleibt auch erhalten.

Suchmaschine ist die eigentliche Schnittstelle, über die der Besucher mit dem Index interagiert. Über die Schnittstelle geben Benutzer ihre Anfragen ein und erhalten Antworten, und Websitebesitzer registrieren sie (und diese Registrierung ist eine weitere Möglichkeit, die Adresse Ihrer Website an den Roboter zu übermitteln). Bei der Verarbeitung einer Anfrage wählt die Suchmaschine aus den vielen Millionen indexierten Ressourcen die entsprechenden Seiten und Dokumente aus und ordnet sie nach Wichtigkeit oder Relevanz für die Anfrage.