ما الوظيفة التي تقوم بها عناكب محرك البحث؟ البحث عن المعلومات على الويب

عند البحث في سجلات الخادم ، يمكنك أحيانًا ملاحظة الاهتمام المفرط بالمواقع من روبوتات البحث. إذا كانت الروبوتات مفيدة (على سبيل المثال ، فهرسة برامج الروبوت الخاصة بـ PS) ، فسيظل الأمر مجرد ملاحظة ، حتى إذا زاد الحمل على الخادم. ولكن لا يزال هناك الكثير من الروبوتات الثانوية ، التي لا يلزم الوصول إلى الموقع. لنفسي ولك ، عزيزي القارئ ، قمت بجمع المعلومات وتحويلها إلى جهاز لوحي مناسب.

من هم روبوتات البحث

بحث بوت، أو كما يطلق عليهم أيضًا ، روبوت ، زاحف ، عنكبوت - ليس أكثر من برنامج يبحث في محتوى المواقع ويفحصه بالضغط على الروابط الموجودة في الصفحات.روبوتات البحث ليست فقط لمحركات البحث. على سبيل المثال ، تستخدم خدمة Ahrefs العناكب لتحسين البيانات الموجودة على الروابط الخلفية ، ويقوم Facebook بإجراء تجريف على الويب لرمز الصفحة لعرض إعادة نشر الارتباط بالعناوين والصور والأوصاف. تجريف الويب هو جمع المعلومات من مصادر مختلفة.

استخدام أسماء العنكبوت في ملف robots.txt

كما ترى ، فإن أي مشروع جاد متعلق بالبحث في المحتوى له عناكب. وأحيانًا تكون مهمة ملحة تقييد وصول بعض العناكب إلى الموقع أو موقعه أقسام منفصلة. يمكن القيام بذلك من خلال ملف robots.txt في الدليل الجذر للموقع. لقد كتبت المزيد عن إعداد الروبوتات في وقت سابق ، أوصي بقراءتها.

يرجى ملاحظة أنه يمكن تجاهل ملف robots.txt وتوجيهاته بواسطة روبوتات البحث. التوجيهات هي مجرد إرشادات للروبوتات.

يمكنك تعيين توجيه لروبوت البحث باستخدام القسم - نداء لوكيل المستخدم لهذا الروبوت. يتم فصل أقسام العناكب المختلفة بسطر فارغ واحد.

وكيل المستخدم: Googlebot Allow: /

وكيل المستخدم: Googlebot

يسمح: /

ما ورد أعلاه هو مثال لاستدعاء زاحف Google الرئيسي.

في البداية ، خططت لإضافة إدخالات إلى الجدول حول كيفية تعريف روبوتات البحث على نفسها في سجلات الخادم. ولكن نظرًا لأن هذه البيانات ذات أهمية قليلة بالنسبة إلى مُحسّنات محرّكات البحث ويمكن أن يكون هناك عدة أنواع من السجلات لكل رمز مميز للوكيل ، فقد تقرر الحصول على اسم الروبوتات والغرض منها فقط.

البحث عن الروبوتات G o o g l e

وكيل المستخدم المهام
Googlebot مفهرس الزاحف الرئيسي للصفحات المحسّنة لأجهزة الكمبيوتر الشخصية والهواتف الذكية
Mediapartners-Google روبوت شبكة إعلانات AdSense
واجهات برمجة التطبيقات جوجل وكيل مستخدم APIs-Google
AdsBot-Google يتحقق من جودة الإعلانات على صفحات الويب المصممة للكمبيوتر الشخصي
AdsBot-Google-Mobile يتحقق من جودة الإعلانات على صفحات الويب المصممة لأجهزة الجوال
Googlebot Image (Googlebot) فهارس الصور على صفحات الموقع
Googlebot News (Googlebot) البحث عن صفحات لإضافتها إلى أخبار Google
Googlebot Video (Googlebot) فهرسة محتوى الفيديو
AdsBot-Google-Mobile-Apps يتحقق من جودة الإعلانات في تطبيقات لـ أجهزة Android، يعمل على نفس مبادئ AdsBot العادية

البحث في الروبوتات أنا فهرس

وكيل المستخدم المهام
ياندكس عندما يتم تحديد رمز الوكيل هذا في ملف robots.txt ، ينتقل الطلب إلى جميع روبوتات Yandex
YandexBot روبوت الفهرسة الرئيسي
ياندكس دايركت يقوم بتنزيل معلومات حول محتوى مواقع شركاء YAN
YandexImages فهارس صور الموقع
YandexMetrika روبوت ياندكس ميتريكا
YandexMobileBot يقوم بتنزيل المستندات للتحليل لوجود مخطط للأجهزة المحمولة
ياندكس ميديا روبوت فهرسة بيانات الوسائط المتعددة
ياندكس نيوز مفهرس Yandex.News
YandexPagechecker مدقق البيانات الجزئية
ياندكس ماركت روبوت Yandex.Market ؛
ياندكس كاليندا الروبوت Yandex.Calendar
YandexDirectDyn يولد شعارات ديناميكية (مباشر)
YaDirectFetcher تنزيل الصفحات مع الإعلانات للتحقق من توفرها وتوضيح الموضوعات (YAN)
YandexAccessibilityBot صفحات التنزيل للتحقق من توفرها للمستخدمين
YandexScreenshotBot يأخذ لقطة (لقطة شاشة) للصفحة
YandexVideoParser Yandex.Video service spider
YandexSearchShop يقوم بتنزيل ملفات YML الخاصة بكتالوجات المنتجات
YandexOntoDBAPI كائن استجابة الروبوت تحميل البيانات الديناميكية

روبوتات البحث الشائعة الأخرى

وكيل المستخدم المهام
Baiduspider محرك البحث الصيني بايدو العنكبوت
cliqzbot Cliqz روبوت محرك البحث المجهول
AhrefsBot روبوت البحث Ahrefs (تحليل الارتباط)
جينيو روبوت خدمة Genieo
بينجبوت Bing محرك البحث الزاحف
تسرع في الشراب ياهو محرك البحث الزاحف
DuckDuckBot زاحف الويب PS DuckDuckGo
Facebot روبوت Facebook للزحف على الويب
WebAlta (WebAlta Crawler / 2.0) بحث الزاحف PS WebAlta
بومبورابوت يمسح الصفحات المشاركة في مشروع بومبورا
CCBot الزاحف المستند إلى Nutch الذي يستخدم مشروع Apache Hadoop
MSNBot بوت PS MSN
البريد Mail.Ru محرك البحث الزاحف
ia_archiver كشط البيانات لخدمة Alexa
تيوما اسأل بوت الخدمة

هناك الكثير من روبوتات البحث ، لقد اخترت فقط أكثرها شهرة وشهرة. إذا كانت هناك روبوتات واجهتها بسبب الزحف العدواني والمستمر إلى الموقع ، فيرجى الإشارة إلى ذلك في التعليقات ، وسأضيفها أيضًا إلى الجدول.

روبوتات محركات البحث ، التي يشار إليها أحيانًا باسم العناكب أو الزواحف ، هي وحدات البرامجالبحث عن صفحات الويب. كيف يعملون؟ ماذا يفعلون حقا؟ لماذا هم مهمون؟

مع كل الضجة حول تحسين محرك البحث وقواعد بيانات فهرس محرك البحث ، قد تفكر في أن الروبوتات يجب أن تكون كائنات عظيمة وقوية. غير صحيح. تحتوي روبوتات محركات البحث على ميزات أساسية مماثلة لتلك الموجودة في المتصفحات المبكرة من حيث المعلومات التي يمكن التعرف عليها على الموقع. مثل المتصفحات القديمة ، لا تستطيع الروبوتات ببساطة القيام بأشياء معينة. لا تفهم الروبوتات الإطارات أو رسوم الفلاش المتحركة أو الصور أو JavaScript. لا يمكنهم إدخال أقسام محمية بكلمة مرور ولا يمكنهم النقر فوق جميع الأزرار الموجودة على الموقع. يمكن أن تتعثر في عملية فهرسة عناوين URL الديناميكية وتكون بطيئة جدًا ، لدرجة التوقف وعاجزة عن التنقل عبر JavaScript.

كيف تعمل روبوتات محرك البحث؟

يجب اعتبار برامج زحف الويب على أنها برامج تلقائية لاستخراج البيانات تتصفح الويب بحثًا عن المعلومات والروابط إلى المعلومات.

عندما تقوم بزيارة صفحة إرسال عنوان URL ، تقوم بتسجيل صفحة ويب أخرى في محرك البحث ، تتم إضافة عنوان URL جديد إلى قائمة الانتظار لعرض المواقع بواسطة الروبوت. حتى إذا لم تسجل صفحة ، سيجد الكثير من الروبوتات موقعك نظرًا لوجود روابط من مواقع أخرى مرتبطة بموقعك. هذا هو أحد الأسباب التي تجعل من المهم بناء شعبية الرابط ووضع روابط على موارد مواضيعية أخرى.

عندما يصلون إلى موقعك ، تتحقق الروبوتات أولاً من وجود ملف robots.txt. يخبر هذا الملف برامج الروبوت بأقسام موقعك التي لا يجب فهرستها. عادة يمكن أن تكون هذه أدلة تحتوي على ملفات لا يهتم بها الروبوت أو لا ينبغي أن يعرفها.

تقوم الروبوتات بتخزين وجمع الروابط من كل صفحة يزورها ثم تتبع هذه الروابط لاحقًا إلى صفحات أخرى. الجميع شبكة العالميةبنيت من الروابط. كانت الفكرة الأولية لإنشاء شبكة الإنترنت هي أنه سيكون من الممكن تتبع الروابط من مكان إلى آخر. هذه هي الطريقة التي تتحرك بها الروبوتات.

تعتمد البراعة في فهرسة الصفحات في الوقت الفعلي على مهندسي محركات البحث ، الذين اخترعوا الطرق المستخدمة لتقييم المعلومات التي تتلقاها روبوتات محرك البحث. يتم تضمينها في قاعدة البيانات محرك البحث، فإن المعلومات متاحة للمستخدمين الذين يجرون عمليات البحث. عندما يقوم مستخدم محرك البحث بإدخال مصطلح بحث ، يتم إجراء سلسلة من العمليات الحسابية السريعة لضمان إرجاع المجموعة الصحيحة من المواقع للإجابة الأكثر صلة.

يمكنك عرض صفحات موقعك التي تمت زيارتها بالفعل بواسطة روبوت البحث ، مسترشدًا بملفات سجل الخادم ، أو نتائج المعالجة الإحصائية لملف السجل. من خلال تحديد برامج الروبوت ، يمكنك معرفة وقت زيارتهم لموقعك والصفحات وعدد المرات. يمكن التعرف على بعض برامج الروبوت بسهولة من خلال أسمائها ، مثل Googles Googlebot. البعض الآخر أكثر إخفاءًا ، مثل Inktomis Slurp. يمكن أيضًا العثور على روبوتات أخرى في السجلات ومن المحتمل أنك لن تتمكن من التعرف عليها على الفور ؛ قد يكون بعضها من المتصفحات التي يتحكم فيها الإنسان.

بالإضافة إلى تحديد برامج الزحف الفريدة وحساب عدد الزيارات التي تقوم بها ، يمكن أن تظهر لك الإحصائيات أيضًا برامج زحف أو برامج زحف عدوانية أو تستهلك عرض النطاق الترددي لا ترغب في زيارة موقعك.

كيف يقرؤون صفحات موقع الويب الخاص بك؟

عندما يزور الزاحف إحدى الصفحات ، فإنه يمسح النص المرئي ومحتوى العلامات المختلفة بتنسيق مصدر الرمزصفحتك (علامة العنوان والعلامات الوصفية وما إلى ذلك) ، بالإضافة إلى الارتباطات التشعبية على الصفحة. بناءً على كلمات الروابط ، يقرر محرك البحث موضوع الصفحة. هناك العديد من العوامل المستخدمة لحساب النقاط الرئيسية للصفحة "التي تلعب دورًا". لكل محرك بحث خوارزمية خاصة به لتقييم المعلومات ومعالجتها. اعتمادًا على كيفية تكوين الروبوت ، تتم فهرسة المعلومات ثم تسليمها إلى قاعدة بيانات محرك البحث.

بعد ذلك ، تصبح المعلومات التي يتم تسليمها إلى قواعد بيانات فهرس محرك البحث جزءًا من محرك البحث وعملية ترتيب قاعدة البيانات. عندما يقوم الزائر بتقديم طلب ، ينتقل محرك البحث عبر قاعدة البيانات بأكملها لإرجاع القائمة النهائية ذات الصلة استعلام بحث.

قاعدة البيانات محركات البحثتتم معالجتها ومواءمتها بعناية. إذا كنت موجودًا بالفعل في قاعدة البيانات ، فستقوم الروبوتات بزيارتك بشكل دوري لجمع أي تغييرات على الصفحات والتأكد من أن لديهم أحدث المعلومات. يعتمد عدد الزيارات على إعدادات محرك البحث ، والتي قد تختلف حسب نوعه والغرض منه.

في بعض الأحيان ، يتعذر على روبوتات البحث فهرسة موقع ويب. إذا تعطل موقعك أو قام عدد كبير من الزوار بزيارة الموقع ، فقد يكون الروبوت عاجزًا عن محاولة فهرسته. عند حدوث ذلك ، لا يمكن إعادة فهرسة الموقع ، اعتمادًا على عدد مرات قيام الروبوت بزيارته. في معظم الحالات ، ستحاول برامج الروبوت التي لم تتمكن من الوصول إلى صفحاتك لاحقًا ، على أمل أن يكون موقعك متاحًا قريبًا.

لا يمكن التعرف على العديد من برامج الزحف عند عرض السجلات. ربما يزورونك ، لكن السجلات تشير إلى أن شخصًا ما يستخدم متصفح Microsoft ، وما إلى ذلك. تعرّف بعض الروبوتات عن نفسها باستخدام اسم محرك البحث (googlebot) أو استنساخه (Scooter = AltaVista).

اعتمادًا على كيفية تكوين الروبوت ، تتم فهرسة المعلومات ثم تسليمها إلى قواعد بيانات محرك البحث.

تخضع قواعد بيانات محرك البحث للتعديل في أوقات مختلفة. حتى الدلائل التي تحتوي على نتائج بحث ثانوية تستخدم بيانات الروبوت كمحتوى لموقعها على الويب.

في الواقع ، لا تستخدم محركات البحث الروبوتات فقط لما سبق. هناك روبوتات تتحقق من قواعد البيانات بحثًا عن محتوى جديد ، وتزور محتوى قاعدة البيانات القديمة ، وتتحقق مما إذا كانت الروابط قد تغيرت ، وتنزيل مواقع كاملة للتصفح ، وما إلى ذلك.

لهذا السبب ، تساعدك قراءة ملفات السجل وتتبع نتائج محرك البحث في مراقبة فهرسة مشاريعك.

روبوت البحث يسمى برنامج خاص لمحرك البحث ، وهو مصمم للدخول في قاعدة البيانات (فهرسة) المواقع الموجودة على الإنترنت وصفحاتها. تُستخدم الأسماء أيضًا: crawler، spider، bot، automaticindexer، ant، webcrawler، bot، webscutter، webrobots، webspider.

مبدأ التشغيل

روبوت البحث هو برنامج من نوع المتصفح. يقوم بمسح الشبكة باستمرار: يزور المواقع المفهرسة (المعروفة بالفعل) ، ويتابع الروابط منها ويجد موارد جديدة. عند العثور على مورد جديد ، يقوم روبوت الإجراء بإضافته إلى فهرس محرك البحث. يقوم روبوت البحث أيضًا بفهرسة التحديثات على المواقع ، والتي يتم إصلاح ترددها. على سبيل المثال ، سيتم زيارة الموقع الذي يتم تحديثه مرة واحدة في الأسبوع بواسطة عنكبوت بهذا التردد ، ويمكن فهرسة المحتوى الموجود على المواقع الإخبارية في غضون دقائق من نشره. إذا لم يكن هناك رابط من موارد أخرى يؤدي إلى الموقع ، فمن أجل جذب روبوتات البحث ، يجب إضافة المورد من خلال نموذج خاص (Google Webmaster Center ، Yandex Webmaster Panel ، إلخ).

أنواع روبوتات البحث

العناكب Yandex:

  • Yandex / 1.01.001 I هو روبوت الفهرسة الرئيسي ،
  • Yandex / 1.01.001 (P) - فهارس الصور ،
  • Yandex / 1.01.001 (H) - يجد مرايا الموقع ،
  • Yandex / 1.03.003 (D) - يحدد ما إذا كانت الصفحة المضافة من لوحة مشرف الموقع تطابق معلمات الفهرسة ،
  • YaDirectBot / 1.0 (I) - يقوم بفهرسة الموارد من شبكة إعلانات Yandex ،
  • Yandex / 1.02.000 (F) - فهرسة المواقع المفضلة.

عناكب جوجل:

  • Googlebot هو برنامج الروبوت الرئيسي ،
  • Googlebot News - يزحف إلى الأخبار ويفهرسها ،
  • Google Mobile - يفهرس مواقع الويب للأجهزة المحمولة ،
  • صور Googlebot - للبحث في الصور وفهرستها ،
  • Googlebot Video - يفهرس مقاطع الفيديو ،
  • Google AdsBot - يتحقق من جودة الصفحة المقصودة ،
  • Google Mobile AdSense و Google AdSense - يفهرس مواقع شبكة إعلانات Google.

تستخدم محركات البحث الأخرى أيضًا عدة أنواع من الروبوتات التي تشبه وظيفيًا تلك المدرجة.

1.1.1. مكونات محرك البحث

لا يتم تجديد المعلومات الموجودة على الويب فحسب ، بل تتغير أيضًا باستمرار ، ولكن لا أحد يخبر أي شخص بهذه التغييرات. غائب نظام واحدإدخال المعلومات المتوفرة في نفس الوقت لجميع مستخدمي الإنترنت. لذلك ، من أجل تنظيم المعلومات ، وتزويد المستخدمين بوسائل ملائمة للبحث عن البيانات ، تم إنشاء محركات البحث.

محركات البحث أنواع مختلفة. يبحث بعضهم عن معلومات بناءً على ما يضعه الناس فيها. يمكن أن تكون هذه الدلائل حيث المعلومات حول المواقع ، الخاصة بهم وصف قصيرأو يتم إدخال المراجعات من قبل المحررين. يتم البحث عنها بين هذه الأوصاف.

يقوم الأخير بجمع المعلومات على الويب باستخدام برامج خاصة. هذه محركات بحث تتكون ، كقاعدة عامة ، من ثلاثة مكونات رئيسية:

فِهرِس؛

محرك البحث.

عامل، أو بشكل أكثر شيوعًا - عنكبوت ، روبوت (في الأدب الإنجليزي - عنكبوت ، زاحف) ، في البحث عن معلومات يتجاوز الشبكة أو جزء معين منها. يحتفظ هذا الروبوت بقائمة من العناوين (عناوين URL) التي يمكنه زيارتها وفهرستها ، ويقوم بتنزيل المستندات المقابلة للروابط ويحللها على فترات منتظمة لكل محرك بحث. يتم حفظ المحتوى الناتج للصفحات بواسطة الروبوت في شكل أكثر إحكاما ويتم نقله إلى الفهرس. إذا تم العثور على ارتباط جديد أثناء تحليل الصفحة (المستند) ، فسيضيفه الروبوت إلى قائمته. لذلك ، يمكن العثور على أي مستند أو موقع يحتوي على روابط بواسطة الروبوت. والعكس صحيح إذا كان الموقع أو أي جزء منه لا يحتوي على أي منها روابط خارجية، قد لا يجدها الروبوت.

الروبوت ليس مجرد جامع معلومات. لديه "ذكاء" متطور إلى حد ما. يمكن للروبوتات البحث عن مواقع لموضوع معين ، وإنشاء قوائم بالمواقع مرتبة حسب حركة المرور ، واستخراج المعلومات ومعالجتها من قواعد البيانات الموجودة ، ويمكنها تتبع روابط ذات أعماق متداخلة مختلفة. لكن على أي حال ، فإنهم يمررون جميع المعلومات الموجودة إلى قاعدة البيانات (الفهرس) لمحرك البحث.

روبوتات البحث هي أنواع مختلفة:

? العنكبوت(العنكبوت) هو برنامج يقوم بتنزيل صفحات الويب بنفس طريقة متصفح المستخدم. الفرق هو أن المستعرض يعرض المعلومات الواردة في الصفحة (نصوص ، رسومات ، إلخ) ، بينما لا يحتوي العنكبوت على أي مكونات مرئية ويعمل مباشرة مع نص HTML للصفحة (على غرار ما ستراه إذا قم بتشغيل عرض كود HTML في متصفحك).

? الزاحف(crawler، "travel" spider) - يميز جميع الروابط الموجودة في الصفحة. وتتمثل مهمتها في تحديد المكان الذي يجب أن ينتقل إليه العنكبوت بعد ذلك ، بناءً على الروابط أو بناءً على قائمة عناوين محددة مسبقًا. يبحث الزاحف ، بعد الروابط التي تم العثور عليها ، عن المستندات الجديدة التي لا تزال غير معروفة لمحرك البحث.

? مفهرسيوزع الصفحة إلى الأجزاء المكونة لها ويحللها. يتم تحديد عناصر الصفحة المختلفة وتحليلها ، مثل النص والعناوين والميزات الهيكلية والأسلوب وعلامات HTML الخاصة بالخدمة وما إلى ذلك.

فِهرِس- هذا هو جزء محرك البحث الذي يتم فيه البحث عن المعلومات. يحتوي الفهرس على جميع البيانات التي تم تمريرها إليه بواسطة الروبوتات ، وبالتالي يمكن أن يصل حجم الفهرس إلى مئات الجيجابايت. في الواقع ، يحتوي الفهرس على نسخ من جميع الصفحات التي تمت زيارتها بواسطة الروبوتات. إذا اكتشف الروبوت تغييرًا في صفحة قام بفهرستها بالفعل ، فإنه يرسل معلومات محدثة إلى الفهرس. يجب أن تحل محل الصفحة الحالية ، ولكن في بعض الحالات لا تظهر صفحة جديدة فقط في الفهرس ، ولكن تظل الصفحة القديمة أيضًا.

محرك البحثهي الواجهة ذاتها التي يتفاعل من خلالها الزائر مع الفهرس. من خلال الواجهة ، يقوم المستخدمون بإدخال طلباتهم وتلقي الردود ، ويقوم أصحاب الموقع بتسجيلها (وهذا التسجيل طريقة أخرى لنقل عنوان موقعك إلى الروبوت). عند معالجة استعلام ، يقوم محرك البحث بتحديد الصفحات والمستندات المقابلة من بين الملايين العديدة من الموارد المفهرسة وترتيبها حسب الأهمية أو الصلة بالاستعلام.



تحميل...
قمة