Роботи за търсачки. Търсачките техните роботи и паяци Паяци за търсене

робот за търсене извиква се специална програма на търсачка, която е предназначена да въвежда в базата данни (индексиране) сайтове, намерени в Интернет и техните страници. Използват се и имената: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Принцип на действие

Роботът за търсене е програма от тип браузър. Той непрекъснато сканира мрежата: посещава индексирани (вече познати му) сайтове, следва връзки от тях и намира нови ресурси. Когато бъде намерен нов ресурс, роботът-процедура го добавя към индекса на търсачката. Роботът за търсене също индексира актуализации на сайтове, чиято честота е фиксирана. Например, сайт, който се актуализира веднъж седмично, ще бъде посещаван от паяк с тази честота, а съдържанието на новинарските сайтове може да бъде индексирано в рамките на минути след публикуването. Ако връзката от други ресурси не води към сайта, тогава, за да привлечете роботи за търсене, ресурсът трябва да бъде добавен чрез специална форма (Google Webmaster Center, Yandex Webmaster Panel и др.).

Видове роботи за търсене

Yandex паяци:

  • Yandex/1.01.001 I е основният индексиращ бот,
  • Yandex/1.01.001 (P) - индексира снимки,
  • Yandex/1.01.001 (H) - намира огледални сайтове,
  • Yandex/1.03.003 (D) - определя дали страницата, добавена от панела за уеб администратори, отговаря на параметрите за индексиране,
  • YaDirectBot/1.0 (I) - индексира ресурси от рекламната мрежа Yandex,
  • Yandex/1.02.000 (F) — индексира favicons на сайта.

Google Spiders:

  • Googlebot е основният робот,
  • Googlebot News - обхожда и индексира новини,
  • Google Mobile - индексира уебсайтове за мобилни устройства,
  • Googlebot Images - търси и индексира изображения,
  • Googlebot Video - индексира видеоклипове,
  • Google AdsBot - проверява качеството на целевата страница,
  • Google Mobile AdSense и Google AdSense - индексира сайтовете от рекламната мрежа на Google.

Други търсачки също използват няколко вида роботи, които са функционално подобни на изброените.

обикновено, търсачкае сайт, който е специализиран в намирането на информация, която отговаря на критериите за заявка на потребителя. Основната задача на такива сайтове е да организират и структурират информацията в мрежата.

Повечето хора, използвайки услугите на търсачката, никога не се чудят как точно работи машината, търсейки необходимата информация от дълбините на Интернет.

За обикновения потребител на мрежата самата концепция за принципите на работа на търсачките не е критична, тъй като алгоритмите, които ръководят системата, са в състояние да задоволят нуждите на човек, който не знае как да направи оптимизирана заявка, когато търсене на необходимата информация. Но за уеб разработчик и специалисти, занимаващи се с оптимизация на уебсайтове, е просто необходимо да имат поне първоначалните концепции за структурата и принципите на търсачките.

Всяка търсачка работи с точни алгоритми, които се пазят в най-строга тайна и са известни само на тесен кръг служители. Но когато проектирате сайт или го оптимизирате, е задължително да вземете предвид общите правила за функциониране на търсачките, които са разгледани в тази статия.

Въпреки факта, че всеки PS има своя собствена структура, след внимателно проучване те могат да бъдат комбинирани в основни, обобщаващи компоненти:

Модул за индексиране

Модул за индексиране - Този елемент включва три допълнителни компонента (ботове):

1. Паяк (робот паяк) - изтегля страници, филтрира текстовия поток, извлича всички вътрешни хипервръзки от него. В допълнение, Spider запазва датата на изтегляне и заглавието на отговора на сървъра, както и URL - адреса на страницата.

2. Обхождане (пълзящ робот паяк) - анализира всички връзки на страницата и въз основа на този анализ определя коя страница да посети и коя не си струва да бъде посетена. По същия начин роботът намира нови ресурси, които трябва да бъдат обработени от PS.

3. индексатор (Робот-индексатор) - занимава се с анализ на интернет страници, изтеглени от паяк. В този случай самата страница се разделя на блокове и се анализира от индексатора с помощта на морфологични и лексикални алгоритми. Различни части от уеб страница попадат под анализа на индексатора: заглавия, текстове и друга служебна информация.

Всички документи, обработвани от този модул, се съхраняват в базата данни на търсещия, наречена системен индекс. В допълнение към самите документи, базата данни съдържа необходимите сервизни данни - резултат от внимателна обработка на тези документи, ръководени от които търсачката изпълнява заявките на потребителите.

сървър за търсене

следващ, много важен компонентсистеми - сървър за търсене, чиято задача е да обработи потребителска заявка и да генерира страница с резултати от търсенето.

Обработвайки заявката на потребителя, сървърът за търсене изчислява степента на съответствие на избраните документи спрямо заявката на потребителя. Това класиране определя позицията, която една уеб страница ще заеме в резултатите от търсенето. Всеки документ, който отговаря на критериите за търсене, се показва на страницата с резултати като фрагмент.

Фрагментът е Кратко описаниестраница, включително заглавие, връзка, ключови думи и кратка текстова информация. Въз основа на фрагмента потребителят може да прецени доколко страниците, избрани от търсачката, съответстват на неговата заявка.

Най-важният критерий, от който сървърът за търсене се ръководи при класиране на резултатите от заявка, е индикаторът TCI (), който вече ни е познат.

Всички описани компоненти на PS са скъпи и много ресурсоемки. Ефективността на търсачката директно зависи от ефективността на взаимодействието на тези компоненти.

Хареса ли ви статията? Абонирайте се за новини в блога или споделете в социалните мрежи и аз ще ви отговоря


6 коментара към публикацията „Търсачките са техните роботи и паяци“

    Отдавна търся тази информация, благодаря.

    Отговор

    Радвам се, че блогът ви непрекъснато се развива. Публикации като тази само увеличават популярността.

    Отговор

    Разбрах нещо. Въпросът е дали PR по някакъв начин зависи от TIC?

    Здравейте приятели! Днес ще научите как работят роботите за търсене на Yandex и Google и каква функция изпълняват при промоцията на уебсайтове. Така че да тръгваме!

    Търсачките извършват това действие, за да намерят десет WEB проекта от един милион сайтове, които имат висококачествен и уместен отговор на заявката на потребителя. Защо само десет? Защото се състои само от десет позиции.

    Роботи за търсене на приятели и уеб администратори и потребители

    Защо е важно да посещавате сайта от търсещи роботи вече стана ясно и защо е за потребителя? Точно така, за да може потребителят да отваря само онези сайтове, които отговарят изцяло на заявката му.

    Робот за търсене- много гъвкав инструмент, той може да намери сайт, дори такъв, който току-що е създаден и собственикът на този сайт все още не е участвал в . Ето защо този бот беше наречен паяк, той може да протегне лапите си и да стигне навсякъде във виртуалната мрежа.

    Възможно ли е да контролирате робота за търсене според вашите интереси

    Има моменти, когато някои страници не са включени в търсенето. Това се дължи главно на факта, че тази страница все още не е индексирана от робот за търсене. Разбира се, рано или късно роботът за търсене ще забележи тази страница. Но отнема време, а понякога доста време. Но тук можете да помогнете на робота за търсене да посети тази страница по-бързо.

    За да направите това, можете да поставите сайта си в специални директории или списъци, социални мрежи. Като цяло, на всички сайтове, където роботът за търсене просто живее. Например в социалните мрежи има актуализация всяка секунда. Опитайте се да заявите вашия сайт и роботът за търсене ще стигне до вашия сайт много по-бързо.

    От това следва едно, но основно правило. Ако искате ботовете на търсачките да посещават вашия сайт, те трябва редовно да получават ново съдържание. В случай, че забележат, че съдържанието се актуализира, сайтът се развива, те ще посещават вашия интернет проект много по-често.

    Всеки робот за търсене може да запомни колко често се променя съдържанието ви. Той оценява не само качеството, но и времевите интервали. И ако материалът на сайта се актуализира веднъж месечно, тогава той ще идва на сайта веднъж месечно.

    По този начин, ако сайтът се актуализира веднъж седмично, тогава роботът за търсене ще идва веднъж седмично. Ако актуализирате сайта всеки ден, тогава роботът за търсене ще посещава сайта всеки ден или през ден. Има сайтове, които се индексират в рамките на няколко минути след актуализацията. Това социална медия, новинарски агрегатори и сайтове, които публикуват по няколко статии на ден.

    Как да дадете задача на робот и да му забраните нещо?

    В самото начало научихме, че търсачките имат няколко робота, които изпълняват различни задачи. Някой търси снимки, някой линкове и така нататък.

    Можете да управлявате всеки робот с помощта на специален файл robots.txt . Именно от този файл роботът започва да се запознава със сайта. В този файл можете да посочите дали роботът може да индексира сайта, ако да, кои секции. Всички тези инструкции могат да бъдат създадени за един или всички роботи.

    Обучение за промоция на уебсайт

    Научете повече за тънкостите на SEO промотирането на уебсайтове в търсачките Google системии Yandex, аз говоря по Skype. Донесох всички мои WEB проекти до повече посещаемост и получавам отлични резултати от това. Мога да те науча, ако проявяваш интерес!

    Приятели, поздравявам ви отново! Сега ще анализираме какви са роботите за търсене и ще говорим подробно за робота за търсене на Google и как да бъдем приятели с тях.

    Първо трябва да разберете какво представляват роботите за търсене като цяло, те също се наричат ​​​​паяци. Каква работа вършат паяците на търсачките?

    Това са програми, които проверяват уебсайтове. Те преглеждат всички публикации и страници във вашия блог, събират информация, която след това прехвърлят в базата данни на търсачката, за която работят.

    Не е необходимо да знаете целия списък с роботи за търсене, най-важното е да знаете, че Google вече има два основни паяка, които се наричат ​​"панда" и "пингвин". Те се борят с нискокачествено съдържание и нежелани връзки и трябва да знаете как да отблъснете техните атаки.

    Роботът за търсене на google panda е създаден, за да популяризира само висококачествен материал в търсенето. Всички сайтове с нискокачествено съдържание са надолу в резултатите от търсенето.

    За първи път този паяк се появи през 2011 г. Преди появата му беше възможно да се популяризира всеки сайт чрез публикуване на голямо количество текст в статии и използване на огромно количество ключови думи. Заедно тези две техники не доведоха висококачествено съдържание до върха на резултатите от търсенето, но добрите сайтове отпаднаха в резултатите от търсенето.

    "Панда" веднага сложи ред, като провери всички сайтове и постави всички на полагащите им се места. Въпреки че се бори с нискокачествено съдържание, дори малки сайтове с качествени статии могат да бъдат популяризирани сега. Въпреки че преди беше безполезно да се рекламират такива сайтове, те не можеха да се конкурират с гигантите, които имат голямо количество съдържание.

    Сега ще разберем как да избегнем санкциите "панда". Първо трябва да разберем какво не й харесва. Вече написах по-горе, че тя се бори с лошо съдържание, но какъв вид текст е лош за нея, нека го разберем, за да не го публикуваме на нейния сайт.

    Роботът за търсене на Google се стреми да гарантира, че в тази търсачка се издават само висококачествени материали за кандидатите. Ако имате статии, в които има малко информация и те не са привлекателни на външен вид, тогава спешно пренапишете тези текстове, така че „пандата“ да не стигне до вас.

    Качественото съдържание може да бъде както голямо, така и малко, но ако паякът види дълга статия с много информация, това ще бъде от повече полза за читателя.

    След това трябва да се отбележи дублиране, с други думи плагиатство. Ако смятате, че ще пренаписвате статии на други хора за вашия блог, можете веднага да сложите край на вашия сайт. Копирането се наказва строго чрез прилагане на филтър и плагиатството се проверявамного лесно, написах статия по темата как да проверявате текстовете за уникалност.

    Следващото нещо, което трябва да забележите, е пренасищането на текста с ключови думи. Който си мисли, че ще напише статия от същите ключови думи и ще заеме първо място в резултатите от търсенето, много се лъже. Имам статия за това как да проверявам страниците за уместност, не забравяйте да я прочетете.

    И какво друго може да привлече „панда“ към вас са стари статии, които са морално остарели и не носят трафик към сайта. Те трябва да бъдат актуализирани.

    Има и робот за търсене на Google "пингвин". Този паяк се бори със спам и нежелани връзки на вашия сайт. Той също така изчислява закупените връзки от други ресурси. Ето защо, за да не се страхувате от този робот за търсене, не трябва да купувате връзки, а да публикувате висококачествено съдържание, така че хората сами да се свързват с вас.

    Сега нека формулираме какво трябва да се направи, за да изглежда сайтът перфектно през очите на робот за търсене:

    • За да направите качествено съдържание, първо проучете добре темата, преди да напишете статия. Тогава трябва да разберете, че хората наистина се интересуват от тази тема.
    • Използвайте конкретни примерии снимки, това ще направи статията жива и интересна. Разделете текста на малки абзаци, за да е лесен за четене. Например, ако отворите страница с вицове във вестник, кои ще прочетете първо? Естествено всеки човек първо чете кратки текстове, след това по-дълги и не на последно място дълги кърпички.
    • Любимата заядка на Panda не е уместността на статия, която съдържа остаряла информация. Очаквайте актуализации и промени в текстовете.
    • Гледайте плътността на ключовите думи, по-горе писах как се определя тази плътност, в услугата, за която говорих, ще получите точния брой необходими ключове.
    • Не плагиатствайте, всеки знае, че не можете да крадете неща или текст на други хора - това е едно и също нещо. Вие ще бъдете отговорни за кражба, като попаднете под филтъра.
    • Пишете текстове за поне две хиляди думи, тогава такава статия ще изглежда информативна през очите на роботите на търсачките.
    • Не се отклонявайте от темата в блога си. Ако водите блог за правене на пари в Интернет, тогава не е нужно да печатате статии за въздушни оръжия. Това може да понижи рейтинга на вашия ресурс.
    • Красиво оформете статиите, разделете ги на параграфи и добавете снимки, за да е приятно за четене и да не искате бързо да напускате сайта.
    • Когато купувате връзки, направете ги към най-интересните и полезни статии, които хората наистина ще прочетат.

    Е, сега знаете каква работа вършат роботите на търсачките и можете да бъдете приятели с тях. И най-важното, роботът за търсене на Google и "панда" и "пингвин" са подробно проучени от вас.

    1.1.1. Компоненти на търсачката

    Информацията в мрежата не само се попълва, но и постоянно се променя, но никой не казва на никого за тези промени. Отсъстващ една системавъвеждане на информация, която е достъпна едновременно за всички интернет потребители. Ето защо, за да се структурира информацията, да се предоставят на потребителите удобни средства за търсене на данни, бяха създадени търсачки.

    Търсачкиима различни видове. Някои от тях търсят информация въз основа на това, което хората влагат в тях. Това могат да бъдат директории, където редакторите въвеждат информация за сайтове, техните кратки описания или рецензии. Те се търсят сред тези описания.

    Последните събират информация в мрежата с помощта на специални програми. Това са търсачки, състоящи се, като правило, от три основни компонента:

    Индекс;

    търсачка.

    агент, или по-често - паяк, робот (в англоезичната литература - spider, crawler), в търсене на информация заобикаля мрежата или определена част от нея. Този робот поддържа списък с адреси (URL), които може да посещава и индексира, изтегля документи, съответстващи на връзките, и ги анализира на редовни интервали за всяка търсачка. Полученото съдържание на страниците се записва от робота в по-компактна форма и се прехвърля в Индекса. Ако по време на анализа на страницата (документа) бъде открита нова връзка, роботът ще я добави към своя списък. Следователно всеки документ или сайт, който има връзки, може да бъде намерен от робота. И обратното, ако сайтът или част от него няма такива външни връзки, роботът може да не го намери.

    Роботът не е просто събирач на информация. Той има доста развита "интелигентност". Роботите могат да търсят сайтове с определена тема, да генерират списъци със сайтове, сортирани по трафик, да извличат и обработват информация от съществуващи бази данни и да следват връзки с различна дълбочина на влагане. Но във всеки случай те предават цялата намерена информация в базата данни (Индекс) на търсачката.

    Търсещи роботиима различни видове:

    ? Паяк(паяк) е програма, която изтегля уеб страници по същия начин като браузъра на потребителя. Разликата е, че браузърът показва информацията, съдържаща се на страницата (текст, графика и т.н.), докато паякът няма визуални компоненти и работи директно с HTML текста на страницата (подобно на това, което ще видите, ако включете прегледа на HTML кода във вашия браузър).

    ? Обхождане(краулер, "пътуващ" паяк) - подчертава всички връзки, присъстващи на страницата. Неговата задача е да определи къде следва да отиде паякът въз основа на връзки или въз основа на предварително зададен списък с адреси. Роботът, следвайки намерените връзки, търси нови документи, които все още не са известни на търсачката.

    ? Индексаторанализира страницата на нейните съставни части и ги анализира. Избират се и се анализират различни елементи на страницата, като текст, заглавия, структурни и стилови характеристики, специални сервизни HTML тагове и др.

    Индекс- това е частта от търсачката, в която се търси информация. Индексът съдържа всички данни, които са му предадени от роботи, така че размерът на индекса може да достигне стотици гигабайти. Всъщност индексът съдържа копия на всички страници, посетени от роботи. Ако роботът открие промяна на страница, която вече е индексирал, той изпраща актуализирана информация към индекса. Тя трябва да замени съществуващата, но в някои случаи не само се появява нова страница в индекса, но и старата страница остава.

    търсачкае самият интерфейс, чрез който посетителят взаимодейства с Индекса. Чрез интерфейса потребителите въвеждат своите заявки и получават отговори, а собствениците на сайтове ги регистрират (и тази регистрация е друг начин да предадете адреса на вашия сайт на робота). Когато обработва заявка, търсачката избира съответните страници и документи измежду многото милиони индексирани ресурси и ги подрежда по важност или уместност за заявката.



Зареждане...
Връх