Mesin pencari, mesin pencari dan robot laba-laba. Masa depan mesin pencari

Cara kerja robot mesin pencari

Pencarian robot (spider, bot) adalah a program kecil, mampu mengunjungi jutaan situs web tanpa partisipasi operator dan memindai gigabyte teks. Membaca halaman dan menyimpan salinan teksnya adalah tahap pertama pengindeksan dokumen baru. Perlu dicatat bahwa robot mesin pencari tidak melakukan pemrosesan apa pun terhadap data yang diterima. Tugas mereka hanyalah menyimpan informasi tekstual.

Lebih banyak video di saluran kami - pelajari pemasaran internet dengan SEMANTICA

Daftar robot pencarian

Dari semua mesin pencari yang terlibat dalam pemindaian Runet, Yandex memiliki koleksi bot terbesar. Bot berikut bertanggung jawab untuk pengindeksan:

robot pengindeks utama yang mengumpulkan data dari halaman web;
bot yang mampu mengenali cermin;
Robot pencarian Yandex yang mengindeks gambar;
laba-laba menjelajahi halaman situs yang diterima di YAN;
ikon favicon pemindaian robot;
beberapa spider yang menentukan ketersediaan halaman situs.

Robot pencarian utama Google mengumpulkan informasi tekstual. Pada dasarnya, ini melihat file html, menganalisis JS dan CSS secara berkala. Dapat menerima jenis konten apa pun yang diizinkan untuk pengindeksan. PS Google memiliki laba-laba yang mengontrol pengindeksan gambar. Ada juga robot pencari - program yang mendukung fungsi tersebut versi seluler mencari.

Lihat situs melalui mata robot pencari

Untuk memperbaiki kesalahan kode dan kekurangan lainnya, webmaster dapat mengetahui bagaimana robot pencari melihat situs tersebut. Opsi ini disediakan oleh Google PS. Anda harus pergi ke alat webmaster, lalu klik tab "pindai". Di jendela yang terbuka, pilih baris "browse as Googlebot". Selanjutnya, Anda harus memasukkan alamat halaman yang diteliti dalam formulir pencarian (tanpa menentukan domain dan protokol http://).

Dengan memilih perintah "dapatkan dan tampilkan", webmaster akan dapat menilai keadaan halaman situs secara visual. Untuk melakukan ini, Anda perlu mengklik kotak centang "permintaan untuk menampilkan". Sebuah jendela akan terbuka dengan dua versi dokumen web. Webmaster mempelajari bagaimana pengunjung biasa melihat halaman tersebut, dan dalam bentuk apa halaman itu tersedia untuk spider pencarian.

Tip! Jika dokumen web yang sedang dianalisis belum diindeks, maka Anda dapat menggunakan perintah "add to index" >> "crawl only this URL". Laba-laba akan menganalisis dokumen dalam beberapa menit, dalam waktu dekat halaman web akan muncul di hasil pencarian. Batas permintaan pengindeksan bulanan adalah 500 dokumen.

Cara memengaruhi kecepatan pengindeksan

Setelah mengetahui cara kerja robot pencari, webmaster akan dapat mempromosikan situsnya dengan lebih efisien. Salah satu masalah utama dari banyak proyek web baru adalah pengindeksan yang buruk. Robot mesin pencari enggan mengunjungi sumber daya Internet non-otoritatif.
Telah ditetapkan bahwa kecepatan pengindeksan secara langsung bergantung pada intensitas pembaruan situs. Menambahkan materi teks unik secara teratur akan menarik perhatian mesin pencari.

Untuk mempercepat pengindeksan, Anda dapat menggunakan bookmark sosial dan layanan twitter. Direkomendasikan untuk membuat Peta Situs dan mengunggahnya ke direktori akar proyek web.

Melihat melalui log server, terkadang Anda dapat mengamati minat berlebihan pada situs dari robot pencari. Jika bot berguna (misalnya, bot pengindeksan PS), itu tetap hanya untuk mengamati, meskipun beban di server meningkat. Namun masih banyak robot sekunder yang tidak memerlukan akses ke situs tersebut. Untuk saya sendiri dan untuk Anda, pembaca yang budiman, saya telah mengumpulkan informasi dan mengubahnya menjadi tablet yang nyaman.

Siapa robot pencari

bot pencarian, atau sebagaimana mereka juga disebut, robot, perayap, laba-laba - tidak lebih dari program yang mencari dan memindai konten situs dengan mengeklik tautan di halaman. Robot pencari tidak hanya untuk mesin pencari. Misalnya, layanan Ahrefs menggunakan spider untuk meningkatkan data backlink, Facebook melakukan web scraping dari kode halaman untuk menampilkan repost tautan dengan judul, gambar, dan deskripsi. Pengikisan web adalah pengumpulan informasi dari berbagai sumber.

Menggunakan nama laba-laba di robots.txt

Seperti yang Anda lihat, proyek serius apa pun yang terkait dengan pencarian konten memiliki laba-laba. Dan terkadang merupakan tugas yang mendesak untuk membatasi akses beberapa laba-laba ke situs atau miliknya bagian terpisah. Ini dapat dilakukan melalui file robots.txt di direktori root situs. Saya menulis lebih banyak tentang pengaturan robot sebelumnya, saya sarankan Anda membacanya.

Harap perhatikan bahwa file robots.txt dan arahannya dapat diabaikan oleh robot pencarian. Arahan hanyalah pedoman untuk bot.

Tetapkan arahan untuk robot pencari Anda dapat menggunakan bagian - banding ke agen pengguna robot ini. Bagian untuk laba-laba yang berbeda dipisahkan oleh satu baris kosong.

Agen-pengguna: Izinkan Googlebot: /

Agen pengguna: Googlebot

mengizinkan: /

Di atas adalah contoh panggilan ke perayap utama Google.

Awalnya, saya berencana menambahkan entri ke tabel tentang cara bot pencarian mengidentifikasi diri mereka di log server. Tetapi karena data ini tidak terlalu penting untuk SEO dan mungkin ada beberapa jenis catatan untuk setiap token agen, diputuskan untuk bertahan hanya dengan nama bot dan tujuannya.

Telusuri robot Google

Agen pengguna	Fungsi
Googlebot	Pengindeks perayap utama untuk halaman yang dioptimalkan untuk PC dan ponsel cerdas
Mediapartners-Google	Robot jaringan iklan AdSense
API-Google	APIs-agen pengguna Google
AdsBot-Google	Memeriksa kualitas iklan pada halaman web yang dirancang untuk PC
AdsBot-Google-Mobile	Memeriksa kualitas iklan di halaman web yang dirancang untuk perangkat seluler
Gambar Googlebot (Googlebot)	Mengindeks gambar di halaman situs
Berita Googlebot (Googlebot)	Mencari halaman untuk ditambahkan ke Google Berita
Video Googlebot (Googlebot)	Mengindeks konten video
AdsBot-Google-Mobile-Apps	Memeriksa kualitas iklan di aplikasi untuk perangkat Android, bekerja dengan prinsip yang sama dengan AdsBot biasa

Search robots I index

Agen pengguna	Fungsi
Yandex	Saat token agen ini ditentukan di robots.txt, permintaan masuk ke semua bot Yandex
YandexBot	Robot pengindeksan utama
YandexDirect	Mengunduh informasi tentang konten situs mitra YAN
Gambar Yandex	Mengindeks gambar situs
YandexMetrika	Robot Yandex.Metrica
YandexMobileBot	Unduh dokumen untuk analisis keberadaan tata letak untuk perangkat seluler
YandexMedia	Robot pengindeksan data multimedia
Berita Yandex	Pengindeks Yandex.News
Pemeriksa YandexPage	Validator Mikrodata
Pasar Yandex	Robot Yandex.Market;
YandexCalenda	Robot Yandex. Kalender
YandexDirectDyn	Menghasilkan spanduk dinamis (Langsung)
YaDirectFetcher	Mengunduh halaman dengan iklan untuk memeriksa ketersediaannya dan mengklarifikasi topik (YAN)
YandexAccessibilityBot	Mendownload halaman untuk memeriksa ketersediaannya bagi pengguna
YandexScreenshotBot	Mengambil snapshot (tangkapan layar) halaman
YandexVideoParser	Laba-laba layanan Yandex.Video
YandexSearchShop	Unduh file YML dari katalog produk
YandexOntoDBAPI	Robot respons objek mengunduh data dinamis

Bot pencarian populer lainnya

Agen pengguna	Fungsi
Baiduspider	Mesin pencari Cina laba-laba Baidu
cliqzbot	Cliqz robot mesin pencari anonim
AhrefsBot	Bot pencarian Ahrefs (analisis tautan)
Genio	Robot layanan Genieo
bingbot	Perayap mesin pencari Bing
Mencucup	Perayap mesin pencari Yahoo
DuckDuckBot	Perayap web PS DuckDuckGo
facebot	Robot Facebook untuk perayapan web
WebAlta (Perayap WebAlta/2.0)	Cari perayap PS WebAlta
BomboraBot	Memindai halaman yang terlibat dalam proyek Bombora
CCBot	Perayap berbasis nutch yang menggunakan proyek Apache Hadoop
MSNBot	Bot PS MSN
Mail.Ru	Perayap mesin pencari Mail.Ru
ia_archiver	Menggores data untuk layanan Alexa
Teoma	Tanyakan bot layanan

Ada banyak bot pencarian, saya hanya memilih yang paling populer dan terkenal. Jika ada bot yang Anda temui karena perayapan situs yang agresif dan terus-menerus, harap tunjukkan ini di komentar, saya juga akan menambahkannya ke tabel.

Pendidikan tinggi tersedia - pelatihan terapis pijat.

Ada lebih dari seratus juta sumber daya di Internet, dan jutaan halaman yang diinginkan tidak akan pernah diketahui oleh kita. Bagaimana menemukan drop yang kita butuhkan di lautan ini? Di sinilah datang untuk membantu kami. mencari mesin aduh. Ini laba-laba, dan hanya dia yang tahu apa dan di tempat web apa yang dia miliki.

Mencari mesin baru Internet ah, ini adalah situs yang dirancang khusus untuk membantu Anda menemukannya informasi yang perlu V jaringan global World Wide Web. Ada tiga fungsi utama, sama untuk semua mencari mesin baru:

- mencari oviks pada kata kunci yang diberikan "cari" di Internet;
- alamat diindeks mencari ovikami bersama dengan kata-kata;
- halaman web yang diindeks membentuk basis, yang mencari oviki menyediakan pengguna dengan mencari A kata kunci atau kombinasi dari mereka.

Pertama mencari Hoviki menerima hingga 2.000 permintaan per hari dan mengindeks ratusan ribu halaman. Saat ini, jumlah permintaan per hari mencapai ratusan juta halaman dan puluhan juta.

P mesin pencari hingga World Wide Web.

Pertama mencari ovikami Internet dan ada program "gopher" dan "Archie". Mereka mengindeks file yang terletak di terhubung Internet server, berulang kali mengurangi waktu untuk mencari dokumen yang diperlukan. Pada akhir 1980-an, kemampuan untuk bekerja di Internet tidak sampai pada kemampuan untuk menggunakan Archie, gopher, Veronica dan sejenisnya mencari program baru.

Hari ini web menjadi bagian yang paling banyak diminta Internet dan mayoritas Internet pengguna melaksanakan mencari hanya di World Wide Web (www).

Robot- laba-laba

Program robot yang digunakan pada mencari mesin baru, itu juga disebut "laba-laba", laba-laba(laba-laba), melakukan proses pembuatan daftar kata yang ditemukan di halaman wed-resource. Prosesnya disebut Perayapan web(merangkak). Mencari baru laba-laba melihat-lihat banyak halaman lain, membuat dan memperbaiki daftar kata-kata yang berguna, mis. memiliki beberapa arti, berat.

Perjalanan melalui mencari Anda di jaringan laba-laba (laba-laba) dimulai dengan server terbesar dan halaman web terpopuler. Setelah melewati situs semacam itu dan mengindeks semua kata yang ditemukan, ia akan merayapi situs lain menggunakan tautan yang ditemukan. Dengan cara ini, robot laba-laba menangkap seluruh ruang web.

Para pendiri Google, Sergey Brin dan Laurence Page, memberikan contoh hasil kerja Google laba-laba ov. Ada beberapa. Mencari mulai tiga laba-laba ami. Satu laba-laba mendukung hingga 300 koneksi halaman secara bersamaan. Beban puncak, empat laba-laba dan mampu memproses hingga seratus halaman per detik, sekaligus menghasilkan lalu lintas sekitar 600 kilobyte/detik. Pada saat ini, ketika Anda membaca ini, mungkin angka-angka itu akan tampak konyol bagi Anda.

Kata kunci untuk robot mesin pencari

Biasanya pemilik sumber daya web ingin disertakan mencari hasil baru untuk yang diperlukan mencari aduh kata-kata. Kata-kata ini disebut kunci S. Klyuchev Kata-kata menentukan esensi konten halaman web. Dan Tag Meta membantu dalam hal ini. Mereka kemudian menawarkan robot pencari pilihan kunci Kata-kata yang digunakan untuk mengindeks halaman. Namun kami tidak menyarankan untuk menambahkan tag meta ke kueri populer yang tidak terkait dengan konten laman itu sendiri. Bot mesin pencari melawan fenomena ini, dan Anda akan beruntung jika menghilangkan tag meta kunci dengan kata lain, tidak sesuai dengan isi halaman.

Tag meta adalah alat yang sangat berguna saat kunci Kata-kata pertama diulangi beberapa kali dalam teks halaman. Tapi jangan berlebihan, ada kemungkinan robot akan mengambil halaman untuk pintu masuk.

Algoritma pengindeksan mesin pencari

Algoritma mencari Hovik berfokus pada keefektifan hasil akhir, tetapi setiap orang memiliki pendekatan yang berbeda untuk ini. Lycos mencari Kata-kata indeks robot baru dalam judul (judul), tautan (tautan) dan hingga seratus kata yang sering digunakan pada halaman dan setiap kata dari 20 baris pertama konten halaman.

Googlebot memperhitungkan lokasi kata di halaman (di elemen body). Kata-kata bagian layanan, seperti subtitle, judul, tag meta et al menandai sebagai sangat penting, tidak termasuk kata seru "a," "an" dan "the.".

Lainnya mencari oviki mungkin memiliki cara yang sedikit berbeda dalam mendekati pengindeksan kata yang digunakan untuk mencari permintaan baru oleh pengguna.

Robot mesin pencari, terkadang disebut sebagai spider atau crawler modul perangkat lunak mencari halaman web. Bagaimana mereka bekerja? Apa yang sebenarnya mereka lakukan? Mengapa mereka penting?

Dengan semua desas-desus seputar pengoptimalan mesin telusur dan basis data indeks mesin telusur, Anda mungkin berpikir bahwa robot pastilah makhluk yang hebat dan kuat. Tidak benar. Robot mesin pencari hanya memiliki fitur dasar yang mirip dengan browser awal dalam hal informasi apa yang dapat mereka kenali di situs. Seperti browser awal, robot tidak bisa melakukan hal-hal tertentu. Robot tidak memahami bingkai, animasi Flash, gambar, atau JavaScript. Mereka tidak dapat masuk ke bagian yang dilindungi kata sandi dan tidak dapat mengklik semua tombol yang ada di situs. Mereka bisa terjebak dalam proses pengindeksan URL dinamis dan menjadi sangat lambat, sampai berhenti dan tidak berdaya atas navigasi JavaScript.

Bagaimana cara kerja robot mesin pencari?

Perayap web harus dianggap sebagai program penambangan data otomatis yang menjelajahi web untuk mencari informasi dan tautan ke informasi.

Ketika, setelah mengunjungi halaman Kirim URL, Anda mendaftarkan halaman web lain di mesin pencari, URL baru ditambahkan ke antrian untuk melihat situs oleh robot. Bahkan jika Anda tidak mendaftarkan halaman, banyak robot akan menemukan situs Anda karena ada tautan dari situs lain yang terhubung ke situs Anda. Inilah salah satu alasan mengapa penting untuk membangun popularitas tautan dan menempatkan tautan pada sumber daya tematik lainnya.

Saat mereka datang ke situs Anda, robot terlebih dahulu memeriksa apakah ada file robots.txt. File ini memberi tahu robot bagian mana dari situs Anda yang tidak akan diindeks. Biasanya ini bisa berupa direktori yang berisi file yang tidak diminati atau tidak boleh diketahui oleh robot.

Robot menyimpan dan mengumpulkan tautan dari setiap halaman yang mereka kunjungi dan kemudian mengikuti tautan tersebut ke halaman lain. Seluruh web di seluruh dunia dibangun dari tautan. Gagasan awal untuk membuat jaringan Internet adalah memungkinkan untuk mengikuti tautan dari satu tempat ke tempat lain. Beginilah cara robot bergerak.

Kecerdikan tentang pengindeksan halaman secara real time bergantung pada para insinyur mesin pencari, yang menemukan metode yang digunakan untuk mengevaluasi informasi yang diterima oleh robot mesin pencari. Setelah disematkan dalam database mesin telusur, informasi tersebut tersedia bagi pengguna yang melakukan penelusuran. Ketika pengguna mesin pencari memasukkan istilah pencarian, serangkaian perhitungan cepat dibuat untuk memastikan bahwa kumpulan situs yang benar untuk jawaban yang paling relevan benar-benar dikembalikan.

Anda dapat melihat halaman mana di situs Anda yang telah dikunjungi oleh robot pencari, dipandu oleh file log server, atau hasil pemrosesan statistik file log. Dengan mengidentifikasi robot, Anda dapat melihat kapan mereka mengunjungi situs Anda, halaman mana, dan seberapa sering. Beberapa robot mudah dikenali dari namanya, seperti Googlebot Google. Lainnya lebih tersembunyi, seperti Inktomis Slurp. Robot lain juga dapat ditemukan di log dan mungkin Anda tidak dapat segera mengidentifikasinya; beberapa dari mereka bahkan mungkin adalah browser yang dikendalikan manusia.

Selain mengidentifikasi perayap unik dan menghitung jumlah kunjungan yang mereka miliki, statistik juga dapat menunjukkan kepada Anda perayap atau perayap pemakan bandwidth yang agresif bahwa Anda tidak ingin mengunjungi situs Anda.

Bagaimana mereka membaca halaman situs web Anda?

Saat crawler mengunjungi halaman, crawler akan memindai teks yang terlihat, konten dari berbagai tag Kode sumber halaman Anda (tag judul, tag meta, dll.), serta hyperlink di halaman tersebut. Dilihat dari kata-kata tautannya, mesin pencari memutuskan tentang apa halaman itu. Ada banyak faktor yang digunakan untuk menghitung poin-poin penting dari sebuah halaman "berperan". Setiap mesin pencari memiliki algoritme sendiri untuk mengevaluasi dan memproses informasi. Bergantung pada bagaimana robot dikonfigurasi, informasi diindeks dan kemudian dikirim ke database mesin pencari.

Setelah itu, informasi yang dikirimkan ke database indeks mesin pencari menjadi bagian dari mesin pencari dan proses pemeringkatan database. Saat pengunjung membuat permintaan, mesin pencari menelusuri seluruh database untuk mengembalikan daftar akhir yang relevan permintaan pencarian.

Database mesin pencari diproses dan diselaraskan dengan hati-hati. Jika Anda sudah berada di database, robot akan mengunjungi Anda secara berkala untuk mengumpulkan setiap perubahan pada halaman dan memastikan mereka memiliki informasi terbaru. Jumlah kunjungan tergantung pada pengaturan mesin pencari, yang dapat bervariasi tergantung pada jenis dan tujuannya.

Terkadang robot pencari tidak dapat mengindeks situs web. Jika situs Anda macet atau pengunjung dalam jumlah besar mengunjungi situs tersebut, robot mungkin tidak berdaya untuk mencoba mengindeksnya. Jika ini terjadi, situs tidak dapat diindeks ulang, tergantung seberapa sering robot mengunjunginya. Dalam kebanyakan kasus, robot yang tidak dapat menjangkau halaman Anda akan mencobanya nanti, dengan harapan situs Anda akan segera tersedia.

Banyak perayap tidak dapat diidentifikasi saat Anda melihat log. Mereka mungkin mengunjungi Anda, tetapi log mengatakan seseorang menggunakan browser Microsoft, dll. Beberapa robot mengidentifikasi dirinya menggunakan nama mesin pencari (googlebot) atau tiruannya (Scooter = AltaVista).

Bergantung pada bagaimana robot dikonfigurasi, informasi diindeks dan kemudian dikirim ke database mesin pencari.

Database mesin pencari dapat dimodifikasi pada waktu yang berbeda. Bahkan direktori yang memiliki hasil pencarian sekunder pun menggunakan data robot sebagai konten website mereka.

Sebenarnya robot tidak digunakan oleh search engine hanya untuk hal diatas. Ada robot yang memeriksa basis data untuk konten baru, mengunjungi konten basis data lama, memeriksa apakah tautan telah berubah, mengunduh seluruh situs untuk dijelajahi, dan sebagainya.

Untuk alasan ini, membaca file log dan melacak hasil mesin pencari membantu Anda mengawasi pengindeksan proyek Anda.

robot pencari ditelepon program khusus mesin pencari apa pun yang dirancang untuk masuk ke dalam basis data (mengindeks) situs yang ditemukan di Internet dan halamannya. Nama-nama yang juga digunakan: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Prinsip operasi

Robot pencarian adalah program jenis browser. Dia terus-menerus memindai jaringan: dia mengunjungi situs yang diindeks (sudah dikenalnya), mengikuti tautan dari mereka dan menemukan sumber daya baru. Saat sumber daya baru ditemukan, robot prosedur menambahkannya ke indeks mesin pencari. Robot pencarian juga mengindeks pembaruan di situs, yang frekuensinya tetap. Misalnya, situs yang diperbarui seminggu sekali akan dikunjungi oleh laba-laba dengan frekuensi ini, dan konten di situs berita dapat diindeks dalam beberapa menit setelah dipublikasikan. Jika tidak ada tautan dari sumber lain yang mengarah ke situs, maka untuk menarik robot pencari, sumber daya harus ditambahkan melalui formulir khusus (Google Webmaster Center, Yandex Webmaster Panel, dll.).

Jenis robot pencarian

Laba-laba Yandex:

Yandex/1.01.001 I adalah bot pengindeksan utama,
Yandex/1.01.001 (P) - mengindeks gambar,
Yandex/1.01.001 (H) - menemukan pencerminan situs,
Yandex/1.03.003 (D) - menentukan apakah halaman yang ditambahkan dari panel webmaster cocok dengan parameter pengindeksan,
YaDirectBot/1.0 (I) - mengindeks sumber daya dari jaringan periklanan Yandex,
Yandex/1.02.000 (F) — mengindeks favicon situs.

Google Spider:

Googlebot adalah robot utama,
Googlebot News - merayapi dan mengindeks berita,
Google Seluler - mengindeks situs web untuk perangkat seluler,
Gambar Googlebot - menelusuri dan mengindeks gambar,
Video Googlebot - mengindeks video,
Google AdsBot - memeriksa kualitas halaman arahan,
Google Mobile AdSense dan Google AdSense - mengindeks situs jaringan periklanan Google.

Mesin pencari lainnya juga menggunakan beberapa jenis robot yang fungsinya mirip dengan yang terdaftar.