Robot mesin pencari. Mesin pencari robot dan laba-laba mereka Cari laba-laba

robot pencari sebuah program khusus dari mesin pencari disebut, yang dirancang untuk masuk ke dalam basis data (pengindeksan) situs yang ditemukan di Internet dan halamannya. Nama-nama yang juga digunakan: crawler, spider, bot, automaticindexer, ant, webcrawler, bot, webscutter, webrobots, webspider.

Prinsip operasi

Robot pencarian adalah program jenis browser. Dia terus-menerus memindai jaringan: dia mengunjungi situs yang diindeks (sudah dikenalnya), mengikuti tautan dari mereka dan menemukan sumber daya baru. Saat sumber daya baru ditemukan, robot prosedur menambahkannya ke indeks mesin pencari. Robot pencarian juga mengindeks pembaruan di situs, yang frekuensinya tetap. Misalnya, situs yang diperbarui seminggu sekali akan dikunjungi oleh laba-laba dengan frekuensi ini, dan konten di situs berita dapat diindeks dalam beberapa menit setelah dipublikasikan. Jika tidak ada tautan dari sumber lain yang mengarah ke situs, maka untuk menarik robot pencari, sumber daya harus ditambahkan melalui formulir khusus (Google Webmaster Center, Yandex Webmaster Panel, dll.).

Jenis robot pencarian

Laba-laba Yandex:

Yandex/1.01.001 I adalah bot pengindeksan utama,
Yandex/1.01.001 (P) - mengindeks gambar,
Yandex/1.01.001 (H) - menemukan pencerminan situs,
Yandex/1.03.003 (D) - menentukan apakah halaman yang ditambahkan dari panel webmaster cocok dengan parameter pengindeksan,
YaDirectBot/1.0 (I) - mengindeks sumber daya dari jaringan periklanan Yandex,
Yandex/1.02.000 (F) — mengindeks favicon situs.

Google Spider:

Googlebot adalah robot utama,
Googlebot News - merayapi dan mengindeks berita,
Google Seluler - mengindeks situs web untuk perangkat seluler,
Gambar Googlebot - menelusuri dan mengindeks gambar,
Video Googlebot - mengindeks video,
Google AdsBot - memeriksa kualitas halaman arahan,
Google Mobile AdSense dan Google AdSense - mengindeks situs jaringan periklanan Google.

Mesin pencari lainnya juga menggunakan beberapa jenis robot yang fungsinya mirip dengan yang terdaftar.

Biasanya, mesin pencari adalah situs yang berspesialisasi dalam mencari informasi yang sesuai dengan kriteria kueri pengguna. Tugas utama situs semacam itu adalah mengatur dan menyusun informasi di jaringan.

Kebanyakan orang, menggunakan layanan mesin pencari, tidak pernah bertanya-tanya bagaimana sebenarnya mesin itu bekerja, mencari informasi yang diperlukan dari kedalaman Internet.

Untuk pengguna jaringan biasa, konsep prinsip pengoperasian mesin telusur tidaklah kritis, karena algoritme yang memandu sistem mampu memenuhi kebutuhan orang yang tidak tahu cara membuat kueri yang dioptimalkan saat mencari informasi yang diperlukan. Tetapi untuk pengembang web dan spesialis yang terlibat dalam pengoptimalan situs web, Anda hanya perlu memiliki setidaknya konsep awal tentang struktur dan prinsip mesin telusur.

Setiap mesin pencari beroperasi berdasarkan algoritme tepat yang dijaga kerahasiaannya dan hanya diketahui oleh sebagian kecil karyawan. Namun saat mendesain situs atau mengoptimalkannya, sangat penting untuk mempertimbangkan aturan umum untuk berfungsinya mesin telusur, yang dibahas dalam artikel ini.

Terlepas dari kenyataan bahwa setiap PS memiliki strukturnya sendiri, setelah dipelajari dengan cermat, mereka dapat digabungkan menjadi komponen dasar yang menggeneralisasi:

Modul pengindeksan

Modul Pengindeksan - Elemen ini mencakup tiga komponen tambahan (bot):

1. Laba-laba (robot laba-laba) - mengunduh halaman, memfilter aliran teks, mengekstraksi semua hyperlink internal darinya. Selain itu, Spider menyimpan tanggal pengunduhan dan judul respons server, serta URL - alamat halaman.

2. Perayap (crawling robot spider) - menganalisis semua tautan di halaman, dan berdasarkan analisis ini, menentukan halaman mana yang akan dikunjungi dan mana yang tidak layak untuk dikunjungi. Dengan cara yang sama, perayap menemukan sumber daya baru yang harus diproses oleh PS.

3. pengindeks (Robot-indexer) - berurusan dengan analisis halaman Internet yang diunduh oleh laba-laba. Dalam hal ini, halaman itu sendiri dibagi menjadi beberapa blok dan dianalisis oleh pengindeks menggunakan algoritme morfologis dan leksikal. Berbagai bagian halaman web berada di bawah analisis pengindeks: judul, teks, dan informasi layanan lainnya.

Semua dokumen yang diproses oleh modul ini disimpan dalam database pencari, yang disebut indeks sistem. Selain dokumen itu sendiri, database berisi data layanan yang diperlukan - hasil dari pemrosesan dokumen-dokumen ini dengan hati-hati, yang dipandu oleh mesin pencari untuk memenuhi permintaan pengguna.

server pencarian

berikutnya, sangat komponen penting sistem - server pencarian yang tugasnya memproses permintaan pengguna dan menghasilkan halaman hasil pencarian.

Memproses permintaan pengguna, server pencarian menghitung peringkat relevansi dokumen yang dipilih dengan permintaan pengguna. Peringkat ini menentukan posisi yang akan diambil halaman web dalam hasil pencarian. Setiap dokumen yang cocok dengan kriteria pencarian ditampilkan di halaman hasil sebagai cuplikan.

Cuplikannya adalah Deskripsi Singkat halaman, termasuk judul, tautan, kata kunci, dan informasi teks singkat. Berdasarkan cuplikan tersebut, pengguna dapat mengevaluasi relevansi halaman yang dipilih oleh mesin telusur dengan kuerinya.

Kriteria terpenting yang dipandu oleh server pencarian saat memeringkat hasil kueri adalah indikator TCI () yang sudah tidak asing lagi bagi kita.

Semua komponen PS yang dijelaskan mahal dan sangat intensif sumber daya. Performa mesin pencari secara langsung bergantung pada keefektifan interaksi komponen-komponen ini.

Suka artikelnya? Berlangganan berita blog atau bagikan di jejaring sosial, dan saya akan menjawab Anda

6 komentar di pos “Mesin pencari adalah robot dan laba-laba mereka”

Saya sudah lama mencari informasi ini, terima kasih.

Menjawab

Saya senang bahwa blog Anda terus berkembang. Posting seperti ini hanya menambah popularitas.

Menjawab

Saya mengerti sesuatu. Pertanyaannya adalah, apakah PR bergantung pada TIC?

Halo teman teman! Hari ini Anda akan mempelajari cara kerja robot pencarian Yandex dan Google dan fungsi apa yang mereka lakukan dalam promosi situs web. Jadi ayo pergi!

Mesin pencari melakukan tindakan ini untuk menemukan sepuluh proyek WEB dari sejuta situs yang memiliki respons berkualitas tinggi dan relevan terhadap permintaan pengguna. Mengapa hanya sepuluh? Karena hanya terdiri dari sepuluh posisi.

Cari robot teman dan webmaster dan pengguna

Mengapa penting untuk mengunjungi situs dengan robot pencari sudah menjadi jelas, dan mengapa itu untuk pengguna? Benar, agar pengguna hanya membuka situs-situs yang menanggapi permintaannya secara penuh.

Cari robot- alat yang sangat fleksibel, dapat menemukan situs, bahkan yang baru saja dibuat, dan pemilik situs ini belum terlibat. Oleh karena itu, bot ini disebut laba-laba, ia dapat meregangkan cakarnya dan pergi ke mana saja di web virtual.

Apakah mungkin untuk mengontrol robot pencarian sesuai minat Anda

Ada kalanya beberapa halaman tidak termasuk dalam pencarian. Ini terutama disebabkan oleh fakta bahwa halaman ini belum diindeks oleh robot pencari. Tentu saja cepat atau lambat robot pencari akan memperhatikan halaman ini. Tapi itu butuh waktu, dan terkadang cukup banyak waktu. Namun di sini Anda dapat membantu robot pencari mengunjungi halaman ini lebih cepat.

Untuk melakukan ini, Anda dapat menempatkan situs Anda di direktori atau daftar khusus, jejaring sosial. Secara umum, di semua situs tempat robot pencari tinggal. Misalnya, di jejaring sosial ada pembaruan setiap detik. Coba klaim situs Anda, dan robot pencari akan datang ke situs Anda lebih cepat.

Dari sini mengikuti satu, tetapi aturan utamanya. Jika Anda ingin bot mesin telusur mengunjungi situs Anda, mereka perlu diberi konten baru secara teratur. Jika mereka melihat bahwa konten sedang diperbarui, situs sedang berkembang, mereka akan lebih sering mengunjungi proyek Internet Anda.

Setiap robot pencari dapat mengingat seberapa sering konten Anda berubah. Dia mengevaluasi tidak hanya kualitas, tetapi juga interval waktu. Dan jika materi di situs diperbarui sebulan sekali, maka itu akan masuk ke situs sebulan sekali.

Jadi, jika situs tersebut diperbarui seminggu sekali, maka robot pencari akan datang seminggu sekali. Jika Anda mengupdate situs setiap hari, maka robot pencari akan mengunjungi situs tersebut setiap hari atau dua hari sekali. Ada situs yang diindeks dalam beberapa menit setelah pembaruan. Ini media sosial, agregator berita, dan situs yang memposting beberapa artikel per hari.

Bagaimana cara memberikan tugas kepada robot dan melarang sesuatu padanya?

Pada awalnya, kami mengetahui bahwa mesin telusur memiliki beberapa robot yang melakukan tugas berbeda. Seseorang mencari gambar, seseorang mencari tautan, dan sebagainya.

Anda dapat mengontrol robot apa pun menggunakan file khusus robots.txt . Dari file inilah robot mulai mengenal situs tersebut. Dalam file ini, Anda dapat menentukan apakah robot dapat mengindeks situs, jika ya, bagian mana. Semua instruksi ini dapat dibuat untuk satu atau semua robot.

Pelatihan promosi situs web

Pelajari lebih lanjut seluk-beluk SEO promosi website di mesin pencari sistem Google dan Yandex, saya berbicara di Skype saya. Saya membawa semua proyek WEB saya untuk hadir lebih banyak dan mendapatkan hasil yang sangat baik dari ini. Saya bisa mengajari Anda, jika Anda tertarik!

Teman, saya menyapa Anda lagi! Sekarang kita akan menganalisis apa itu robot pencari dan berbicara secara detail tentang robot pencarian google dan bagaimana berteman dengan mereka.

Pertama, Anda perlu memahami apa itu robot pencari secara umum, mereka juga disebut laba-laba. Apa pekerjaan yang dilakukan spider mesin pencari?

Ini adalah program yang memeriksa situs web. Mereka melihat semua posting dan halaman di blog Anda, mengumpulkan informasi, yang kemudian mereka transfer ke database mesin pencari tempat mereka bekerja.

Anda tidak perlu mengetahui seluruh daftar robot pencarian, yang terpenting adalah mengetahui bahwa Google sekarang memiliki dua laba-laba utama, yang disebut "panda" dan "penguin". Mereka bertarung dengan konten berkualitas rendah dan tautan sampah, dan Anda perlu tahu cara menangkis serangan mereka.

Robot pencarian google panda dibuat untuk mempromosikan hanya materi berkualitas tinggi dalam pencarian. Semua situs dengan konten berkualitas rendah diturunkan dalam hasil pencarian.

Laba-laba ini pertama kali muncul pada tahun 2011. Sebelum kemunculannya, dimungkinkan untuk mempromosikan situs apa pun dengan menerbitkan teks dalam jumlah besar dalam artikel dan menggunakan teks dalam jumlah besar kata kunci. Bersama-sama, kedua teknik ini tidak membawa konten berkualitas tinggi ke bagian atas hasil pencarian, tetapi situs bagus turun di hasil pencarian.

"Panda" segera menertibkan dengan memeriksa semua situs dan menempatkan semua orang di tempat yang seharusnya. Meskipun dia berjuang dengan konten berkualitas rendah, bahkan situs kecil dengan artikel berkualitas pun dapat dipromosikan sekarang. Meskipun tidak berguna untuk mempromosikan situs semacam itu sebelumnya, mereka tidak dapat bersaing dengan raksasa yang memiliki banyak konten.

Sekarang kita akan mencari cara untuk menghindari sanksi "panda". Pertama-tama kita harus memahami apa yang tidak dia sukai. Saya sudah menulis di atas bahwa dia berjuang dengan konten yang buruk, tetapi teks seperti apa yang buruk untuknya, mari kita cari tahu agar tidak mempublikasikannya di situsnya.

Robot pencarian google berusaha untuk memastikan bahwa hanya materi berkualitas tinggi untuk pelamar yang dikeluarkan di mesin pencari ini. Jika Anda memiliki artikel yang informasinya sedikit dan tampilannya tidak menarik, segera tulis ulang teks tersebut agar "panda" tidak sampai kepada Anda.

Konten berkualitas bisa besar dan kecil, tetapi jika laba-laba melihat artikel panjang dengan banyak informasi, itu akan lebih bermanfaat bagi pembaca.

Maka perlu diperhatikan duplikasi, dengan kata lain plagiarisme. Jika Anda berpikir bahwa Anda akan menulis ulang artikel orang lain untuk blog Anda, Anda dapat langsung mengakhiri situs Anda. Menyalin dihukum berat dengan menerapkan filter, dan plagiarisme diperiksa sangat mudah, saya menulis artikel tentang topik tersebut cara memeriksa teks untuk keunikan.

Hal berikutnya yang perlu diperhatikan adalah teks yang terlalu jenuh dengan kata kunci. Siapa pun yang berpikir bahwa dia akan menulis artikel dari kata kunci yang sama dan menempati posisi pertama dalam hasil pencarian adalah kesalahan besar. Saya memiliki artikel tentang cara memeriksa relevansi halaman, pastikan untuk membacanya.

Dan apa lagi yang bisa menarik "panda" kepada Anda adalah artikel lama yang sudah usang secara moral dan tidak membawa lalu lintas ke situs. Mereka perlu diperbarui.

Ada juga robot pencarian google "penguin". Laba-laba ini memerangi spam dan tautan sampah di situs Anda. Itu juga menghitung tautan yang dibeli dari sumber lain. Oleh karena itu, agar tidak takut dengan robot pencari ini, Anda tidak boleh membeli tautan, tetapi menerbitkan konten berkualitas tinggi sehingga orang akan menautkan Anda sendiri.

Sekarang mari kita rumuskan apa yang perlu dilakukan agar situs terlihat sempurna dari sudut pandang robot pencari:

Untuk membuat konten yang berkualitas, pelajari terlebih dahulu topik tersebut dengan baik sebelum menulis artikel. Maka Anda perlu memahami bahwa orang-orang sangat tertarik dengan topik ini.

Menggunakan contoh konkret dan gambar, ini akan membuat artikel menjadi hidup dan menarik. Pecah teks menjadi paragraf kecil agar mudah dibaca.Misalnya, jika Anda membuka halaman lelucon di koran, mana yang akan Anda baca terlebih dahulu? Secara alami, setiap orang pertama-tama membaca teks pendek, lalu yang lebih panjang dan, yang terakhir, alas kaki yang panjang.

Nitpick favorit Panda bukanlah relevansi artikel yang berisi informasi usang. Nantikan pembaruan dan ubah teks.

Perhatikan kepadatan kata kunci, saya tulis di atas cara menentukan kepadatan ini, dalam layanan yang saya bicarakan Anda akan menerima jumlah kunci yang diperlukan.

Jangan menjiplak, semua orang tahu bahwa Anda tidak dapat mencuri barang atau teks orang lain - itu hal yang sama. Anda akan bertanggung jawab atas pencurian dengan berada di bawah filter.

Tulis teks minimal dua ribu kata, maka artikel seperti itu akan terlihat informatif dari sudut pandang robot mesin pencari.

Jangan keluar topik di blog Anda. Jika Anda menjalankan blog tentang menghasilkan uang di Internet, Anda tidak perlu mencetak artikel tentang senapan angin. Ini dapat menurunkan peringkat sumber daya Anda.

Rancang artikel dengan indah, bagi menjadi beberapa paragraf dan tambahkan gambar agar enak dibaca dan tidak ingin cepat meninggalkan situs.

Saat membeli tautan, buatlah itu ke artikel yang paling menarik dan bermanfaat yang benar-benar akan dibaca orang.

Nah, sekarang Anda tahu seperti apa pekerjaan robot mesin pencari dan Anda bisa berteman dengan mereka. Dan yang terpenting, robot pencarian google dan "panda" dan "penguin" telah dipelajari secara detail oleh Anda.

1.1.1. Komponen mesin pencari

Informasi di Web tidak hanya diisi ulang, tetapi juga terus berubah, tetapi tidak ada yang memberi tahu siapa pun tentang perubahan ini. Absen satu sistem memasukkan informasi yang tersedia secara bersamaan untuk semua pengguna Internet. Oleh karena itu, untuk menyusun informasi, menyediakan sarana yang nyaman bagi pengguna untuk mencari data, mesin pencari telah dibuat.

Mesin pencari ada jenis yang berbeda. Beberapa dari mereka mencari informasi berdasarkan apa yang dimasukkan orang ke dalamnya. Ini bisa berupa direktori tempat editor memasukkan informasi tentang situs, deskripsi singkat atau ulasan mereka. Mereka dicari di antara deskripsi ini.

Yang terakhir mengumpulkan informasi di Web menggunakan program khusus. Ini adalah mesin pencari, biasanya terdiri dari tiga komponen utama:

Indeks;

mesin pencari.

Agen, atau lebih umum - laba-laba, robot (dalam literatur bahasa Inggris - laba-laba, perayap), untuk mencari informasi melewati jaringan atau bagian tertentu darinya. Robot ini menyimpan daftar alamat (URL) yang dapat dikunjungi dan diindeks, mengunduh dokumen yang sesuai dengan tautan dan menganalisisnya secara berkala untuk setiap mesin pencari. Konten halaman yang dihasilkan disimpan oleh robot dalam bentuk yang lebih ringkas dan ditransfer ke Indeks. Jika tautan baru ditemukan selama analisis halaman (dokumen), robot akan menambahkannya ke daftarnya. Oleh karena itu, setiap dokumen atau situs yang memiliki tautan dapat ditemukan oleh robot. Dan sebaliknya, jika situs atau bagian mana pun darinya tidak memilikinya tautan eksternal, robot mungkin tidak menemukannya.

Robot bukan hanya pengumpul informasi. Dia memiliki "kecerdasan" yang cukup berkembang. Robot dapat mencari situs dari subjek tertentu, membuat daftar situs yang diurutkan berdasarkan lalu lintas, mengekstrak dan memproses informasi dari database yang ada, dan dapat mengikuti tautan dari berbagai kedalaman bersarang. Tetapi bagaimanapun juga, mereka meneruskan semua informasi yang ditemukan ke database (Indeks) mesin pencari.

Cari robot ada berbagai jenis:

? Laba-laba(laba-laba) adalah program yang mengunduh halaman web dengan cara yang sama seperti browser pengguna. Perbedaannya adalah browser menampilkan informasi yang terdapat pada halaman (teks, grafik, dll.), sedangkan laba-laba tidak memiliki komponen visual apa pun dan bekerja langsung dengan teks HTML halaman tersebut (mirip dengan apa yang akan Anda lihat jika Anda aktifkan tampilan kode HTML di browser Anda).

? Perayap(perayap, laba-laba "bepergian") - menyorot semua tautan yang ada di laman. Tugasnya adalah menentukan ke mana laba-laba selanjutnya harus pergi, berdasarkan tautan atau berdasarkan daftar alamat yang telah ditentukan sebelumnya. Perayap, mengikuti tautan yang ditemukan, mencari dokumen baru yang masih belum diketahui oleh mesin pencari.

? Pengindeks mem-parsing halaman menjadi bagian-bagian komponennya dan menganalisisnya. Berbagai elemen halaman dipilih dan dianalisis, seperti teks, judul, fitur struktur dan gaya, tag HTML layanan khusus, dll.

Indeks- ini adalah bagian dari mesin pencari tempat informasi dicari. Indeks berisi semua data yang diteruskan oleh robot, sehingga ukuran indeks bisa mencapai ratusan gigabyte. Faktanya, indeks tersebut berisi salinan dari semua halaman yang dikunjungi oleh robot. Jika robot mendeteksi perubahan pada halaman yang telah diindeks, robot mengirimkan informasi terbaru ke Indeks. Itu harus menggantikan yang sudah ada, tetapi dalam beberapa kasus tidak hanya halaman baru yang muncul di Indeks, tetapi halaman lama juga tetap ada.

mesin pencari adalah antarmuka yang digunakan pengunjung untuk berinteraksi dengan Indeks. Melalui antarmuka, pengguna memasukkan permintaan mereka dan menerima tanggapan, dan pemilik situs mendaftarkannya (dan pendaftaran ini adalah cara lain untuk menyampaikan alamat situs Anda ke robot). Saat memproses kueri, mesin telusur memilih halaman dan dokumen yang sesuai dari antara jutaan sumber daya yang diindeks dan menyusunnya berdasarkan kepentingan atau relevansi dengan kueri.