Apa perbedaan antara rumus Shannon dan Hartley. Rumus Shannon, entropi informasi

Insinyur Amerika R. Hartley pada tahun 1928 mempertimbangkan proses memperoleh informasi sebagai pilihan satu pesan dari sekumpulan pesan N peralatan yang telah ditentukan sebelumnya, dan jumlah informasi I yang terkandung dalam pesan yang dipilih didefinisikan sebagai logaritma biner dari N.

Rumus Hartley: I = log 2 N atau N = 2 i

Misalkan Anda perlu menebak satu angka dari sekumpulan angka dari satu hingga seratus. Dengan menggunakan rumus Hartley, Anda dapat menghitung berapa banyak informasi yang diperlukan untuk ini: I \u003d log 2 100\u003e 6.644. Dengan demikian, pesan tentang nomor yang ditebak dengan benar berisi sejumlah informasi yang kira-kira sama dengan 6.644 satuan informasi.

Berikut beberapa contoh lainnya pesan peralatan :

1. saat melempar koin: “ekor rontok”, “ekor rontok”;

2. pada halaman buku: “jumlah hurufnya genap”, “jumlah hurufnya ganjil”.

Mari kita sekarang menentukan apakah pesan peralatan « wanita itu akan menjadi orang pertama yang keluar dari pintu gedung itu" Dan “Pria itu akan menjadi orang pertama yang meninggalkan pintu gedung". Tidak mungkin menjawab pertanyaan ini dengan jelas. Itu semua tergantung pada jenis bangunan apa yang sedang kita bicarakan. Jika ini, misalnya, stasiun metro, maka kemungkinan untuk keluar duluan adalah sama untuk pria dan wanita, dan jika itu adalah barak militer, maka untuk pria kemungkinan ini jauh lebih tinggi daripada untuk a wanita.

Untuk masalah semacam ini, ilmuwan Amerika Claude Shannon pada tahun 1948 mengusulkan formula lain menentukan jumlah informasi, dengan mempertimbangkan kemungkinan kemungkinan pesan yang tidak sama dalam himpunan .

Rumus Shanon: I = - (p 1 log 2 p 1 + p 2 log 2 p 2 + . . . + p N log 2 p N),

di mana pi adalah probabilitas yang tepat pesan ke-i dipilih dalam satu set pesan N.

Sangat mudah untuk melihat bahwa jika probabilitas p 1 , ..., p N sama, maka masing-masing sama dengan 1 / N, dan rumus Shannon berubah menjadi rumus Hartley.

Selain dua pendekatan yang dipertimbangkan untuk menentukan jumlah informasi, ada yang lain. Penting untuk diingat bahwa hasil teoretis apa pun hanya berlaku untuk rentang kasus tertentu, yang digariskan oleh asumsi awal.

Sebagai satuan informasi Claude Shannon menawarkan untuk mengambil satu sedikit(Bahasa Inggris bit - digit biner - digit biner).

Sedikit dalam teori informasi - jumlah informasi yang diperlukan untuk membedakan antara dua pesan yang kemungkinannya sama (seperti "kepala" - "ekor", "genap" - "ganjil", dll.).

DI DALAM ilmu Komputer bit adalah "bagian" terkecil dari memori komputer yang diperlukan untuk menyimpan salah satu dari dua karakter "0" dan "1" yang digunakan untuk representasi data dan perintah di dalam mesin.

Bit adalah unit pengukuran yang terlalu kecil. Dalam praktiknya, unit yang lebih besar lebih sering digunakan - byte sama dengan delapan bit. Ini adalah delapan bit yang diperlukan untuk menyandikan salah satu dari 256 karakter alfabet keyboard komputer (256=28).



Unit informasi turunan yang lebih besar juga banyak digunakan:

1 Kilobyte (KB) = 1024 byte = 210 byte,

1 Megabyte (MB) = 1024 KB = 220 byte,

1 Gigabyte (GB) = 1024 MB = 230 byte.

Baru-baru ini, karena peningkatan volume informasi yang diproses, satuan turunan seperti:

1 Terabyte (TB) = 1024 GB = 240 byte,

1 Petabyte (PB) = 1024 TB = 250 byte.

Untuk satu unit informasi, seseorang dapat memilih jumlah informasi yang diperlukan untuk membedakan, misalnya, sepuluh pesan yang kemungkinannya sama. Itu tidak akan menjadi biner (bit), tetapi desimal ( dit) satuan informasi.

Jumlah informasi yang terkandung dalam pesan ditentukan oleh jumlah pengetahuan yang dibawa pesan ini kepada orang yang menerimanya. Sebuah pesan berisi informasi untuk seseorang jika informasi yang terkandung di dalamnya baru dan dapat dimengerti oleh orang tersebut, dan, oleh karena itu, menambah pengetahuannya.

Informasi yang diterima seseorang dapat dianggap sebagai ukuran untuk mengurangi ketidakpastian pengetahuan. Jika pesan tertentu mengarah pada penurunan ketidakpastian pengetahuan kita, maka kita dapat mengatakan bahwa pesan semacam itu mengandung informasi.

Satuan jumlah informasi diambil sebagai jumlah informasi yang kita peroleh ketika ketidakpastian dikurangi 2 kali lipat. Satuan ini disebut sedikit.

Di komputer, informasi disajikan dalam kode biner atau dalam bahasa mesin, yang alfabetnya terdiri dari dua digit (0 dan 1). Angka-angka ini dapat dianggap sebagai dua keadaan yang dapat diperlengkapi. Saat menulis satu digit biner, pilihan salah satu dari dua kemungkinan status (satu dari dua digit) diterapkan dan, oleh karena itu, satu digit biner membawa jumlah informasi dalam 1 bit. Dua bit biner membawa informasi 2 bit, tiga bit - 3 bit, dll.



Sekarang mari kita atur soal invers dan tentukan: "Berapa banyak bilangan biner berbeda N yang dapat ditulis menggunakan angka biner I?" Dengan satu digit biner, Anda dapat menulis 2 angka berbeda (N=2=2 1), dengan dua digit biner, Anda dapat menulis empat angka biner (N=4=2 2), dengan tiga digit biner, Anda dapat menulis delapan angka biner angka (N =8=2 3) dst.

Dalam kasus umum, jumlah bilangan biner yang berbeda dapat ditentukan dengan rumus

N adalah jumlah kejadian yang mungkin (setara)!!!;

Dalam matematika, ada fungsi yang digunakan untuk menyelesaikan persamaan eksponensial, fungsi ini disebut logaritma. Solusi untuk persamaan seperti itu adalah:

Jika peristiwa peralatan mungkin , maka jumlah informasi ditentukan oleh rumus ini.

Jumlah informasi untuk acara dengan probabilitas yang berbeda ditentukan oleh rumus Shannon :

,

di mana saya adalah jumlah informasi;

N adalah jumlah kemungkinan kejadian;

Pi adalah probabilitas peristiwa individu.

Contoh 3.4

Ada 32 bola di drum lotre. Berapa banyak informasi yang terkandung dalam pesan tentang angka pertama yang ditarik (misalnya, angka 15 jatuh)?

Larutan:

Karena menarik salah satu dari 32 bola memiliki kemungkinan yang sama, jumlah informasi tentang satu angka yang dijatuhkan ditemukan dari persamaan: 2 I =32.

Tapi 32=2 5 . Oleh karena itu, saya = 5 bit. Jelas, jawabannya tidak tergantung pada nomor mana yang ditarik.

Contoh 3.5

Berapa banyak pertanyaan yang cukup untuk ditanyakan kepada lawan bicara Anda untuk menentukan dengan pasti bulan kelahirannya?

Larutan:

Kami akan menganggap 12 bulan sebagai 12 kemungkinan kejadian. Jika Anda bertanya tentang bulan kelahiran tertentu, Anda mungkin harus mengajukan 11 pertanyaan (jika 11 pertanyaan pertama dijawab dengan negatif, maka pertanyaan ke-12 tidak perlu, karena akan benar).

Lebih tepat mengajukan pertanyaan "biner", yaitu pertanyaan yang hanya bisa dijawab dengan "ya" atau "tidak". Misalnya, "Apakah Anda lahir pada paruh kedua tahun ini?". Setiap pertanyaan tersebut membagi rangkaian pilihan menjadi dua himpunan bagian: satu sesuai dengan jawaban "ya" dan yang lainnya sesuai dengan jawaban "tidak".

Strategi yang benar adalah mengajukan pertanyaan sedemikian rupa sehingga setiap kali jumlah kemungkinan opsi berkurang setengahnya. Maka jumlah kejadian yang mungkin di setiap himpunan bagian yang diperoleh akan sama dan kemungkinan tebakannya sama. Dalam hal ini, di setiap langkah, jawaban ("ya" atau "tidak") akan dibawa jumlah maksimum informasi (1 bit).

Menurut rumus 2 dan menggunakan kalkulator, kita mendapatkan:

sedikit.

Jumlah bit informasi yang diterima sesuai dengan jumlah pertanyaan yang diajukan, tetapi jumlah pertanyaan tidak boleh berupa angka non-bilangan bulat. Kami membulatkan ke bilangan bulat yang lebih besar dan mendapatkan jawabannya: dengan strategi yang tepat, Anda perlu mengaturnya tidak lebih dari 4 pertanyaan.

Contoh 3.6

Setelah ujian ilmu komputer yang diambil teman Anda, nilainya diumumkan ("2", "3", "4" atau "5"). Berapa banyak informasi yang akan dibawa oleh pesan tentang penilaian siswa A yang mempelajari hanya setengah dari tiket, dan pesan tentang penilaian siswa B yang mempelajari semua tiket.

Larutan:

Pengalaman menunjukkan bahwa untuk siswa A, keempat nilai (peristiwa) memiliki kemungkinan yang sama, dan kemudian jumlah informasi yang dibawa oleh pesan nilai dapat dihitung menggunakan rumus (1):

Berdasarkan pengalaman, kita juga dapat mengasumsikan bahwa untuk siswa B, nilai yang paling mungkin adalah "5" (p 1 = 1/2), kemungkinan nilai "4" adalah setengahnya (p 2 = 1/4) , dan probabilitas nilai "2 "dan" 3 "masih dua kali lebih kecil (p 3 \u003d p 4 \u003d 1/8). Karena kemungkinan kejadian tidak sama, kami akan menggunakan rumus 2 untuk menghitung jumlah informasi dalam pesan:

Perhitungan telah menunjukkan bahwa dengan peristiwa yang dapat diimbangi, kami mendapatkan lebih banyak informasi daripada dengan peristiwa yang tidak dapat diimbangi.

Contoh 3.7

Sebuah kantong buram berisi 10 kelereng putih, 20 merah, 30 biru, dan 40 hijau. Berapa banyak informasi yang akan berisi pesan visual tentang warna bola yang ditarik.

Larutan:

Karena jumlah bola dengan warna berbeda tidak sama, probabilitas pesan visual tentang warna bola yang dikeluarkan dari tas juga berbeda dan sama dengan jumlah bola dengan warna tertentu dibagi dengan jumlah total bola :

Pb =0,1; P ke =0,2; Pc =0,3; Ps \u003d 0,4.

Kejadian tidak sama kemungkinannya, oleh karena itu, untuk menentukan jumlah informasi yang terkandung dalam pesan tentang warna balon, kami menggunakan rumus 2:

Anda dapat menggunakan kalkulator untuk menghitung ekspresi yang berisi logaritma ini. saya" 1,85 bit.

Contoh 3.8

Menggunakan rumus Shannon, cukup sederhana untuk menentukan berapa banyak bit informasi atau digit biner yang diperlukan untuk mengkodekan 256 berbagai simbol. 256 simbol yang berbeda dapat dianggap sebagai 256 keadaan (peristiwa) yang sama-sama mungkin. Sesuai dengan pendekatan probabilistik untuk mengukur jumlah informasi, jumlah informasi yang diperlukan untuk pengkodean biner 256 karakter adalah:

I=log 2 256=8 bit=1 byte

Oleh karena itu, untuk pengkodean biner 1 karakter, diperlukan 1 byte informasi atau 8 bit.

Berapa banyak informasi yang terkandung, misalnya dalam teks novel War and Peace, dalam lukisan dinding Raphael, atau dalam kode genetik manusia? Sains tidak memberikan jawaban atas pertanyaan-pertanyaan ini dan, kemungkinan besar, tidak akan memberikannya dalam waktu dekat. Apakah mungkin mengukur jumlah informasi secara objektif? Hasil terpenting dari teori informasi adalah kesimpulan berikut: “Dalam kondisi tertentu yang sangat luas, seseorang dapat mengabaikan fitur kualitatif informasi, menyatakan kuantitasnya sebagai angka, dan juga membandingkan jumlah informasi yang terkandung dalam kelompok data yang berbeda.”

Saat ini, pendekatan definisi konsep "jumlah informasi" didasarkan pada fakta bahwa bahwa informasi yang terkandung dalam pesan dapat ditafsirkan secara longgar dalam arti kebaruannya atau, dengan kata lain, mengurangi ketidakpastian pengetahuan kita tentang objek tersebut. Pendekatan ini menggunakan konsep matematika probabilitas dan logaritma.

Kami telah menyebutkan bahwa formula Hartley adalah kasus khusus dari formula Shannon untuk alternatif-alternatif yang dapat diperlengkapi.

Substitusikan ke rumus (1) alih-alih P Saya nya (dalam kasus peralatan, independen dari Saya) nilai, kita dapatkan:

Jadi, rumus Hartley terlihat sangat sederhana:

(2)

Jelas mengikuti dari itu bahwa semakin besar jumlah alternatif ( N), semakin besar ketidakpastian ( H). Kuantitas ini terkait dalam rumus (2) tidak secara linier, tetapi melalui logaritma biner. Logaritma ke basis 2 dan bawa jumlah opsi ke unit informasi - bit.

Perhatikan bahwa entropi akan menjadi bilangan bulat hanya jika N adalah pangkat 2, yaitu Jika N milik seri: {1, 2, 4, 8, 16, 32, 64, 128, 256, 512, 1024, 2048…}

Beras. 10. Ketergantungan entropi pada jumlah pilihan yang dapat diperlengkapi (alternatif yang setara).

Ingat apa itu logaritma.

Beras. 11. Menemukan logaritma B dengan alasan A sedang menemukan derajat, yang perlu Anda tingkatkan A, Untuk memperoleh B.

Logaritma basis 2 disebut biner:

log 2 (8)=3 => 2 3 =8

log 2 (10)=3,32 => 2 3,32 =10

Logaritma ke basis 10 disebut desimal:

log 10 (100)=2 => 10 2 =100

Sifat utama logaritma:

    log(1)=0 karena angka apa pun dengan pangkat nol menghasilkan 1;

    log(a b)=b*log(a);

    log(a*b)=log(a)+log(b);

    log(a/b)=log(a)-log(b);

    log(1/b)=0-log(b)=-log(b).

Untuk menyelesaikan masalah invers ketika ketidakpastian diketahui ( H) atau jumlah informasi yang diperoleh sebagai hasil dari penghapusannya ( SAYA) dan Anda perlu menentukan berapa banyak alternatif peralatan yang sesuai dengan terjadinya ketidakpastian ini, gunakan rumus Hartley terbalik, yang terlihat lebih sederhana:

(3)

Misalnya, jika diketahui bahwa sebagai hasil penentuan bahwa Kolya Ivanov yang kita minati tinggal di lantai dua, diperoleh 3 bit informasi, maka jumlah lantai di rumah tersebut dapat ditentukan dengan rumus (3), sebagai N=2 3 =8 lantai.

Jika pertanyaannya adalah sebagai berikut: "ada 8 lantai di dalam rumah, berapa banyak informasi yang kami terima ketika kami mengetahui bahwa Kolya Ivanov, yang menarik bagi kami, tinggal di lantai dua?", Anda perlu menggunakan rumus ( 2): SAYA= catatan 2 (8) = 3 bit.

    1. Jumlah informasi yang diterima dalam proses pesan

Sejauh ini, kami telah memberikan rumus untuk menghitung entropi (ketidakpastian) H, menunjukkan bahwa H mereka dapat digantikan oleh SAYA, karena banyaknya informasi yang diterima dengan penghapusan lengkapketakpastian beberapa situasi secara kuantitatif sama dengan entropi awal dari situasi ini.

Tetapi ketidakpastian hanya dapat dihilangkan sebagian, begitu banyaknya informasiSAYA, diperoleh dari beberapa pesan, dihitung sebagai penurunan entropi yang terjadi akibat perolehan diberikan pesan.

(4)

Untuk kasus peralatan, dengan menggunakan rumus Hartley untuk menghitung entropi, kita mendapatkan:

(5)

Persamaan kedua diturunkan berdasarkan sifat-sifat logaritma. Jadi, dalam kasus peralatan SAYA tergantung pada berapa kali jumlah pilihan yang dipertimbangkan telah berubah (keanekaragaman dipertimbangkan).

Berdasarkan (5), kita dapat menyimpulkan hal berikut:

Jika
, Itu
- penghapusan ketidakpastian secara lengkap, jumlah informasi yang diterima dalam pesan sama dengan ketidakpastian yang ada sebelum pesan diterima.

Jika
, Itu
- ketidakpastian tidak berubah, oleh karena itu tidak ada informasi yang diperoleh.

Jika
, Itu
=>
, Jika
,
=>
. Itu. jumlah informasi yang diterima akan positif jika sebagai akibat dari penerimaan pesan, jumlah alternatif yang dipertimbangkan berkurang, dan negatif jika bertambah.

Jika jumlah alternatif yang dipertimbangkan dibelah dua sebagai hasil dari penerimaan pesan, mis.
, Itu saya=catatan 2 (2) = 1 bit. Dengan kata lain, menerima 1 bit informasi mengecualikan setengah dari opsi yang setara dari pertimbangan.

Pertimbangkan, sebagai contoh, percobaan dengan setumpuk 36 kartu.

Beras. 12. Ilustrasi percobaan dengan setumpuk 36 kartu.

Biarkan seseorang mengambil satu kartu dari geladak. Kami tertarik dengan 36 kartu mana yang dia keluarkan. Ketidakpastian awal yang dihitung dengan rumus (2) adalah H= catatan 2 (36) 5,17 bit. Orang yang menarik kartu memberi tahu kami beberapa informasi. Menggunakan rumus (5), kami menentukan berapa banyak informasi yang kami terima dari pesan-pesan ini:

PilihanA. "InikartAmerah jas”.

I=log 2 (36/18)=log 2 (2)=1 bit (ada setengah kartu merah di tumpukan, ketidakpastiannya berkurang 2 kali lipat).

PilihanB. "InikartApuncak jas”.

I=log 2 (36/9)=log 2 (4)=2 bit (kartu sekop membentuk seperempat tumpukan, ketidakpastiannya berkurang 4 kali lipat).

Opsi C. "Ini adalah salah satu kartu tertinggi: jack, queen, king atau ace."

I=log 2 (36)–log 2 (16)=5.17-4=1.17 bit (ketidakpastian menurun lebih dari dua kali, sehingga jumlah informasi yang diterima lebih dari satu bit).

PilihanD. "Itu satu kartu dari dek."

I=log 2 (36/36)=log 2 (1)=0 bit (ketidakpastian tidak berkurang - pesan tidak informatif).

PilihanD. “Ini seorang wanitapuncak".

I=log 2 (36/1)=log 2 (36)=5,17 bit (ketidakpastian dihapus sepenuhnya).

    Diketahui secara apriori bahwa bola berada di salah satu dari tiga guci: A, B, atau C. Tentukan berapa banyak bit informasi yang terkandung di dalam guci B. Pilihan: 1 bit, 1,58 bit, 2 bit, 2,25 bit.

    Probabilitas kejadian pertama adalah 0,5, dan kejadian kedua dan ketiga 0,25. Apa entropi informasi untuk distribusi seperti itu. Pilihan: 0,5 bit, 1 bit, 1,5 bit, 2 bit, 2,5 bit, 3 bit.

    Berikut adalah daftar karyawan dari beberapa organisasi:

Tentukan jumlah informasi yang hilang untuk memenuhi permintaan berikut:

    Silakan hubungi Ivanova di telepon.

    Saya tertarik dengan salah satu karyawan Anda, dia lahir pada tahun 1970.

    Pesan mana yang berisi lebih banyak informasi:

    Akibat pelemparan koin (kepala, ekor), ekornya rontok.

    Lampu lalu lintas (merah, kuning, hijau) sekarang hijau.

Akibat melempar dadu (1, 2, 3, 4, 5, 6), 3 poin jatuh.

Informasi akan ditentukan melalui sifat utamanya (karena, bersama dengan materi dan energi, itu adalah konsep utama dunia kita dan oleh karena itu tidak dapat didefinisikan dalam arti sempit):

  • informasi membawa informasi tentang dunia sekitar yang tidak pada titik pertimbangan sebelum diterima;
  • informasi tidak material dan tidak dapat eksis secara terpisah dari bentuk penyajian informasi (urutan sinyal atau tanda - pesan);
  • pesan berisi informasi hanya untuk mereka yang mampu mengenalinya.

Pesan berisi informasi bukan karena mereka menyalin objek realitas, tetapi dengan kesepakatan sosial tentang hubungan antara pembawa dan objek yang ditunjuk oleh pembawa ini (misalnya, sebuah kata menunjukkan beberapa objek realitas objektif). Selain itu, pembawa dapat dibentuk oleh proses fisik yang terjadi secara alami.

Agar pesan dapat ditransmisikan ke penerima, perlu menggunakan beberapa proses fisik yang dapat menyebar dari sumber ke penerima pesan dengan satu atau lain kecepatan. Proses fisik yang bervariasi waktu yang mencerminkan pesan yang dikirimkan disebut sinyal.

Untuk menerapkan cara matematika untuk mempelajari informasi, perlu untuk mengabstraksi dari makna, isi informasi. Pendekatan ini umum bagi para peneliti yang kami sebutkan, karena matematika murni beroperasi dengan rasio kuantitatif tanpa masuk ke sifat fisik objek-objek di belakang rasio itu. Oleh karena itu, jika makna dikebiri dari pesan, maka titik tolaknya adalah penilaian informasi acara, hanya sekumpulan acara yang berbeda satu sama lain dan, karenanya, pesan tentangnya tetap ada.

Mari kita tertarik pada informasi berikut tentang keadaan beberapa objek: di mana dari empat kemungkinan keadaan (padat, cair, gas, plasma) yang merupakan zat? di mana dari empat program sekolah teknik yang dipelajari siswa? Dalam semua kasus ini, ada ketidakpastian peristiwa yang menarik bagi kami, ditandai dengan adanya pilihan salah satu dari empat kemungkinan. Jika kita mengabaikan artinya dalam jawaban atas pertanyaan di atas, maka kedua jawaban akan membawa jumlah informasi yang sama, karena masing-masing memilih salah satu dari empat kemungkinan keadaan objek dan, oleh karena itu, menghilangkan ketidakpastian pesan yang sama. .

Ketidakpastian melekat dalam konsep probabilitas. Pengurangan ketidakpastian selalu dikaitkan dengan pemilihan (selection) satu atau lebih elemen (alternatif) dari beberapa totalitasnya. Reversibilitas timbal balik dari konsep probabilitas dan ketidakpastian ini menjadi dasar untuk menggunakan konsep probabilitas dalam mengukur tingkat ketidakpastian dalam teori informasi. Jika kita berasumsi bahwa salah satu dari empat jawaban atas pertanyaan memiliki kemungkinan yang sama, maka kemungkinannya untuk semua pertanyaan sama dengan 1/4 .

Probabilitas jawaban yang sama dalam contoh ini juga menentukan ketidakpastian yang sama yang dihilangkan oleh jawaban di masing-masing dua pertanyaan, yang berarti bahwa setiap jawaban membawa informasi yang sama.

Sekarang mari kita coba bandingkan dua pertanyaan berikut: di mana dari empat mata kuliah sekolah teknik yang dipelajari siswa? Bagaimana koin akan jatuh saat dilempar: ke atas "lambang" atau "angka"? Dalam kasus pertama, empat kemungkinan jawaban yang sama dimungkinkan, dalam kasus kedua - dua. Oleh karena itu, probabilitas beberapa jawaban dalam kasus kedua lebih besar daripada yang pertama ( 1/2 > 1/4 ), sedangkan ketidakpastian yang dihilangkan oleh jawaban lebih besar pada kasus pertama. Jawaban apa pun yang mungkin untuk pertanyaan pertama menghilangkan lebih banyak ketidakpastian daripada jawaban apa pun untuk pertanyaan kedua. Oleh karena itu, jawaban atas pertanyaan pertama mengandung lebih banyak informasi! Akibatnya, semakin rendah probabilitas suatu peristiwa, semakin banyak ketidakpastian yang dihilangkan pesan tentang kemunculannya dan, akibatnya, semakin banyak informasi yang dibawanya.

Mari kita asumsikan bahwa beberapa acara memiliki M kemungkinan hasil yang sama. Peristiwa semacam itu dapat berupa, misalnya, munculnya karakter apa pun dari alfabet yang mengandung m karakter tersebut. Bagaimana cara mengukur jumlah informasi yang dapat ditransmisikan menggunakan alfabet seperti itu? Hal ini dapat dilakukan dengan mendefinisikan nomor N kemungkinan pesan yang dapat dikirim menggunakan alfabet ini. Jika pesan dibentuk dari satu karakter, maka N=m, jika dari dua, maka N \u003d m m \u003d m 2. Jika pesan berisi n karakter ( N adalah panjang pesan), maka N=mn. Tampaknya ukuran yang diperlukan dari jumlah informasi telah ditemukan. Ini dapat dipahami sebagai ukuran ketidakpastian hasil percobaan, jika yang kami maksud dengan pengalaman adalah pemilihan pesan secara acak dari sejumlah kemungkinan pesan. Namun, ukuran ini tidak sepenuhnya nyaman.

Di hadapan alfabet yang terdiri dari satu karakter, yaitu. Kapan m = 1, hanya karakter ini yang dapat muncul. Oleh karena itu, tidak ada ketidakpastian dalam hal ini, dan kemunculan simbol ini tidak membawa informasi apapun. Sedangkan nilai N pada m = 1 tidak menuju nol. Untuk dua sumber pesan independen (atau alfabet) dengan N 1 Dan N 2 jumlah kemungkinan pesan jumlah total kemungkinan pesan N = N 1 N 2, meskipun akan lebih logis untuk mengasumsikan bahwa jumlah informasi yang diterima dari dua sumber independen tidak boleh berupa produk, tetapi jumlah dari kuantitas penyusunnya.

Jalan keluar telah ditemukan R.Hartley yang menawarkan informasi SAYA per pesan ditentukan oleh logaritma dari jumlah total pesan yang mungkin N:

I(N) = log N

Jika seluruh rangkaian pesan yang mungkin terdiri dari satu ( N=m=1), Itu

I(N) = log 1 = 0,

yang sesuai dengan kurangnya informasi dalam kasus ini. Di hadapan sumber informasi independen dengan N 1 Dan N 2 jumlah pesan yang mungkin

I (N) \u003d log N \u003d log N 1 N 2 \u003d log N 1 + log N 2

itu. jumlah informasi per pesan sama dengan jumlah jumlah informasi yang akan diterima dari dua sumber independen, diambil secara terpisah.

Formula diusulkan Hartley, memenuhi persyaratan. Oleh karena itu, dapat digunakan untuk mengukur jumlah informasi. Jika kemungkinan munculnya karakter apa pun dalam alfabet dapat diperlengkapi (dan sejauh ini kita berasumsi demikian), maka kemungkinan ini p= 1/m2. Berasumsi bahwa N=m, kita mendapatkan

I = log N = log m = log (1/p) = – log p,

Formula yang dihasilkan memungkinkan beberapa kasus untuk menentukan jumlah informasi. Namun, untuk tujuan praktis, perlu ditentukan satuan ukurannya. Untuk melakukan ini, asumsikan bahwa informasi adalah ketidakpastian yang dihilangkan. Kemudian, dalam kasus ketidakpastian yang paling sederhana, pilihan akan dibuat antara dua pesan yang sama-sama eksklusif, misalnya, antara dua tanda kualitatif: impuls positif dan negatif, impuls dan jeda, dll.

Jumlah informasi yang dikirimkan dalam kasus paling sederhana ini paling mudah diambil sebagai satuan dari jumlah informasi. Unit yang dihasilkan dari jumlah informasi, yang merupakan pilihan dari dua kemungkinan kejadian yang sama, disebut unit biner, atau bit. (Nama sedikit dibentuk dari dua huruf awal dan terakhir dari ekspresi bahasa Inggris satuan biner, yang berarti satuan biner.)

Sedikit bukan hanya satuan jumlah informasi, tetapi juga satuan ukuran tingkat ketidakpastian. Ini mengacu pada ketidakpastian yang terkandung dalam satu percobaan yang memiliki dua kemungkinan hasil yang sama. Jumlah informasi yang diterima dari sebuah pesan dipengaruhi oleh faktor kejutan bagi penerima, yang bergantung pada kemungkinan menerima pesan tertentu. Semakin rendah probabilitas ini, semakin tidak terduga dan karenanya lebih informatif pesannya. Pesan, probabilitas

di mana tingkat keterkejutannya tinggi dan, karenanya, rendah, membawa sedikit informasi.

R.Hartley memahami bahwa pesan memiliki probabilitas yang berbeda dan, oleh karena itu, kemunculannya yang tidak terduga bagi penerima tidak sama. Tetapi dengan mengukur jumlah informasi, dia mencoba menghilangkan faktor "kejutan" sepenuhnya. Oleh karena itu rumus Hartley memungkinkan Anda untuk menentukan jumlah informasi dalam pesan hanya untuk kasus ketika kemunculan simbol memiliki kemungkinan yang sama dan secara statistik independen. Dalam prakteknya, kondisi ini

jarang dilakukan. Saat menentukan jumlah informasi, perlu diperhitungkan tidak hanya jumlah berbagai pesan yang dapat diterima dari sumber, tetapi juga kemungkinan menerimanya.

Pendekatan yang paling banyak digunakan dalam menentukan jumlah rata-rata informasi yang terkandung dalam pesan dari sumber yang sifatnya sangat berbeda adalah pendekatan. KE Shannon.

Pertimbangkan situasi berikut. Sumber mentransmisikan sinyal dasar k berbagai jenis. Mari ikuti segmen pesan yang cukup panjang. Biarkan itu N 1 sinyal tipe pertama, N 2 sinyal tipe kedua, ..., Nk sinyal k tipe -th, dan N 1 + N 2 + ... + N k = N adalah jumlah total sinyal di segmen yang diamati, f 1 , f 2 , ..., f k adalah frekuensi dari sinyal yang sesuai. Seiring bertambahnya panjang segmen pesan, masing-masing frekuensi cenderung ke batas yang tetap, yaitu.

lim fi i = pi i , (i = 1, 2, ..., k),

Di mana pi dapat dianggap probabilitas sinyal. Misalkan sinyal diterima Saya tipe -th dengan probabilitas pi mengandung - log pi satuan informasi. Di bagian yang sedang dipertimbangkan Saya Sinyal -th akan bertemu kira-kira Np saya kali (kita akan menganggap bahwa N cukup besar), dan informasi Umum disampaikan oleh sinyal jenis ini akan sama dengan produk Np i log pi. Hal yang sama berlaku untuk sinyal jenis lain, jadi jumlah total informasi yang dikirimkan oleh suatu segmen dari N sinyal akan kira-kira sama. Untuk menentukan jumlah rata-rata informasi per sinyal, mis. konten informasi spesifik dari sumber, Anda perlu membagi nomor ini dengan N. Dengan pertumbuhan tak terbatas, persamaan perkiraan akan berubah menjadi eksak.

Akibatnya, hubungan asimptotik akan diperoleh - rumusnya Shannon. Ternyata formula yang diusulkan Hartley, adalah kasus khusus dari more rumus umum Shannon.

Selain formula ini, Shannon mengusulkan skema komunikasi abstrak yang terdiri dari lima elemen (sumber informasi, pemancar, jalur komunikasi, penerima dan penerima), dan merumuskan teorema tentang bandwidth, kekebalan kebisingan, pengkodean, dll.

60. Pengukuran informasi - pendekatan probabilistik dan abjad. Rumus dari Hartley, Shannon. Contoh diMSMantanDenganel.

Dari sudut pandang informasi, pada ketidakpastian yang dihilangkan, jumlah informasi dalam pesan tentang suatu peristiwa bergantung pada probabilitas peristiwa tersebut.

Pendekatan ilmiah untuk mengevaluasi pesan diusulkan kembali pada tahun 1928 oleh R. Hartley. Diperkirakan Rumus Hartley untuk kejadian yang dapat diperlengkapi seperti:

SAYA = catatan 2 Natau 2SAYA = N,

di mana N adalah angka peralatan mungkin peristiwa (jumlah kemungkinan pilihan), I - jumlah informasi.

Jika N = 2 (pilihan dari dua kemungkinan), maka I = 1 bit.

Contoh 1 Menggunakan rumus Hartley untuk menghitung jumlah informasi. Berapa bit informasi yang dibawa oleh pesan tersebut?

apakah kereta tiba di salah satu dari 8 jalur?

Rumus Hartley: SAYA = catatan 2 N,

di mana N adalah jumlah hasil yang dapat diperlengkapi dari peristiwa yang dirujuk dalam pesan,

I adalah jumlah informasi dalam pesan.

I = log 2 8 = 3(bit) Jawaban: 3 bit.

Rumus Hartley yang dimodifikasi untuk acara non-seragam. Karena kejadian dari setiap N kemungkinan kejadian memiliki probabilitas yang sama

P = 1 / N, Itu N = 1 / P dan rumusnya seperti

I = log 2 N= log 2 (1/p) = - log 2 p

Hubungan kuantitatif antara probabilitas suatu peristiwa (p) dan jumlah informasi dalam pesan tentangnya (I) dinyatakan dengan rumus:

SAYA = catatan 2 (1/ P)

Probabilitas suatu peristiwa dihitung dengan rumus P= K/ N, K adalah nilai yang menunjukkan berapa kali peristiwa yang kita minati terjadi; N adalah jumlah total kemungkinan hasil, peristiwa. Jika probabilitas menurun, maka jumlah informasi meningkat.

Contoh 2 Ada 30 orang di kelas. Di belakang tes dalam matematika, 6 lima, 15 empat, 8 tiga kali lipat dan 1 dua diterima. Berapa bit informasi yang dibawa oleh pesan bahwa Ivanov menerima empat?

Jawaban: 1 bit.

Menggunakan rumus Shannon. Kasus umum penghitungan jumlah informasi dalam pesan tentang salah satu dari N, tetapi kemungkinan kejadiannya tidak sama. Pendekatan ini diusulkan oleh K. Shannon pada tahun 1948.

Unit informasi dasar:

SAYAMenikahi= -

Arti SAYAMenikahi pi= 1 / N.

Contoh 3 Berapa bit informasi yang dibawa oleh pesan "headlight" yang dibuat secara acak jika, rata-rata, untuk setiap seribu huruf dalam teks Rusia, huruf "a" muncul 200 kali, huruf "f" - 2 kali, huruf "r" - 40 kali.

Kami akan berasumsi bahwa probabilitas kemunculan karakter dalam pesan bertepatan dengan frekuensi kemunculannya dalam teks. Oleh karena itu, huruf "a" muncul dengan frekuensi rata-rata 200/1000=0,2; Probabilitas kemunculan huruf "a" dalam teks (p a) dapat dianggap kurang lebih sama dengan 0,2;

huruf "f" muncul dengan frekuensi 2/1000=0,002; huruf "p" - dengan frekuensi 40/1000=0,04;

Demikian pula, p p = 0,04, p f = 0,002. Kemudian kami melanjutkan menurut K. Shannon. Kami mengambil logaritma biner dari nilai 0,2 dan memanggil apa yang kami dapatkan jumlah informasi yang dibawa oleh satu huruf "a" dalam teks yang sedang dipertimbangkan. Kami akan melakukan operasi yang sama untuk setiap huruf. Maka jumlah informasi yang tepat yang dibawa oleh satu huruf sama dengan catatan 2 1/ pi = - catatan 2 pi, Lebih mudah menggunakan nilai rata-rata jumlah informasi per satu karakter alfabet sebagai ukuran jumlah informasi.

SAYAMenikahi= -

Arti SAYAMenikahi mencapai maksimum untuk kejadian yang sama kemungkinannya, yaitu ketika semua pi

pi= 1 / N.

Dalam hal ini, rumus Shannon berubah menjadi rumus Hartley.

I = M*I cf =4*(-(0,002*log 2 0,002+0,2* log 2 0,2+0,04* log 2 0,04+0,2* log 2 0,2))= 4*(-(0,002*(-8,967)+ 0,2*(-2,322)+0,04*(-4,644)+0,2*(-2,322)))=4*(-(-0,018-0 ,46-0,19-0,46))=4*1,1325=4,53

Jawaban: 4,53 bit

Pendekatan abjad untuk mengukur informasi

Pendekatan abjad digunakan dalam teknologi, dalam hal ini jumlah informasi tidak bergantung pada isinya, tetapi tergantung pada kekuatan abjad dan jumlah karakter dalam teks.

Untuk pengkodean ASCII - kekuatan alfabet = 256

I=log 2 256=8(bit); Saat menyandikan informasi karakter dalam kode, setiap karakter, termasuk spasi dan tanda baca, dikodekan dengan 1 byte (8 bit).

Unit pengukuran informasi dalam komputasi

1 bit (pendekatan teknis)

unit informasi minimum

jumlah informasi diukur hanya dengan jumlah bilangan bulat bit

1 KB (kilobyte)

2 10 byte = 1024 byte

~ 1 ribu byte

1 MB (megabita)

2 10 KB = 2 20 byte

~ 1 juta byte

1 GB (gigabyte)

2 10 MB = 2 30 byte

~ 1 miliar byte

  • 3. Teknologi transmisi data. Ethernet, Cincin Token, ISDN, X.25, Relai Bingkai.
  • 4. Perangkat gateway: repeater, bridge, router, gateway. Metode switching dan routing. Cara Meningkatkan Kinerja Jaringan
  • 5. Jaringan peer-to-peer dan server: karakteristik komparatif. Jenis utama dari server khusus.
  • 6. Basis teknologi Internet. Sistem pengalamatan (alamat IP, nama domain, sistem DNS). Protokol komunikasi dasar dalam jaringan.
  • 7. Teknologi pengguna dasar untuk bekerja di Internet. WWW, FTP, TELNET, E-MAIL. Mencari informasi di Internet.
  • 9. Basis data: data, model data, basis data, sistem manajemen basis data, sistem informasi. model data. Model data relasional.
  • 12. Desain sistem informasi. Model struktur dan siklus hidup.
  • 13. Pemodelan dan representasi struktur perusahaan. Diagram IDEF0.
  • 14. Pemodelan dan penyajian aliran data. diagram DFD.
  • 16. Expert system (ES): konsep, tujuan, arsitektur, ciri khas. klasifikasi ES. Tahapan pengembangan ES.
  • 17. Basis pengetahuan sistem pakar. Metode representasi pengetahuan: model logis, aturan produksi, bingkai, jaringan semantik.
  • 18 Pengetahuan. Jenis pengetahuan. Metode ekstraksi pengetahuan: komunikatif, tekstologis.
  • 19 Bahasa pemrograman, karakteristiknya (Prolog, Delphi, C++).
  • 20. Bahasa pemrograman, karakteristiknya (PHP, Perl, JavaScript).
  • 21. Tujuan, sasaran, prinsip, dan arahan utama untuk memastikan keamanan informasi Federasi Rusia. Perlindungan informasi hukum, organisasi, teknik dan teknis.
  • 22. Publikasi elektronik: konsep, komposisi. klasifikasi EI. Pendaftaran IE.
  • 23. Sumber informasi: konsep, komposisi. Sumber daya informasi negara.
  • 24. Sistem operasi komputer pribadi sebagai alat manajemen sumber daya (pada contoh OS yang dipelajari). struktur dan komponen OS.
  • 25. Perangkat lunak berbahaya: metode klasifikasi, deteksi, dan penghapusan.
  • 26 Struktur aplikasi web. Protokol HTTP. Kue kering. Fungsi aplikasi web. Protokol CGI.
  • 27 Memastikan keandalan IS. transaksi. sistem OLTP.
  • 28. Sasaran ergonomis dan indikator kualitas produk perangkat lunak.
  • 31.Manajemen informasi: konsep dan fungsi utama.
  • 33 Standardisasi perangkat lunak. Standar Dokumentasi Perangkat Lunak.
  • 34. Evaluasi karakteristik kualitatif dan kuantitatif dari sistem informasi. Model untuk menilai karakteristik keandalan perangkat lunak dan dukungan informasi. Konsep dasar, indikator dan metode untuk memastikan keandalan sistem informasi.
  • 36. Kekhasan implementasi program inovatif di bidang informatisasi (karakteristik kebijakan informasi di bidang informatisasi, prinsip pembentukan proyek dan implementasi IP, manajemen proyek informatisasi).

Rumus ini, seperti rumus Hartley, digunakan dalam ilmu komputer untuk menghitung jumlah total informasi untuk berbagai probabilitas.

Contoh dari berbagai probabilitas yang tidak setara adalah keluarnya orang dari barak di suatu unit militer. Seorang prajurit, perwira, dan bahkan seorang jenderal dapat meninggalkan barak. Tetapi pembagian prajurit, perwira dan jenderal di barak berbeda, yang jelas, karena prajurit paling banyak, kemudian perwira datang dalam jumlah dan tipe yang paling langka adalah jenderal. Karena probabilitas tidak sama untuk ketiga jenis militer, untuk menghitung berapa banyak informasi yang akan diambil dan digunakan oleh peristiwa semacam itu rumus Shannon.

Untuk kejadian lain yang kemungkinannya sama, seperti lemparan koin (kemungkinan kepala atau ekor akan sama - 50%), rumus Hartley digunakan.

Sekarang, mari kita lihat penerapan rumus ini pada contoh spesifik:

Pesan mana yang berisi informasi paling sedikit (Hitung dalam bit):

  1. Dengan mudah memakan 6 permen, 2 di antaranya adalah barberry.
  2. Ada 10 folder di komputer, file yang diinginkan ditemukan di folder ke-9.
  3. Baba Luda membuat 4 pai daging dan 4 pai kol. Gregory makan 2 pai.
  4. Afrika memiliki 200 hari cuaca kering dan 165 hari musim hujan. seorang Afrika berburu 40 hari setahun.

Dalam masalah ini, kami memperhatikan bahwa opsi 1, 2 dan 3, opsi ini mudah dipertimbangkan, karena kejadiannya memiliki kemungkinan yang sama. Dan untuk ini kita akan menggunakan rumus Hartley I = log 2 N(Gbr. 1) Tetapi dengan poin ke-4, di mana jelas bahwa distribusi hari tidak merata (mendominasi cuaca kering), lalu apa yang harus kita lakukan dalam kasus ini? Untuk kejadian seperti itu, rumus Shannon atau entropi informasi digunakan: I = - (p 1 log 2 p 1 + p 2 log 2 p 2 + . . . + p N log 2 p N),(gbr.3)

RUMUS UNTUK JUMLAH INFORMASI (FORMULA HARTLEY, Gbr. 1)

Di mana:

  • I - jumlah informasi
  • p adalah probabilitas bahwa peristiwa ini akan terjadi

Peristiwa yang menarik bagi kami dalam masalah kami adalah

  1. Ada dua barberry dari enam (2/6)
  2. Ada satu folder di mana file yang diperlukan ditemukan terkait dengan jumlah total (1/10)
  3. Ada total delapan pai, yang dua di antaranya dimakan Gregory (2/8)
  4. dan empat puluh hari terakhir berburu dibandingkan dengan dua ratus hari kering, dan empat puluh hari berburu dibandingkan dengan seratus enam puluh lima hari hujan. (40/200) + (40/165)

dengan demikian kita mendapatkan bahwa:

RUMUS PROBABILITAS UNTUK PERISTIWA.

Di mana K adalah peristiwa yang menarik bagi kita, dan N adalah jumlah total dari peristiwa ini, juga untuk memeriksa diri Anda sendiri, probabilitas suatu peristiwa tidak boleh lebih dari satu. (karena selalu ada kejadian yang lebih kecil kemungkinannya)

RUMUS SHANNON UNTUK MENGHITUNG INFORMASI (Gbr. 3)

Mari kembali ke tugas kita dan hitung berapa banyak informasi yang terkandung.

Omong-omong, saat menghitung logaritma, lebih mudah menggunakan situs - https://planetcalc.ru/419/#

  • Untuk kasus pertama - 2/6 = 0,33 = dan selanjutnya Log 2 0,33 = 1,599 bit
  • Untuk kasus kedua - 1/10 = 0,10 Log 2 0,10 = 3,322 bit
  • Untuk yang ketiga - 2/8 = 0,25 = Log 2 0,25 = 2 bit
  • Untuk yang keempat - 40/200 + 40/165 = 0,2 dan 0,24, masing-masing, maka kami menghitung sesuai dengan rumus - (0,2 * log 2 0,2) + - (o,24 * log 2 0,24) = 0,95856 bit

Jadi, jawaban untuk masalah kami ternyata 4.



Memuat...
Atas