Pengurangan dimensi. Evaluasi metode reduksi dimensi data yang digunakan untuk mengubah aliran video untuk identifikasi pribadi Inti dari masalah reduksi dimensi dan berbagai metode untuk menyelesaikannya

  • Dalam statistik, pembelajaran mesin, dan teori informasi, pengurangan dimensi adalah transformasi data yang terdiri dari pengurangan jumlah variabel dengan mendapatkan variabel utama. Transformasi dapat dibagi menjadi seleksi fitur dan ekstraksi fitur.

Konsep terkait

Referensi dalam literatur

– pemuatan dan pra-pemrosesan data input, – pelabelan bahan stimulus secara manual dan otomatis (pemilihan bidang minat), – algoritme untuk menghitung matriks representasi penerus, – membangun tabel data yang diperluas dengan nilai variabel input yang diperlukan untuk selanjutnya analisis, – metode pengurangan dimensi ruang fitur (metode komponen utama), – visualisasi beban komponen untuk pemilihan komponen yang diinterpretasikan, – algoritma pembelajaran pohon keputusan, – algoritma estimasi kemampuan prediksi pohon, – visualisasi pohon keputusan.

Konsep terkait (lanjutan)

Teknik pengelompokan spektral menggunakan spektrum (nilai eigen) dari matriks kesamaan data untuk melakukan pengurangan dimensi sebelum pengelompokan di ruang dimensi yang lebih rendah. Matriks kesamaan diberikan sebagai masukan dan terdiri dari perkiraan kuantitatif kesamaan relatif dari setiap pasang titik dalam data.

Metode spektral adalah kelas teknik yang digunakan dalam matematika terapan untuk menyelesaikan beberapa persamaan diferensial secara numerik, kemungkinan melibatkan Fast Fourier Transform. Idenya adalah untuk menulis ulang solusi persamaan diferensial sebagai jumlah dari beberapa "fungsi basis" (seperti bagaimana deret Fourier adalah jumlah sinusoidal) dan kemudian memilih koefisien dalam jumlah tersebut untuk memenuhi persamaan diferensial sebaik mungkin.

Analisis matematika (analisis matematika klasik) - sekumpulan bagian matematika yang sesuai dengan bagian sejarah dengan nama "analisis sangat kecil", menggabungkan kalkulus diferensial dan integral.

Evolusi diferensial adalah metode pengoptimalan matematika multidimensi yang termasuk dalam kelas algoritme pengoptimalan stokastik (yaitu, ia bekerja menggunakan bilangan acak) dan menggunakan beberapa ide algoritme genetik, tetapi, tidak seperti mereka, tidak memerlukan pengerjaan dengan variabel dalam kode biner.

Metode Elemen Diskrit (DEM) adalah keluarga metode numerik yang dirancang untuk menghitung gerakan sejumlah besar partikel seperti molekul, butiran pasir, kerikil, kerikil, dan media granular lainnya. Metode ini awalnya diterapkan oleh Cundall pada tahun 1971 untuk memecahkan masalah dalam mekanika batuan.

Sebagai hasil dari mempelajari materi bab 5, siswa harus:

tahu

  • konsep dasar dan masalah pengurangan dimensi:
  • pendekatan untuk memecahkan masalah transformasi ruang fitur;

mampu untuk

  • gunakan metode komponen utama untuk pindah ke fitur ortogonal standar;
  • mengevaluasi penurunan kandungan informasi data dengan penurunan dimensi ruang fitur;
  • memecahkan masalah membangun skala multidimensi yang optimal untuk mempelajari objek;

memiliki

  • metode reduksi dimensi untuk memecahkan masalah terapan Analisis statistik;
  • keterampilan menafsirkan variabel dalam ruang fitur yang ditransformasikan.

Konsep dasar dan masalah pengurangan dimensi

Sepintas, semakin banyak informasi tentang objek kajian berupa sekumpulan fitur yang mencirikannya akan digunakan untuk membuat model, semakin baik. Namun, terlalu banyak informasi dapat mengurangi efektivitas analisis data. Bahkan ada istilah "kutukan dimensi" (kutukan dimensi), mencirikan masalah bekerja dengan data dimensi tinggi. Kebutuhan untuk mengurangi dimensi dalam satu bentuk atau lainnya terkait dengan solusi berbagai masalah statistik.

Fitur non-informatif merupakan sumber noise tambahan dan memengaruhi keakuratan estimasi parameter model. Selain itu, dataset dengan jumlah yang besar fitur mungkin berisi kelompok variabel berkorelasi. Kehadiran kelompok fitur seperti itu berarti duplikasi informasi, yang dapat mendistorsi spesifikasi model dan memengaruhi kualitas estimasi parameternya. Semakin tinggi dimensi data, semakin tinggi jumlah perhitungan selama pemrosesan algoritmiknya.

Dua arah dapat dibedakan dalam mengurangi dimensi ruang fitur sesuai dengan prinsip variabel yang digunakan untuk ini: pemilihan fitur dari set awal yang ada dan pembentukan fitur baru dengan mentransformasikan data asli. Idealnya, representasi data yang dikurangi harus memiliki dimensi yang sesuai dengan dimensi yang melekat pada data. (dimensi intrinsik).

Pencarian fitur paling informatif yang menjadi ciri fenomena yang diteliti adalah cara yang jelas untuk mengurangi dimensi masalah, yang tidak memerlukan transformasi variabel aslinya. Ini memungkinkan untuk membuat model lebih kompak dan menghindari kerugian yang terkait dengan efek mengganggu dari fitur yang tidak informatif. Pemilihan fitur informatif terdiri dari menemukan subset terbaik dari himpunan semua variabel awal. Kriteria konsep "terbaik" bisa jadi yang paling banyak kualitas tinggi pemodelan untuk dimensi ruang fitur tertentu, atau dimensi data terkecil yang memungkinkan untuk membangun model dengan kualitas tertentu.

Solusi langsung dari masalah pembuatan model terbaik dikaitkan dengan pencacahan semua kemungkinan kombinasi fitur, yang biasanya tampak terlalu melelahkan. Oleh karena itu, sebagai aturan, gunakan pemilihan sifat langsung atau terbalik. Dalam prosedur pemilihan langsung, variabel ditambahkan secara berurutan dari set awal hingga kualitas model yang dibutuhkan tercapai. Dalam algoritme pengurangan berturut-turut dari ruang fitur asli (pemilihan terbalik), variabel yang paling tidak informatif dihapus selangkah demi selangkah hingga konten informasi model dikurangi ke tingkat yang dapat diterima.

Perlu diingat bahwa kandungan informasi dari tanda bersifat relatif. Pemilihan harus memberikan kandungan informasi yang tinggi dari sekumpulan fitur, dan bukan kandungan informasi total dari variabel penyusunnya. Dengan demikian, adanya korelasi antar fitur mengurangi konten informasi mereka secara keseluruhan karena duplikasi informasi yang umum bagi mereka. Oleh karena itu, menambahkan fitur baru ke yang sudah dipilih memberikan peningkatan konten informasi sejauh yang dikandungnya informasi berguna, yang tidak ada dalam variabel yang dipilih sebelumnya. Situasi paling sederhana adalah pemilihan fitur yang saling ortogonal, di mana algoritme pemilihan diimplementasikan dengan sangat sederhana: variabel diberi peringkat berdasarkan keinformatifannya, dan komposisi fitur pertama dalam peringkat ini digunakan untuk memberikan informasi yang diberikan.

Keterbatasan metode pemilihan fitur untuk mereduksi dimensi ruang dikaitkan dengan asumsi kehadiran langsung fitur yang diperlukan dalam data awal, yang biasanya ternyata tidak benar. Pendekatan alternatif untuk pengurangan dimensi adalah untuk mengubah fitur menjadi satu set variabel baru yang dikurangi. Berbeda dengan pemilihan fitur awal, pembentukan ruang fitur baru melibatkan pembuatan variabel baru, yang biasanya merupakan fungsi dari fitur asli. Variabel-variabel ini, tidak dapat diamati secara langsung, sering disebut sebagai laten, atau terpendam. Selama proses pembuatan, variabel-variabel ini dapat diberkahi dengan berbagai properti yang berguna, seperti ortogonalitas. Dalam praktiknya, fitur awal biasanya saling berhubungan, sehingga transformasi ruangnya menjadi ruang ortogonal menghasilkan koordinat fitur baru yang tidak memiliki efek duplikasi informasi tentang objek yang diteliti.

Menampilkan objek dalam ruang fitur ortogonal baru memungkinkan untuk memvisualisasikan kegunaan masing-masing fitur dalam hal perbedaan antara objek-objek tersebut. Jika koordinat basis baru diurutkan sesuai dengan varians yang mencirikan sebaran nilai untuk pengamatan yang sedang dipertimbangkan, maka menjadi jelas bahwa, dari sudut pandang praktis, beberapa fitur dengan nilai varians kecil tidak berguna, karena objek dengan fitur ini secara praktis tidak dapat dibedakan dibandingkan dengan perbedaannya dalam variabel yang lebih informatif. Dalam situasi seperti itu, kita dapat berbicara tentang apa yang disebut degenerasi ruang fitur asli k variabel, dan dimensi nyata dari ruang ini T mungkin kurang dari aslinya (m< k).

Pengurangan ruang fitur disertai dengan penurunan tertentu dalam konten informasi data, tetapi tingkat pengurangan yang dapat diterima dapat ditentukan sebelumnya. Ekstraksi fitur memproyeksikan satu set variabel awal ke ruang dimensi yang lebih rendah. Mengompresi ruang fitur menjadi 2-3D dapat berguna untuk visualisasi data. Dengan demikian, proses pembentukan ruang fitur baru biasanya mengarah ke sekumpulan kecil variabel yang benar-benar informatif. Berdasarkan mereka, model yang lebih baik dapat dibangun berdasarkan sejumlah kecil fitur yang paling informatif.

Pembentukan variabel baru berdasarkan yang asli digunakan untuk analisis semantik laten, kompresi data, klasifikasi dan pengenalan pola, meningkatkan kecepatan dan efisiensi proses pembelajaran. Data terkompresi biasanya digunakan untuk analisis dan pemodelan lebih lanjut.

Salah satu aplikasi penting dari transformasi ruang fitur dan reduksi dimensi adalah konstruksi kategori laten sintetik berdasarkan nilai fitur terukur. Tanda-tanda laten ini dapat mencirikan ciri-ciri umum tertentu dari fenomena yang diteliti, mengintegrasikan sifat-sifat khusus dari objek yang diamati, yang memungkinkan untuk membangun indikator integral dari berbagai tingkat generalisasi informasi.

Peran metode reduksi ruang fitur dalam mempelajari masalah duplikasi informasi pada fitur awal, yang mengarah ke "pembengkakan" varian perkiraan koefisien model regresi, sangat penting. Transisi ke variabel baru, idealnya ortogonal dan ditafsirkan secara bermakna, adalah alat pemodelan yang efektif dalam kondisi multikolinearitas data awal.

Transformasi ruang fitur awal menjadi ortogonal cocok untuk memecahkan masalah klasifikasi, karena memungkinkan seseorang untuk menerapkan ukuran kedekatan atau perbedaan objek tertentu, seperti jarak Euclidean atau kuadrat dari jarak Euclidean. Dalam analisis regresi, konstruksi persamaan regresi pada komponen utama memungkinkan penyelesaian masalah multikolinearitas.

Dalam analisis statistik multivariat, setiap objek dijelaskan oleh vektor yang dimensinya arbitrer (namun sama untuk semua objek). Namun, seseorang hanya dapat melihat data numerik atau titik di pesawat secara langsung. Jauh lebih sulit untuk menganalisis kelompok titik dalam ruang tiga dimensi. Persepsi langsung dari data dimensi yang lebih tinggi tidak mungkin dilakukan. Oleh karena itu, sangat wajar jika ingin berpindah dari sampel multivariat ke data berdimensi rendah sehingga "Anda dapat melihatnya".

Selain keinginan untuk visibilitas, ada motif lain untuk memperkecil dimensi. Faktor-faktor yang tidak bergantung pada variabel minat peneliti hanya menghambat analisis statistik. Pertama, mengumpulkan informasi tentang mereka menghabiskan sumber daya. Kedua, seperti yang dapat dibuktikan, dimasukkannya mereka ke dalam analisis memperburuk sifat prosedur statistik (khususnya, meningkatkan variasi estimasi parameter dan karakteristik distribusi). Oleh karena itu, diinginkan untuk menyingkirkan faktor-faktor tersebut.

Mari kita bahas dari sudut pandang pengurangan dimensi contoh penggunaan analisis regresi untuk meramalkan penjualan, dibahas dalam subbagian 3.2.3. Pertama, dalam contoh ini, dimungkinkan untuk mengurangi jumlah variabel independen dari 17 menjadi 12. Kedua, dimungkinkan untuk membangun faktor baru - fungsi linier dari 12 faktor yang disebutkan, yang memprediksi volume penjualan lebih baik daripada semua variabel linier lainnya. kombinasi faktor. Oleh karena itu, kita dapat mengatakan bahwa sebagai hasilnya, dimensi masalah berkurang dari 18 menjadi 2. Yakni, ada satu faktor independen (kombinasi linier yang diberikan pada subbab 3.2.3) dan satu faktor dependen - volume penjualan.

Saat menganalisis data multivariat, biasanya dianggap bukan hanya satu, tetapi banyak masalah, khususnya, pemilihan variabel independen dan dependen secara berbeda. Oleh karena itu, pertimbangkan masalah reduksi dimensi dalam rumusan berikut. Diberikan sampel multivariat. Diperlukan untuk berpindah darinya ke sekumpulan vektor dengan dimensi yang lebih kecil, menjaga struktur data awal sebanyak mungkin, tanpa kehilangan informasi yang terkandung dalam data jika memungkinkan. Tugas ditentukan dalam kerangka kerja masing-masing metode reduksi dimensi tertentu.

Metode Komponen Utama adalah salah satu metode reduksi dimensi yang paling umum digunakan. Gagasan utamanya adalah mengidentifikasi secara berurutan arah di mana data memiliki penyebaran terbesar. Biarkan sampel terdiri dari vektor yang terdistribusi secara merata dengan vektor X = (X(1), X(2), … , X(N)). Pertimbangkan kombinasi linier

Y(λ(1), λ(2), …, λ( N)) = λ(1) X(1) +λ(2) X(2) + … + λ( N)X(N),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( N) = 1.

Di sini vektor λ = (λ(1), λ(2), …, λ( N)) terletak pada satuan bola di N-dimensi ruang.

Dalam metode komponen utama, pertama-tama ditemukan arah hamburan maksimum, yaitu λ seperti itu di mana varian dari variabel acak mencapai maksimumnya Y(λ) = Y(λ(1), λ(2), …, λ( N)). Kemudian vektor λ mendefinisikan komponen utama pertama, dan kuantitas Y(λ) adalah proyeksi vektor acak X pada sumbu komponen utama pertama.

Kemudian, dalam hal aljabar linier, kita menganggap hyperplane di N-dimensi ruang, tegak lurus terhadap komponen utama pertama, dan memproyeksikan semua elemen sampel ke hyperplane ini. Dimensi hyperplane 1 lebih kecil dari dimensi ruang aslinya.

Di hyperplane yang dipertimbangkan, prosedur diulangi. Arah penyebaran terbesar ditemukan di dalamnya, yaitu. komponen utama kedua. Kemudian alokasikan hyperplane yang tegak lurus terhadap dua komponen utama pertama. Dimensinya 2 lebih kecil dari dimensi ruang aslinya. Berikutnya adalah iterasi berikutnya.

Dari sudut pandang aljabar linier, kita berbicara tentang membangun basis baru di N-dimensi ruang, yang orts adalah komponen utama.

Varians yang sesuai untuk setiap komponen utama baru lebih kecil dari yang sebelumnya. Biasanya mereka berhenti ketika kurang dari ambang batas yang diberikan. Jika dipilih k komponen utama, ini berarti bahwa N ruang -dimensi berhasil pergi ke k- dimensi, yaitu mengurangi dimensi dari N-sebelum k, praktis tanpa mendistorsi struktur data sumber .

Untuk analisis data visual, proyeksi vektor asli ke bidang dua komponen utama pertama sering digunakan. Biasanya, struktur data terlihat jelas, kelompok objek yang padat dan vektor yang dialokasikan secara terpisah dibedakan.

Metode komponen utama adalah salah satu metode analisis faktor. Berbagai algoritme analisis faktor disatukan oleh fakta bahwa semuanya memiliki transisi ke basis baru di aslinya N-dimensi ruang. Konsep "beban faktor" penting, yang digunakan untuk menggambarkan peran faktor awal (variabel) dalam pembentukan vektor tertentu dari basis baru.

Gagasan baru dibandingkan dengan metode komponen utama adalah bahwa, berdasarkan beban, faktor-faktor tersebut dibagi menjadi beberapa kelompok. Satu kelompok menggabungkan faktor-faktor yang memiliki efek serupa pada unsur-unsur basis baru. Maka disarankan untuk meninggalkan satu perwakilan dari setiap kelompok. Kadang-kadang, alih-alih memilih perwakilan dengan perhitungan, faktor baru dibentuk yang merupakan inti dari kelompok yang bersangkutan. Pengurangan dimensi terjadi pada transisi ke sistem faktor yang mewakili kelompok. Faktor lainnya dibuang.

Prosedur yang dijelaskan dapat dilakukan tidak hanya dengan bantuan analisis faktor. Kita berbicara tentang analisis klaster fitur (faktor, variabel). Berbagai algoritma analisis klaster dapat digunakan untuk membagi fitur menjadi beberapa kelompok. Cukup memasukkan jarak (ukuran kedekatan, indikator perbedaan) antar fitur. Membiarkan X Dan Pada- dua tanda. Perbedaan D(X, Y) di antara mereka dapat diukur dengan menggunakan koefisien korelasi sampel:

D 1 (X, Y) = 1 – rn(X, Y), D 2 (X, Y) = 1 – ρ N(X, Y),

Di mana rn(X, Y) adalah sampel koefisien korelasi Pearson linier, ρ N(X, Y) adalah koefisien korelasi peringkat sampel Spearman.

Penskalaan multidimensi. Tentang penggunaan jarak (ukuran kedekatan, indikator perbedaan) D(X, Y) antar fitur X Dan Pada kelas luas metode penskalaan multidimensi didirikan. Ide utama dari kelas metode ini adalah untuk merepresentasikan setiap objek dengan suatu titik dalam ruang geometris (biasanya berdimensi 1, 2 atau 3), yang koordinatnya merupakan nilai faktor tersembunyi (laten) yang bersama-sama menggambarkan objek secara memadai. Dalam hal ini, hubungan antar objek digantikan oleh hubungan antar titik - perwakilannya. Jadi, data kesamaan objek - berdasarkan jarak antar titik, data keunggulan - berdasarkan susunan titik yang saling menguntungkan.

Dalam praktiknya, sejumlah berbagai model penskalaan multidimensi. Semuanya menghadapi masalah penaksiran dimensi sebenarnya dari ruang faktor. Mari pertimbangkan masalah ini menggunakan contoh pengolahan data kesamaan objek menggunakan penskalaan metrik.

Biarkan disana ada N objek TENTANG(1), TENTANG(2), …, HAI(N), untuk setiap pasangan objek TENTANG(Saya), HAI(J) ukuran kesamaan mereka diberikan S(Saya, J). Kami berpikir bahwa selalu S(Saya, J) = S(J, Saya). Asal angka S(Saya, J) tidak relevan untuk menjelaskan cara kerja algoritme. Mereka dapat diperoleh baik dengan pengukuran langsung, atau dengan menggunakan para ahli, atau dengan perhitungan dari serangkaian karakteristik deskriptif, atau dengan cara lain.

Di ruang Euclidean, yang dipertimbangkan N objek harus diwakili oleh konfigurasi N titik, dan jarak Euclidean D(Saya, J) antara titik-titik yang bersesuaian. Tingkat korespondensi antara sekumpulan objek dan sekumpulan titik yang mewakilinya ditentukan dengan membandingkan matriks kesamaan || S(Saya, J)|| dan jarak || D(Saya, J)||. Fungsionalitas kesamaan metrik memiliki bentuk

Konfigurasi geometrik harus dipilih sehingga fungsional S mencapai nilai minimumnya.

Komentar. Dalam penskalaan non-metrik, alih-alih kedekatan ukuran kedekatan dan jarak itu sendiri, kedekatan urutan pada himpunan ukuran kedekatan dan himpunan jarak yang sesuai dipertimbangkan. Alih-alih fungsionalitas S analog dari koefisien korelasi peringkat Spearman dan Kendall digunakan. Dengan kata lain, skala non-metrik mengasumsikan bahwa ukuran kedekatan diukur pada skala ordinal.

Biarkan ruang Euclidean memiliki dimensi M. Pertimbangkan kesalahan kuadrat rata-rata minimum

,

di mana minimum diambil alih semua kemungkinan konfigurasi N poin masuk M-dimensi ruang Euclidean. Dapat ditunjukkan bahwa minimum yang dianggap tercapai pada beberapa konfigurasi. Jelas bahwa dengan pertumbuhan M kuantitas α m berkurang secara monoton (lebih tepatnya, tidak bertambah). Dapat ditunjukkan bahwa ketika M > N– 1 sama dengan 0 (jika S(Saya, J) adalah metrik). Untuk meningkatkan kemungkinan interpretasi yang bermakna, diinginkan untuk bertindak dalam ruang dengan dimensi sekecil mungkin. Namun, dalam hal ini, dimensi harus dipilih sehingga titik-titik tersebut merepresentasikan objek tanpa distorsi yang besar. Timbul pertanyaan: bagaimana memilih dimensi secara rasional, mis. bilangan asli M?

Bagian dari analisis deterministik Sepertinya tidak ada jawaban yang masuk akal untuk pertanyaan ini. Oleh karena itu, perlu mempelajari perilaku α m dalam model probabilistik tertentu. Jika ukuran kedekatan S(Saya, J) adalah variabel acak yang distribusinya bergantung pada "dimensi sebenarnya" M 0 (dan, mungkin, pada beberapa parameter lain), maka dalam gaya matematika dan statistik klasik kita dapat menetapkan masalah estimasi M 0 , mencari skor yang konsisten, dan seterusnya.

Mari kita mulai membuat model probabilistik. Kami berasumsi bahwa objek adalah titik dalam ruang dimensi Euclidean k, Di mana k cukup besar. Bahwa "dimensi sebenarnya" adalah M 0 , berarti semua titik ini terletak pada hyperplane dimensi M 0 . Mari kita asumsikan untuk kepastian bahwa himpunan titik yang ditinjau adalah sampel dari distribusi normal melingkar dengan varians σ 2 (0). Ini berarti bahwa objek TENTANG(1), TENTANG(2), …, HAI(N) adalah vektor acak yang independen secara kolektif, yang masing-masing dikonstruksikan sebagai ζ(1) e(1) + ζ(2) e(2) + … + ζ( M 0)e(M 0), dimana e(1), e(2), … , e(M 0) adalah basis ortonormal dalam subruang dimensi M 0 , di mana letak titik-titik yang ditinjau, dan ζ(1), ζ(2), … , ζ( M 0) adalah variabel acak normal satu dimensi independen secara kolektif dengan ekspektasi matematis) dan varians σ 2 (0).

Pertimbangkan dua model untuk mendapatkan ukuran kedekatan S(Saya, J). Yang pertama dari mereka S(Saya, J) berbeda dari jarak Euclidean antara titik-titik yang sesuai karena titik-titik tersebut diketahui dengan distorsi. Membiarkan Dengan(1),Dengan(2), … , Dengan(N) dianggap poin. Kemudian

S(Saya, J) = D(C(Saya) + ε( Saya), C(J) + ε( J)), Saya, J = 1, 2, … , N,

Di mana D adalah jarak Euclidean antara titik-titik di k-dimensi ruang, vektor ε(1), ε(2), … , ε( N) mewakili sampel dari distribusi normal melingkar di k-dimensi ruang dengan ekspektasi matematis nol dan matriks kovarians σ 2 (1) SAYA, Di mana SAYA adalah matriks identitas. Dengan kata lain, ε( Saya) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Di mana e(1), e(2), …, e(k) adalah basis ortonormal dalam k ruang -dimensi, dan (η( Saya, T), Saya= 1, 2, …, n, T= 1, 2, … , k) adalah himpunan bebas dalam himpunan satu dimensi variabel acak dengan ekspektasi matematis nol dan varians σ 2 (1).

Pada model kedua, distorsi dikenakan langsung pada jarak itu sendiri:

S(aku j) = D(C(Saya), C(J)) + ε( aku j), aku j = 1, 2, … , N, SayaJ,

dimana (ε( Saya, J), Saya, J = 1, 2, … , N) secara kolektif variabel acak normal independen dengan ekspektasi matematis) dan varians σ 2 (1).

Makalah ini menunjukkan bahwa untuk kedua model yang diformulasikan, kesalahan kuadrat rata-rata minimum α m untuk N→ ∞ konvergen dalam probabilitas ke

F(M) = F 1 (M) + σ 2 (1)( kM), M = 1, 2, …, k,

Jadi fungsinya F(M) linier pada interval dan , dan berkurang lebih cepat pada interval pertama daripada interval kedua. Ini mengikuti statistik

adalah perkiraan yang konsisten dari dimensi sebenarnya M 0 .

Jadi, rekomendasi mengikuti dari teori probabilistik - sebagai perkiraan dimensi ruang faktor, gunakan M*. Perhatikan bahwa rekomendasi semacam itu dirumuskan sebagai heuristik oleh salah satu pendiri penskalaan multidimensi, J. Kraskal. Dia berangkat dari pengalaman penggunaan praktis penskalaan multidimensi dan eksperimen komputasi. Teori probabilistik memungkinkan untuk memperkuat rekomendasi heuristik ini.

Sebelumnya

Kata kunci

MATEMATIKA / STATISTIK TERAPAN / STATISTIK MATEMATIKA/ POIN PERTUMBUHAN / METODE KOMPONEN UTAMA / ANALISIS FAKTOR / SKALA MULTIDIMENSI / ESTIMASI DIMENSI DATA / ESTIMASI DIMENSI MODEL/ MATEMATIKA / STATISTIK TERAPAN / STATISTIK MATEMATIKA / TITIK PERTUMBUHAN / ANALISIS KOMPONEN UTAMA / ANALISIS FAKTOR / SKALA MULTIDIMENSI / ESTIMASI DIMENSI DATA / ESTIMASI DIMENSI MODEL

anotasi artikel ilmiah dalam matematika, penulis artikel ilmiah - Alexander I. Orlov, Evgeny Veniaminovich Lutsenko

Salah satu "titik pertumbuhan" statistik terapan adalah metode untuk mengurangi dimensi ruang data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan tertentu, misalnya sosiologis. Mari kita pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Metode Komponen Utama adalah salah satu metode reduksi dimensi yang paling umum digunakan. Untuk analisis data visual, proyeksi vektor asli ke bidang dua komponen utama pertama sering digunakan. Biasanya, struktur data terlihat jelas, kelompok objek yang padat dan vektor yang dialokasikan secara terpisah dibedakan. Metode Komponen Utama adalah salah satu caranya analisis faktor. Ide baru dibandingkan dengan metode komponen utama terdiri dari fakta bahwa, berdasarkan beban, faktor-faktor tersebut dibagi menjadi beberapa kelompok. Satu kelompok menggabungkan faktor-faktor yang memiliki efek serupa pada unsur-unsur basis baru. Maka disarankan untuk meninggalkan satu perwakilan dari setiap kelompok. Kadang-kadang, alih-alih memilih perwakilan dengan perhitungan, faktor baru dibentuk yang merupakan inti dari kelompok yang bersangkutan. Pengurangan dimensi terjadi pada transisi ke sistem faktor yang mewakili kelompok. Faktor lainnya dibuang. Kelas metode yang ekstensif didasarkan pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antar fitur. penskalaan multidimensi. Ide utama dari kelas metode ini adalah untuk merepresentasikan setiap objek dengan suatu titik dalam ruang geometris (biasanya berdimensi 1, 2 atau 3), yang koordinatnya merupakan nilai faktor tersembunyi (laten) yang bersama-sama menggambarkan objek secara memadai. Sebagai contoh penerapan pemodelan statistik probabilistik dan hasil statistik data non-numerik, kami membenarkan validitas estimasi dimensi ruang data di penskalaan multidimensi, sebelumnya diusulkan oleh Kruskal karena alasan heuristik. Sejumlah karya memperkirakan dimensi model(dalam analisis regresi dan dalam teori klasifikasi). Informasi tentang algoritma pengurangan dimensi dalam analisis sistem-kognitif otomatis diberikan.

Topik-topik terkait makalah ilmiah dalam matematika, penulis karya ilmiah - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Metode matematika dalam sosiologi selama empat puluh lima tahun

  • Berbagai objek yang bersifat non-numerik

  • Estimasi Parameter: Estimator Satu Langkah Lebih Baik daripada Estimator Kemungkinan Maksimum

  • Statistik Terapan - Status dan Prospek

    2016 / Alexander Orlov
  • Status dan prospek pengembangan statistik terapan dan teoretis

    2016 / Alexander Orlov
  • Hubungan antara teorema limit dan metode Monte Carlo

    2015 / Alexander Orlov
  • Tentang pengembangan statistik objek yang bersifat non-numerik

    2013 / Alexander Orlov
  • Titik pertumbuhan metode statistik

    2014 / Alexander Orlov
  • Tentang alat pengendalian matematika baru yang menjanjikan

    2015 / Alexander Orlov
  • Jarak dalam ruang data statistik

    2014 / Alexander Orlov

Salah satu “titik pertumbuhan” statistik terapan adalah metode pengurangan dimensi data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan tertentu, seperti sosiologi. Kami menyelidiki metode yang paling menjanjikan untuk mengurangi dimensi. Komponen utama adalah salah satu metode yang paling umum digunakan untuk mengurangi dimensi. Untuk analisis visual data, proyeksi vektor asli pada bidang dua komponen utama sering digunakan. Biasanya struktur data terlihat jelas, menyoroti kelompok objek yang padat dan vektor yang dialokasikan secara terpisah. Komponen utama adalah salah satu metode analisis faktor. Gagasan baru analisis faktor dibandingkan dengan metode komponen utama adalah bahwa, berdasarkan beban, faktor-faktor tersebut dipecah menjadi kelompok-kelompok. Dalam satu kelompok faktor, faktor baru digabungkan dengan dampak serupa pada elemen basis baru. Kemudian setiap kelompok dianjurkan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih pilihan perwakilan dengan perhitungan, faktor baru yang menjadi pusat kelompok yang bersangkutan. Pengurangan dimensi terjadi selama transisi ke faktor sistem, yang mewakili kelompok. Faktor lain dibuang. Pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antara fitur dan kelas ekstensif didasarkan pada metode penskalaan multidimensi. Ide dasar dari kelas metode ini adalah menyajikan setiap objek sebagai titik ruang geometris (biasanya berdimensi 1, 2, atau 3) yang koordinatnya adalah nilai faktor tersembunyi (laten) yang digabungkan secara memadai. menggambarkan objek. Sebagai contoh penerapan pemodelan probabilistik dan statistik dan hasil statistik data non-numerik, kami membenarkan konsistensi penaksir dimensi data dalam penskalaan multidimensi , yang diusulkan sebelumnya oleh Kruskal dari pertimbangan heuristik. Kami telah mempertimbangkan sejumlah estimasi dimensi model yang konsisten (dalam analisis regresi dan teori klasifikasi). Kami juga memberikan beberapa informasi tentang algoritma untuk mengurangi dimensi dalam analisis sistem-kognitif otomatis

Teks karya ilmiah pada topik "Metode pengurangan dimensi ruang data statistik"

UDC 519.2: 005.521:633.1:004.8

01.00.00 Ilmu fisika dan matematika

METODE PENURUNAN DIMENSI RUANG DATA STATISTIK

Orlov Alexander Ivanovich

Doktor Ekonomi, Doktor Ilmu Teknik, Ph.D., Profesor

Kode RSCI BRSH: 4342-4994

Teknis Negara Bagian Moskow

Universitas. T.E. Bauman, Rusia, 105005,

Moskow, jalan Baumanskaya ke-2, 5, [email dilindungi] T

Lutsenko Evgeny Veniaminovich Doktor Ekonomi, Ph.D., Profesor RSCI Kode BRSH: 9523-7101 Universitas Agraria Negeri Kuban, Krasnodar, Rusia [email dilindungi] com

Salah satu "titik pertumbuhan" statistik terapan adalah metode pengurangan dimensi ruang data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan tertentu, misalnya sosiologis. Mari kita pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Analisis komponen utama adalah salah satu metode reduksi dimensi yang paling umum digunakan. Untuk analisis data visual, proyeksi vektor asli ke bidang dua komponen utama pertama sering digunakan. Biasanya, struktur data terlihat jelas, kelompok objek yang padat dan vektor yang dialokasikan secara terpisah dibedakan. Analisis komponen utama adalah salah satu metode analisis faktor. Gagasan baru dibandingkan dengan metode komponen utama adalah bahwa, berdasarkan beban, faktor-faktor tersebut dibagi menjadi beberapa kelompok. Satu kelompok menggabungkan faktor-faktor yang memiliki efek serupa pada unsur-unsur basis baru. Maka disarankan untuk meninggalkan satu perwakilan dari setiap kelompok. Kadang-kadang, alih-alih memilih perwakilan dengan perhitungan, faktor baru dibentuk yang merupakan inti dari kelompok yang bersangkutan. Pengurangan dimensi terjadi pada transisi ke sistem faktor yang mewakili kelompok. Faktor lainnya dibuang. Kelas ekstensif metode penskalaan multidimensi didasarkan pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antar fitur. Ide utama dari kelas metode ini adalah untuk merepresentasikan setiap objek sebagai titik dalam ruang geometris (biasanya berdimensi 1, 2 atau 3), yang koordinatnya merupakan nilai faktor tersembunyi (laten) yang bersama-sama menggambarkan secara memadai

UDC 519.2:005.521:633.1:004.8

Fisika dan ilmu matematika

METODE PENURUNAN DIMENSI RUANG DATA STATISTIK

Alexander Orlov

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Universitas Teknik Negeri Bauman Moscow, Moskow, Rusia

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., profesor RSCI kode SPIN: 9523-7101

Universitas Agraria Negeri Kuban, Krasnodar, Rusia

[email dilindungi] com

Salah satu “titik pertumbuhan” statistik terapan adalah metode pengurangan dimensi data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan tertentu, seperti sosiologi. Kami menyelidiki metode yang paling menjanjikan untuk mengurangi dimensi. Komponen utama adalah salah satu metode yang paling umum digunakan untuk mengurangi dimensi. Untuk analisis visual data, proyeksi vektor asli pada bidang dua komponen utama sering digunakan. Biasanya struktur data terlihat jelas, menyoroti kelompok objek yang padat dan vektor yang dialokasikan secara terpisah. Komponen utama adalah salah satu metode analisis faktor. Gagasan baru analisis faktor dibandingkan dengan metode komponen utama adalah bahwa, berdasarkan beban, faktor-faktor tersebut dipecah menjadi kelompok-kelompok. Dalam satu kelompok faktor, faktor baru digabungkan dengan dampak serupa pada elemen basis baru. Kemudian setiap kelompok dianjurkan untuk meninggalkan satu perwakilan. Kadang-kadang, alih-alih pilihan perwakilan dengan perhitungan, faktor baru yang menjadi pusat kelompok yang bersangkutan. Pengurangan dimensi terjadi selama transisi ke faktor sistem, yang mewakili kelompok. Faktor lain dibuang. Pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) antara fitur dan kelas ekstensif didasarkan pada metode penskalaan multidimensi. Ide dasar dari kelas metode ini adalah menyajikan setiap objek sebagai titik ruang geometris (biasanya berdimensi 1, 2, atau 3) yang koordinatnya adalah nilai faktor tersembunyi (laten) yang digabungkan secara memadai. menggambarkan objek. Sebagai contoh penerapan pemodelan probabilistik dan statistik dan hasil statistik data non-numerik, kami membenarkan konsistensi penduga dari

Sebuah Objek. Sebagai contoh penerapan pemodelan statistik probabilistik dan hasil statistik data non-numerik, kami membenarkan konsistensi estimasi dimensi ruang data dalam penskalaan multidimensi, yang sebelumnya dikemukakan oleh Kruskal dari pertimbangan heuristik. Sejumlah pekerjaan untuk memperkirakan dimensi model (dalam analisis regresi dan teori klasifikasi) dipertimbangkan. Informasi tentang algoritma pengurangan dimensi dalam analisis sistem-kognitif otomatis diberikan.

Kata Kunci: MATEMATIKA, STATISTIK TERAPAN, STATISTIK MATEMATIKA, GROWTH POINTS, METODE KOMPONEN UTAMA, ANALISIS FAKTOR, PENSkalaan MULTIDIMENSI, ESTIMASI DIMENSI DATA, ESTIMASI DIMENSI MODEL

dimensi data dalam penskalaan multidimensi, yang diusulkan sebelumnya oleh Kruskal dari pertimbangan heuristik. Kami telah mempertimbangkan sejumlah estimasi dimensi model yang konsisten (dalam analisis regresi dan teori klasifikasi). Kami juga memberikan beberapa informasi tentang algoritma untuk mengurangi dimensi dalam analisis sistem-kognitif otomatis

Kata Kunci: STATISTIK TERAPAN MATEMATIKA STATISTIK MATEMATIKA GROWTH POINTS ANALISIS KOMPONEN UTAMA ANALISIS FAKTOR ESTIMASI SKALA MULTIDIMENSI DIMENSI DATA ESTIMASI DIMENSI MODEL

1. Perkenalan

Seperti yang telah disebutkan, salah satu "titik pertumbuhan" statistik terapan adalah metode pengurangan dimensi ruang data statistik. Mereka semakin banyak digunakan dalam analisis data dalam penelitian terapan tertentu, misalnya sosiologis. Mari kita pertimbangkan metode pengurangan dimensi yang paling menjanjikan. Sebagai contoh penerapan pemodelan probabilistik-statistik dan hasil statistik data non-numerik, kami akan membenarkan konsistensi estimasi dimensi ruang yang sebelumnya dikemukakan oleh Kruskal dari pertimbangan heuristik.

Dalam analisis statistik multivariat, setiap objek dijelaskan oleh vektor yang dimensinya arbitrer (namun sama untuk semua objek). Namun, seseorang hanya dapat melihat data numerik atau titik di pesawat secara langsung. Jauh lebih sulit untuk menganalisis kelompok titik dalam ruang tiga dimensi. Persepsi langsung dari data dimensi yang lebih tinggi tidak mungkin dilakukan. Oleh karena itu, wajar jika ingin berpindah dari sampel multivariat ke data berdimensi rendah, sehingga “dapat digunakan untuk

Lihat". Misalnya, seorang pemasar dapat melihat secara visual berapa banyak berbagai jenis perilaku konsumen (yaitu berapa banyak segmen pasar yang perlu dipilih) dan konsumen mana (dengan properti apa) yang termasuk di dalamnya.

Selain keinginan untuk visibilitas, ada motif lain untuk memperkecil dimensi. Faktor-faktor yang tidak bergantung pada variabel minat peneliti hanya menghambat analisis statistik. Pertama, keuangan, waktu dan sumber daya manusia dihabiskan untuk mengumpulkan informasi tentang mereka. Kedua, seperti yang dapat dibuktikan, dimasukkannya mereka ke dalam analisis memperburuk sifat prosedur statistik (khususnya, meningkatkan variasi estimasi parameter dan karakteristik distribusi). Oleh karena itu, diinginkan untuk menyingkirkan faktor-faktor tersebut.

Saat menganalisis data multivariat, biasanya dianggap bukan hanya satu, tetapi banyak masalah, khususnya, pemilihan variabel independen dan dependen secara berbeda. Oleh karena itu, pertimbangkan masalah reduksi dimensi dalam rumusan berikut. Diberikan sampel multivariat. Diperlukan untuk berpindah darinya ke sekumpulan vektor dengan dimensi yang lebih kecil, menjaga struktur data awal sebanyak mungkin, tanpa kehilangan informasi yang terkandung dalam data jika memungkinkan. Tugas ditentukan dalam kerangka kerja masing-masing metode reduksi dimensi tertentu.

2. Metode komponen utama

Ini adalah salah satu metode pengurangan dimensi yang paling umum digunakan. Gagasan utamanya adalah mengidentifikasi secara berurutan arah di mana data memiliki penyebaran terbesar. Biarkan sampel terdiri dari vektor yang terdistribusi secara merata dengan vektor X = (x(1), x(2), ... , x(n)). Pertimbangkan kombinasi linier

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Di sini vektor X = (X(1), X(2), ..., X(n)) terletak pada satuan bola dalam ruang n-dimensi.

Dalam metode komponen utama, pertama-tama ditemukan arah hamburan maksimum, yaitu X sedemikian rupa sehingga varian dari variabel acak 7(X) = 7(X(1), X(2), ..., X(n)) mencapai maksimumnya. Kemudian vektor X menentukan komponen utama pertama, dan nilai 7(X) adalah proyeksi vektor acak X ke sumbu komponen utama pertama.

Kemudian, dalam istilah aljabar linier, bidang-hiper dalam ruang n-dimensi dipertimbangkan, tegak lurus terhadap komponen utama pertama, dan semua elemen sampel diproyeksikan ke bidang-hiper ini. Dimensi hyperplane 1 lebih kecil dari dimensi ruang aslinya.

Di hyperplane yang dipertimbangkan, prosedur diulangi. Arah penyebaran terbesar ditemukan di dalamnya, yaitu. komponen utama kedua. Kemudian alokasikan hyperplane yang tegak lurus terhadap dua komponen utama pertama. Dimensinya 2 lebih kecil dari dimensi ruang aslinya. Berikutnya adalah iterasi berikutnya.

Dari sudut pandang aljabar linier, kita berbicara tentang membangun basis baru dalam ruang n-dimensi, yang ort-ortnya merupakan komponen utama.

Varians yang sesuai untuk setiap komponen utama baru lebih kecil dari yang sebelumnya. Biasanya mereka berhenti ketika kurang dari ambang batas yang diberikan. Jika k komponen utama dipilih, maka ini berarti bahwa dimungkinkan untuk berpindah dari ruang n-dimensi ke k-dimensi, mis. mengurangi dimensi dari p-to k, praktis tanpa merusak struktur data sumber.

Untuk analisis data visual, proyeksi vektor asli ke bidang dua komponen utama pertama sering digunakan. Biasanya

struktur data terlihat jelas, kelompok objek yang padat dan vektor yang dibedakan secara terpisah dibedakan.

3. Analisis faktor

Analisis komponen utama adalah salah satu metode analisis faktor. Berbagai algoritme analisis faktor disatukan oleh fakta bahwa semuanya memiliki transisi ke basis baru di ruang n-dimensi asli. Konsep "beban faktor" penting, yang digunakan untuk menggambarkan peran faktor awal (variabel) dalam pembentukan vektor tertentu dari basis baru.

Gagasan baru dibandingkan dengan metode komponen utama adalah bahwa, berdasarkan beban, faktor-faktor tersebut dibagi menjadi beberapa kelompok. Satu kelompok menggabungkan faktor-faktor yang memiliki efek serupa pada unsur-unsur basis baru. Maka disarankan untuk meninggalkan satu perwakilan dari setiap kelompok. Kadang-kadang, alih-alih memilih perwakilan dengan perhitungan, faktor baru dibentuk yang merupakan inti dari kelompok yang bersangkutan. Pengurangan dimensi terjadi pada transisi ke sistem faktor yang mewakili kelompok. Faktor lainnya dibuang.

Prosedur yang dijelaskan dapat dilakukan tidak hanya dengan bantuan analisis faktor. Kita berbicara tentang analisis klaster fitur (faktor, variabel). Untuk membagi fitur ke dalam kelompok, berbagai algoritma analisis cluster dapat digunakan. Cukup memasukkan jarak (ukuran kedekatan, indikator perbedaan) antar fitur. Biarkan X dan Y menjadi dua fitur. Perbedaan d(X,Y) di antara keduanya dapat diukur dengan menggunakan koefisien korelasi sampel:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, di mana rn(X,Y) adalah koefisien korelasi linier sampel Pearson, pn(X, Y) - koefisien korelasi peringkat sampel Spearman.

4. Penskalaan multidimensi.

Kelas ekstensif metode penskalaan multidimensi didasarkan pada penggunaan jarak (ukuran kedekatan, indikator perbedaan) d (X, Y) antara fitur X dan Y. Ide utama dari kelas metode ini adalah untuk merepresentasikan setiap objek dengan suatu titik dalam ruang geometris (biasanya berdimensi 1, 2 atau 3), yang koordinatnya merupakan nilai faktor tersembunyi (laten) yang bersama-sama menggambarkan objek secara memadai. Dalam hal ini, hubungan antar objek digantikan oleh hubungan antar titik - perwakilannya. Jadi, data kesamaan objek - berdasarkan jarak antar titik, data keunggulan - berdasarkan susunan titik yang saling menguntungkan.

5. Masalah memperkirakan dimensi sebenarnya dari ruang faktor

Dalam praktik analisis data sosiologis, sejumlah model penskalaan multidimensi yang berbeda digunakan. Semuanya menghadapi masalah penaksiran dimensi sebenarnya dari ruang faktor. Mari pertimbangkan masalah ini menggunakan contoh pengolahan data kesamaan objek menggunakan penskalaan metrik.

Misalkan ada n objek 0(1), O(2), ..., O(n), untuk setiap pasangan objek 0(/), O(j) diberikan ukuran kesamaannya s(ij). Kami berasumsi bahwa selalu s(i,j) = s(j,i). Asal usul angka s(ij) tidak menjadi masalah untuk deskripsi operasi algoritma. Mereka dapat diperoleh baik dengan pengukuran langsung, atau dengan menggunakan para ahli, atau dengan perhitungan dari serangkaian karakteristik deskriptif, atau dengan cara lain.

Dalam ruang Euclidean, n objek yang dipertimbangkan harus diwakili oleh konfigurasi titik n, dan jarak Euclidean d(i,j)

antara titik-titik yang bersesuaian. Tingkat korespondensi antara sekumpulan objek dan sekumpulan titik yang mewakilinya ditentukan dengan membandingkan matriks kesamaan ||i(,)|| dan jarak Fungsi kesamaan metrik CMM memiliki bentuk

i = t|*(/, ]) - d(/, M

Konfigurasi geometrik harus dipilih sehingga fungsional S mencapai nilai minimumnya.

Komentar. Dalam penskalaan non-metrik, alih-alih kedekatan ukuran kedekatan dan jarak itu sendiri, kedekatan urutan pada himpunan ukuran kedekatan dan himpunan jarak yang sesuai dipertimbangkan. Alih-alih S fungsional, analog dari koefisien korelasi peringkat Spearman dan Kendall digunakan. Dengan kata lain, skala non-metrik mengasumsikan bahwa ukuran kedekatan diukur pada skala ordinal.

Biarkan ruang Euclidean memiliki dimensi m. Pertimbangkan kesalahan kuadrat rata-rata minimum

di mana minimum diambil untuk semua kemungkinan konfigurasi n titik dalam ruang Euclidean berdimensi m. Dapat ditunjukkan bahwa minimum yang dianggap tercapai pada beberapa konfigurasi. Jelas bahwa dengan bertambahnya m, nilai am berkurang secara monoton (lebih tepatnya, tidak bertambah). Dapat ditunjukkan bahwa untuk m > n - 1 sama dengan 0 (jika metrik). Untuk meningkatkan kemungkinan interpretasi yang bermakna, diinginkan untuk bertindak dalam ruang dengan dimensi sekecil mungkin. Namun, dalam hal ini, dimensi harus dipilih sehingga titik-titik tersebut merepresentasikan objek tanpa distorsi yang besar. Timbul pertanyaan: bagaimana memilih dimensi ruang secara rasional, yaitu. bilangan asli t?

6. Model dan metode untuk memperkirakan dimensi ruang data

Dalam kerangka analisis data deterministik, tampaknya tidak ada jawaban yang masuk akal untuk pertanyaan ini. Oleh karena itu, perlu mempelajari perilaku am dalam model probabilistik tertentu. Jika ukuran kedekatan s(ij) adalah variabel acak yang distribusinya bergantung pada "dimensi sebenarnya" m0 (dan, mungkin, pada beberapa parameter lain), maka kita dapat mengajukan masalah penaksiran m0 dalam gaya matematika-statistik klasik, lihat untuk estimasi yang konsisten, dan lain-lain.

Mari kita mulai membuat model probabilistik. Kami berasumsi bahwa objek adalah titik dalam ruang Euclidean berdimensi k, di mana k cukup besar. Fakta bahwa "dimensi sebenarnya" sama dengan m0 berarti bahwa semua titik ini terletak pada bidang-hiper dengan dimensi m0. Mari kita asumsikan untuk kepastian bahwa himpunan titik yang ditinjau adalah sampel dari distribusi normal melingkar dengan varian o(0). Ini berarti bahwa objek 0(1), 0(2), ..., O(n) adalah vektor acak yang saling bebas, yang masing-masing dikonstruksi sebagai

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), di mana e(1), e(2), ... , e(m0) adalah basis ortonormal dalam subruang dimensi m0, di mana titik-titik yang dianggap terletak, dan Z(1), Z(2), , Z(m0) adalah variabel acak normal satu dimensi yang saling independen dengan ekspektasi matematis 0 dan varians o (0).

Pertimbangkan dua model untuk mendapatkan ukuran kedekatan s(ij). Yang pertama, s(ij) berbeda dari jarak Euclidean antara titik-titik yang bersesuaian karena fakta bahwa titik-titik tersebut diketahui dengan distorsi. Biarkan c(1), c(2), ... , c(n) menjadi poin yang dipertimbangkan. Kemudian

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

di mana d adalah jarak Euclidean antara titik-titik dalam ruang dimensi-d, vektor e(1), e(2), ... , e(n) adalah sampel dari distribusi normal sirkuler dalam ruang dimensi-d dengan ekspektasi matematis nol dan matriks kovarians o (1)/, di mana I adalah matriks identitas. Dengan kata lain,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), di mana e(1), e(2), ..., e(k) adalah basis ortonormal dalam ruang ^-dimensi, dan [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - sekumpulan variabel acak satu dimensi yang independen dalam himpunan dengan nol ekspektasi matematis dan varians o (1).

Pada model kedua, distorsi dikenakan langsung pada jarak itu sendiri:

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

dimana dan , dan pada interval pertama berkurang lebih cepat dari pada yang kedua. Ini mengikuti statistik

m* = Arg minam+1 - 2am + an-x)

adalah perkiraan yang konsisten dari dimensi sebenarnya dari m0.

Jadi, rekomendasi mengikuti dari teori probabilistik - untuk menggunakan m* sebagai perkiraan dimensi ruang faktor. Perhatikan bahwa rekomendasi semacam itu dirumuskan sebagai heuristik oleh salah satu pendiri penskalaan multidimensi, J. Kraskal. Dia berangkat dari pengalaman penggunaan praktis penskalaan multidimensi dan eksperimen komputasi. Teori probabilistik memungkinkan untuk memperkuat rekomendasi heuristik ini.

7. Estimasi dimensi model

Jika kemungkinan himpunan bagian dari fitur membentuk keluarga yang diperluas, misalnya, derajat polinomial diperkirakan, maka wajar untuk memperkenalkan istilah "dimensi model" (konsep ini dalam banyak hal mirip dengan konsep dimensi ruang data yang digunakan dalam penskalaan multidimensi). Penulis artikel ini memiliki sejumlah karya estimasi dimensi model, yang layak dibandingkan dengan karya estimasi dimensi ruang data yang dibahas di atas.

Pekerjaan seperti itu pertama kali dilakukan oleh penulis artikel ini selama perjalanan bisnis ke Prancis pada tahun 1976. Di dalamnya, satu estimasi dimensi model dalam regresi dipelajari, yaitu estimasi derajat polinomial dengan asumsi bahwa ketergantungan dijelaskan oleh polinomial. Perkiraan ini diketahui dalam literatur, tetapi kemudian secara keliru dikaitkan dengan penulis artikel ini, yang hanya mempelajari sifat-sifatnya, khususnya, menemukan bahwa itu tidak konsisten, dan menemukan distribusi geometrisnya yang terbatas . Perkiraan lain yang sudah konsisten dari dimensi model regresi diusulkan dan dipelajari dalam artikel. Siklus ini diselesaikan oleh sebuah karya yang berisi sejumlah klarifikasi.

Publikasi terbaru topik ini memuat pembahasan hasil mempelajari laju konvergensi pada teorema limit I yang diperoleh dengan metode Monte Carlo.

Perkiraan dimensi model yang serupa secara metodologis dalam masalah pemisahan campuran (bagian dari teori klasifikasi) dipertimbangkan dalam artikel.

Estimasi dimensi model yang dipertimbangkan di atas dalam penskalaan multidimensi dipelajari dalam karya. Dalam karya yang sama, perilaku pembatas dari karakteristik metode komponen utama ditetapkan (menggunakan teori asimtotik dari perilaku solusi untuk masalah statistik ekstrem).

8. Algoritma Pengurangan Dimensi dalam Analisis Kognitif Sistem Otomatis

Dalam analisis sistem-kognitif otomatis (analisis ASC), metode pengurangan dimensi lain diusulkan dan diterapkan dalam sistem "Eidos". Ini dijelaskan dalam pekerjaan di bagian 4.2 "Deskripsi algoritma untuk operasi kognitif dasar analisis sistem (BCOSA)" dan 4.3 "Algoritma terperinci untuk BCOSA (analisis ASC)". Ayo bawa Deskripsi Singkat dua algoritma - BKOSA-4.1 dan BKOSA-4.2.

BKOSA-4.1. "Abstraksi faktor (mengurangi dimensi ruang semantik faktor)"

Dengan menggunakan metode perkiraan berturut-turut (algoritma iteratif), di bawah kondisi batas yang diberikan, dimensi ruang atribut dikurangi tanpa pengurangan volume yang signifikan. Kriteria untuk menghentikan proses iteratif adalah tercapainya salah satu syarat batas.

BKOSA-4.2. "Mengabstraksi kelas (mengurangi dimensi ruang semantik kelas)"

Menggunakan metode perkiraan berturut-turut (algoritma iteratif), di bawah kondisi batas yang diberikan, dimensi ruang kelas berkurang tanpa pengurangan volume yang signifikan. Kriteria untuk menghentikan proses iteratif adalah tercapainya salah satu syarat batas.

Berikut ini semua algoritme nyata yang diimplementasikan dalam sistem Eidos versi yang diimplementasikan pada saat persiapan pekerjaan (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Inti dari algoritma adalah sebagai berikut.

1. Jumlah informasi dalam nilai faktor tentang transisi objek ke status yang sesuai dengan kelas dihitung.

2. Nilai dari nilai faktor dihitung untuk diferensiasi objek berdasarkan kelas. Nilai ini hanyalah variabilitas informativitas dari nilai faktor (ada banyak ukuran variabilitas kuantitatif: deviasi rata-rata dari rata-rata, deviasi standar, dll.). Dengan kata lain, jika nilai suatu faktor rata-rata mengandung sedikit informasi tentang apakah suatu objek termasuk kelas atau tidak, maka nilai ini tidak terlalu berharga, dan jika banyak, maka bernilai.

3. Nilai skala deskriptif untuk membedakan objek berdasarkan kelas dihitung. Dalam karya E.V. Lutsenko sekarang ini dilakukan sebagai rata-rata dari nilai gradasi skala ini.

4. Kemudian dilakukan optimasi Pareto dari nilai-nilai faktor dan skala deskriptif:

Nilai-nilai faktor (gradasi skala deskriptif) diberi peringkat dalam urutan nilai menurun dan yang paling tidak berharga yang berada di sebelah kanan garis singgung kurva Pareto 45° dihapus dari model;

Faktor (skala deskriptif) diberi peringkat dalam urutan menurun nilai dan faktor yang paling tidak berharga yang berada di sebelah kanan garis singgung kurva Pareto 45° dihilangkan dari model.

Akibatnya, dimensi ruang yang dibangun pada skala deskriptif berkurang secara signifikan karena penghilangan skala yang berkorelasi satu sama lain, yaitu. sebenarnya, ini adalah ortonormalisasi ruang dalam metrik informasi.

Proses ini dapat diulangi, mis. menjadi iteratif, sementara versi baru sistem iterasi "Eidos" dimulai secara manual.

Ruang informasi kelas diortonormalkan dengan cara yang sama.

Timbangan dan gradasinya bisa numerik (dalam hal ini, nilai interval diproses), dan bisa juga tekstual (ordinal atau bahkan nominal).

Dengan demikian, dengan bantuan algoritma BKOSA (ASK-analysis), dimensi ruang dikurangi sebanyak mungkin dengan kehilangan informasi seminimal mungkin.

Sejumlah algoritma reduksi dimensi lainnya telah dikembangkan untuk analisis data statistik dalam statistik terapan. Tujuan dari artikel ini tidak termasuk penjelasan dari seluruh variasi algoritma tersebut.

literatur

1.Orlov A.I. Poin pertumbuhan metode statistik // Jaringan politematik jurnal ilmiah elektronik Universitas Agraria Negeri Kuban. 2014. Nomor 103. P. 136-162.

2. Kraskal J. Hubungan antara penskalaan multidimensi dan analisis klaster // Klasifikasi dan klaster. M.: Mir, 1980. S.20-41.

4. Harman G. Modern analisis faktor. M.: Statistik, 1972. 489 hal.

5. Orlov A.I. Catatan tentang teori klasifikasi. / Sosiologi: metodologi, metode, model matematika. 1991. No.2.S.28-50.

6. Orlov A.I. Hasil dasar teori matematika klasifikasi // Jaringan politematik jurnal ilmiah elektronik Universitas Agraria Negeri Kuban. 2015. No. 110. S. 219-239.

7. Orlov A.I. Metode matematika teori klasifikasi // Jaringan politematik jurnal ilmiah elektronik Universitas Agraria Negeri Kuban. 2014. No. 95. Hal. 23 - 45.

8. Terekhina A.Yu. Analisis data dengan metode penskalaan multidimensi. -M.: Nauka, 1986. 168 hal.

9. Perekrest V. T. Analisis tipologis nonlinier dari informasi sosio-ekonomi: Metode matematika dan komputasi. - L.: Nauka, 1983. 176 hal.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analisis informasi non-numerik. M.: Dewan Ilmiah Akademi Ilmu Pengetahuan Uni Soviet tentang masalah kompleks "Sibernetika", 1981. - 80 hal.

11. Orlov A.I. Pandangan umum tentang statistik objek non-numerik // Analisis informasi non-numerik dalam penelitian sosiologis. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Membatasi distribusi satu estimasi jumlah fungsi basis dalam regresi // Analisis Statistik Multivariat Terapan. Catatan ilmiah tentang statistika, ay.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Estimasi Dimensi Model dalam Regresi // Algoritma dan perangkat lunak analisis statistik terapan. Catatan ilmiah tentang statistika, ay.36. - M.: Nauka, 1980.S.92-99.

14. Orlov A.I. Asimtotik dari beberapa estimasi dimensi model dalam regresi // Statistik Terapan. Catatan ilmiah tentang statistika, ay.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Tentang estimasi polinomial regresi // laboratorium Zavodskaya. diagnostik bahan. 1994. V.60. Nomor 5. P.43-47.

16. Orlov A.I. Beberapa pertanyaan probabilistik dalam teori klasifikasi // Statistik Terapan. Catatan ilmiah tentang statistika, ay.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. Tentang Pengembangan Statistik Objek Nonnumerik // Rancangan Eksperimen dan Analisis Data: Tren dan Hasil Baru. - M.: ANTAL, 1993. Р.52-90.

18. Orlov A.I. Metode pengurangan dimensi // Lampiran 1 pada buku: Tolstova Yu.N. Dasar-dasar penskalaan multidimensi: Tutorial untuk universitas. - M.: Penerbit KDU, 2006. - 160 hal.

19. Orlov A.I. Asimtotik solusi untuk masalah statistik ekstrem // Analisis data non-numerik dalam penelitian sistem. Koleksi karya. Masalah. 10. - M.: All-Union Scientific Research Institute for System Research, 1982. S. 412.

20. Orlov A.I. Pemodelan organisasi dan ekonomi: buku teks: jam 3 Bagian 1: Statistik non-numerik. - M.: Penerbit MSTU im. T.E. Bauman. - 2009. - 541 hal.

21. Lutsenko E.V. Analisis sistem-kognitif otomatis dalam pengelolaan objek aktif (teori sistem informasi dan penerapannya dalam studi sistem ekonomi, sosio-psikologis, teknologi dan organisasi-teknis): Monograf (edisi ilmiah). -Krasnodar: KubGAU. 2002. - 605 hal. http://elibrary.ru/item.asp?id=18632909

1.Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 103. S. 136-162.

2. Kraskal J. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Penskalaan multidimensi // Seri makalah Sage University: Aplikasi kualitatif dalam ilmu sosial. 1978. No.11.

4. Harman G. Sovremennyj faktornyj analiz. M.: Statistika, 1972. 489 dtk.

5. Orlov A.I. Notes po theorii klassifikacii. / Sociologija: metodologis, metody, matematicheskie modeli. 1991. No.2.S.28-50.

6. Orlov A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. Orlov A.I. Metode matematicheskie teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 95. P. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 dtk.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz sosial "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 dtk.

10. Tjurin J.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski postatate, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka razmernosti model v regressii // Algoritme micheskoe dan programmnoe obespechenie prikladnogo statisticheskogo analiz. Uchenye zapiski postatate, t.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski postatate, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regressionnogo polinoma // Laboratorium Zavodskaja. Materi diagnostik. 1994. T.60. No.5.S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski postatate, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. Tentang Pengembangan Statistik Objek Nonnumerik // Rancangan Eksperimen dan Analisis Data: Tren dan Hasil Baru. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k buku: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 dtk.

19. Orlov A.I. Asimptotika reshenij jekstremal "nyh statistikicheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 dtk.

21. Luzenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdandarie). 605 s. http://elibrary .ru/item.asp?id=18632909

Pengurangan dimensi (Pengurangan data)

DI DALAM teknologi analitik reduksi dimensi data dipahami sebagai proses transformasi data menjadi bentuk yang paling nyaman untuk analisis dan interpretasi. Biasanya dicapai dengan mengurangi volumenya, mengurangi jumlah fitur yang digunakan dan variasi nilainya.

Seringkali data yang dianalisis tidak lengkap ketika mencerminkan ketergantungan dan pola proses bisnis yang diteliti dengan buruk. Alasannya mungkin karena jumlah pengamatan yang tidak mencukupi, tidak adanya tanda-tanda yang mencerminkan sifat-sifat penting dari objek. Dalam hal ini dilakukan pengayaan data.

Pengurangan dimensi diterapkan dalam kasus sebaliknya, ketika datanya berlebihan. Redundansi terjadi ketika masalah analisis dapat diselesaikan dengan tingkat efisiensi dan akurasi yang sama, tetapi menggunakan dimensi data yang lebih kecil. Ini memungkinkan untuk mengurangi waktu dan biaya komputasi untuk memecahkan masalah, untuk membuat data dan hasil analisisnya lebih dapat ditafsirkan dan dipahami oleh pengguna.

Mengurangi jumlah pengamatan data diterapkan jika solusi dengan kualitas yang sebanding dapat diperoleh pada sampel dengan ukuran yang lebih kecil, sehingga mengurangi biaya komputasi dan waktu. Hal ini terutama berlaku untuk algoritme yang tidak dapat diskalakan, bahkan ketika pengurangan kecil dalam jumlah entri menghasilkan peningkatan waktu komputasi yang signifikan.

Masuk akal untuk mengurangi jumlah fitur ketika informasi yang diperlukan untuk solusi kualitatif dari masalah terkandung dalam subset fitur tertentu dan tidak perlu menggunakan semuanya. Ini terutama berlaku untuk sifat-sifat berkorelasi. Misalnya, karakteristik "Usia" dan "Pengalaman kerja" pada dasarnya membawa informasi yang sama, sehingga salah satunya dapat dikecualikan.

Cara paling efektif untuk mengurangi jumlah fitur adalah analisis faktor dan analisis komponen utama.

Mengurangi keragaman nilai fitur masuk akal, misalnya jika akurasi representasi data berlebihan dan nilai integer dapat digunakan sebagai pengganti nilai sebenarnya tanpa mengurangi kualitas model. Tetapi pada saat yang sama, jumlah memori yang ditempati oleh data dan biaya komputasi akan berkurang.

Subset data yang diperoleh sebagai hasil pengurangan dimensi harus mewarisi dari set asli sebanyak informasi yang diperlukan untuk menyelesaikan masalah dengan akurasi tertentu, dan biaya komputasi dan waktu pengurangan data tidak boleh menurunkan nilai manfaat yang diterima darinya.

Model analitik yang dibangun di atas kumpulan data yang dikurangi harus menjadi lebih mudah untuk diproses, diimplementasikan, dan dipahami daripada model yang dibangun di atas kumpulan asli.

Keputusan untuk memilih metode pengurangan dimensi didasarkan pada pengetahuan apriori tentang fitur masalah yang sedang dipecahkan dan hasil yang diharapkan, serta waktu dan sumber daya komputasi yang terbatas.



Memuat...
Atas