Smanjenje dimenzija. Evaluacija metoda smanjenja dimenzionalnosti podataka koje se koriste za transformaciju video toka za ličnu identifikaciju Suština problema smanjenja dimenzionalnosti i različite metode za njegovo rješavanje

  • U statistici, mašinskom učenju i teoriji informacija, smanjenje dimenzionalnosti je transformacija podataka koja se sastoji od smanjenja broja varijabli dobijanjem glavnih varijabli. Transformacija se može podijeliti na odabir karakteristika i ekstrakciju karakteristika.

Povezani koncepti

Reference u literaturi

– učitavanje i prethodna obrada ulaznih podataka, – ručno i automatsko označavanje stimulativnih materijala (izbor oblasti od interesa), – algoritam za izračunavanje matrice nasljednika reprezentacije, – izgradnja proširene tablice podataka sa vrijednostima ulaznih varijabli potrebnih za naknadno analiza, – metod smanjenje dimenzija prostori karakteristika (metoda glavne komponente), – vizualizacija opterećenja komponenti za odabir interpretiranih komponenti, – algoritam učenja stabla odluka, – algoritam za procjenu sposobnosti predviđanja stabla, – vizualizacija stabla odluka.

Povezani koncepti (nastavak)

Tehnike spektralnog klasteriranja koriste spektar (svojstvene vrijednosti) matrice sličnosti podataka za izvođenje redukcije dimenzionalnosti prije grupiranja u nižim dimenzionalnim prostorima. Matrica sličnosti je data kao ulaz i sastoji se od kvantitativnih procjena relativne sličnosti svakog para tačaka u podacima.

Spektralne metode su klasa tehnika koje se koriste u primijenjenoj matematici za numeričko rješavanje nekih diferencijalnih jednadžbi, možda uključujući brzu Fourierovu transformaciju. Ideja je da se rješenje diferencijalnih jednadžbi prepiše kao zbir nekih "baznih funkcija" (kao što su Fourierovi redovi zbir sinusoida), a zatim da se izaberu koeficijenti u zbroju kako bi se diferencijalna jednačina što bolje zadovoljila.

Matematička analiza (klasična matematička analiza) - skup sekcija matematike koji odgovaraju istorijskom odeljku pod nazivom "analiza infinitezimima", kombinuje diferencijalni i integralni račun.

Diferencijalna evolucija je višedimenzionalna metoda matematičke optimizacije koja pripada klasi algoritama stohastičke optimizacije (odnosno, radi koristeći slučajne brojeve) i koristi neke ideje genetskih algoritama, ali, za razliku od njih, ne zahtijeva rad s varijablama u binarnom kodu.

Metoda diskretnih elemenata (DEM) je porodica numeričkih metoda dizajniranih za izračunavanje kretanja velikog broja čestica kao što su molekule, zrna pijeska, šljunak, šljunak i drugi zrnasti mediji. Metodu je prvobitno primijenio Cundall 1971. za rješavanje problema u mehanici stijena.

Kao rezultat proučavanja gradiva iz poglavlja 5, student treba da:

znam

  • osnovni koncepti i problemi smanjenja dimenzija:
  • pristupi rješavanju problema transformacije prostora karakteristika;

biti u mogućnosti

  • koristiti metodu glavne komponente za prelazak na standardizirane ortogonalne karakteristike;
  • procijeniti smanjenje informativnog sadržaja podataka sa smanjenjem dimenzije prostora karakteristika;
  • riješiti problem konstruiranja optimalnih višedimenzionalnih skala za proučavanje objekata;

vlastiti

  • metode redukcije dimenzionalnosti za rješavanje primijenjenih problema Statistička analiza;
  • vještine interpretacije varijabli u transformiranom prostoru karakteristika.

Osnovni koncepti i problemi redukcije dimenzija

Na prvi pogled, što će se više informacija o objektima proučavanja u obliku skupa karakteristika koje ih karakteriziraju koristiti za kreiranje modela, to bolje. Međutim, previše informacija može smanjiti efikasnost analize podataka. Postoji čak i izraz "prokletstvo dimenzionalnosti" (prokletstvo dimenzije), karakterizirajući probleme rada sa visokodimenzionalnim podacima. Potreba za smanjenjem dimenzije u ovom ili onom obliku povezana je sa rješavanjem različitih statističkih problema.

Neinformativne karakteristike su izvor dodatnog šuma i utiču na tačnost procene parametara modela. Osim toga, skupovi podataka sa veliki broj karakteristike mogu sadržavati grupe koreliranih varijabli. Prisustvo ovakvih grupa karakteristika znači dupliranje informacija, što može iskriviti specifikaciju modela i uticati na kvalitet procene njegovih parametara. Što je veća dimenzija podataka, to je veća količina proračuna tokom njihove algoritamske obrade.

Mogu se razlikovati dva pravca u smanjenju dimenzije prostora obeležja prema principu varijabli koje se za to koriste: odabir karakteristika iz postojećeg početnog skupa i formiranje novih obeležja transformacijom početnih podataka. U idealnom slučaju, smanjeni prikaz podataka trebao bi imati dimenziju koja odgovara dimenziji svojstvenoj podacima. (unutrašnja dimenzija).

Potraga za najinformativnijim karakteristikama koje karakterišu fenomen koji se proučava je očigledan način da se smanji dimenzija problema, koji ne zahteva transformaciju originalnih varijabli. To omogućava da se model učini kompaktnijim i da se izbjegnu gubici povezani s ometajućim efektom neinformativnih karakteristika. Odabir informativnih karakteristika sastoji se u pronalaženju najboljeg podskupa skupa svih početnih varijabli. Kriterijumi za koncept "najbolji" mogu biti ili najviše visoka kvaliteta modeliranje za datu dimenziju prostora karakteristika, ili najmanju dimenziju podataka na kojoj je moguće izgraditi model datog kvaliteta.

Direktno rješenje problema kreiranja najboljeg modela povezano je s nabrajanjem svih mogućih kombinacija karakteristika, što se obično čini pretjerano mukotrpnim. Stoga se u pravilu pribjegava direktnoj ili obrnutoj selekciji osobina. U postupcima direktnog odabira, varijable se uzastopno dodaju od početnog skupa sve dok se ne postigne traženi kvalitet modela. U algoritmima sukcesivnog smanjenja originalnog prostora karakteristika (obrnuti izbor), najmanje informativne varijable se uklanjaju korak po korak sve dok se informacioni sadržaj modela ne svede na prihvatljiv nivo.

Treba imati na umu da je informativni sadržaj znakova relativan. Odabir treba da pruži visok sadržaj informacija skupa karakteristika, a ne ukupni informativni sadržaj njegovih sastavnih varijabli. Dakle, prisustvo korelacije između karakteristika smanjuje njihov ukupni sadržaj informacija zbog dupliciranja informacija koje su im zajedničke. Stoga, dodavanje nove funkcije već odabranim omogućava povećanje sadržaja informacija u mjeri u kojoj ona sadrži korisne informacije, što je odsutno u prethodno odabranim varijablama. Najjednostavnija situacija je izbor međusobno ortogonalnih obeležja, pri čemu se algoritam selekcije implementira krajnje jednostavno: varijable se rangiraju prema njihovoj informativnosti, a koristi se takav sastav prvih obeležja u ovom rangiranju koji obezbeđuje zadatu informativnost.

Ograničenje metoda odabira obilježja radi smanjenja dimenzije prostora povezano je s pretpostavkom o direktnom prisustvu potrebnih karakteristika u početnim podacima, što se obično pokaže netačnim. Alternativni pristup smanjenju dimenzionalnosti je transformacija karakteristika u smanjeni skup novih varijabli. Za razliku od odabira početnih karakteristika, formiranje novog prostora karakteristika uključuje kreiranje novih varijabli, koje su obično funkcije originalnih karakteristika. Ove varijable, koje se ne mogu direktno posmatrati, često se nazivaju latentnim, ili latentno. Tokom procesa kreiranja, ove varijable mogu biti obdarene raznim korisnim svojstvima, kao što je ortogonalnost. U praksi su početne karakteristike obično međusobno povezane, pa transformacija njihovog prostora u ortogonalni stvara nove koordinate obilježja koje nemaju učinak dupliciranja informacija o objektima koji se proučavaju.

Prikazivanje objekata u novom ortogonalnom prostoru obilježja omogućava vizualizaciju korisnosti svake od karakteristika u smislu razlika između ovih objekata. Ako su koordinate nove baze poredane prema varijansi koja karakterizira raspršivanje vrijednosti za njih za promatrana promatranja, tada postaje očito da, s praktične točke gledišta, neke karakteristike s malim vrijednostima varijanse beskorisni su, jer se objekti po ovim karakteristikama praktično ne razlikuju u poređenju sa njihovim razlikama u informativnijim varijablama. U takvoj situaciji može se govoriti o takozvanoj degeneraciji izvornog karakternog prostora iz k varijable, i realnu dimenziju ovog prostora T može biti manji od originala (m< k).

Smanjenje prostora karakteristika je praćeno određenim smanjenjem informativnog sadržaja podataka, ali se nivo prihvatljivog smanjenja može unaprijed odrediti. Ekstrakcija karakteristika projektuje skup početnih varijabli u prostor niže dimenzije. Komprimiranje prostora karakteristika u 2-3D može biti korisno za vizualizaciju podataka. Dakle, proces formiranja novog prostora karakteristika obično dovodi do manjeg skupa zaista informativnih varijabli. Na osnovu njih može se izgraditi bolji model kao baziran na manjem broju najinformativnijih karakteristika.

Formiranje novih varijabli na osnovu originalnih koristi se za latentnu semantičku analizu, kompresiju podataka, klasifikaciju i prepoznavanje obrazaca, povećavajući brzinu i efikasnost procesa učenja. Kompresovani podaci se obično koriste za dalju analizu i modeliranje.

Jedna od važnih primjena transformacije prostora karakteristika i redukcije dimenzija je konstrukcija sintetičkih latentnih kategorija zasnovanih na izmjerenim vrijednostima karakteristika. Ovi latentni znaci mogu karakterizirati opšte određene karakteristike fenomena koji se proučava, integrirajući pojedinačna svojstva posmatranih objekata, što omogućava izgradnju integralnih indikatora različitih nivoa generalizacije informacija.

Uloga metoda redukcije prostora karakteristika u proučavanju problema dupliciranja informacija u početnim karakteristikama, što dovodi do "nabujanja" varijanse procjena koeficijenata regresionih modela, je od suštinske važnosti. Prelazak na nove varijable, idealno ortogonalne i smisleno interpretirane, je efikasan alat za modeliranje u uslovima multikolinearnosti početnih podataka.

Transformacija inicijalnog prostora karakteristika u ortogonalni pogodna je za rješavanje problema klasifikacije, jer omogućava razumnu primjenu određenih mjera blizine ili razlika objekata, kao što su euklidska udaljenost ili kvadrat euklidske udaljenosti. U regresionoj analizi, konstrukcija regresione jednačine na glavnim komponentama omogućava rješavanje problema multikolinearnosti.

U multivarijantnoj statističkoj analizi, svaki objekat je opisan vektorom čija je dimenzija proizvoljna (ali ista za sve objekte). Međutim, osoba može direktno percipirati samo numeričke podatke ili tačke na ravni. Već je mnogo teže analizirati skupove tačaka u trodimenzionalnom prostoru. Direktna percepcija višedimenzionalnih podataka je nemoguća. Stoga je sasvim prirodno poželjeti prijeći s multivarijatnog uzorka na niskodimenzionalne podatke kako biste „mogli to pogledati“.

Osim želje za vidljivošću, postoje i drugi motivi za smanjenje dimenzije. Oni faktori od kojih ne zavisi varijabla od interesa za istraživača samo ometaju statističku analizu. Prvo, prikupljanje informacija o njima troši resurse. Drugo, kao što se može dokazati, njihovo uključivanje u analizu pogoršava svojstva statističkih postupaka (posebno povećava varijansu procjena parametara i karakteristika distribucija). Stoga je poželjno da se riješite takvih faktora.

Razmotrimo sa stanovišta redukcije dimenzionalnosti primjer korištenja regresione analize za predviđanje prodaje, o čemu se govori u pododjeljku 3.2.3. Prvo, u ovom primjeru bilo je moguće smanjiti broj nezavisnih varijabli sa 17 na 12. Drugo, bilo je moguće konstruirati novi faktor - linearnu funkciju od 12 navedenih faktora, koji predviđa obim prodaje bolje od svih ostalih linearnih faktora. kombinacije faktora. Dakle, možemo reći da se kao rezultat toga dimenzija problema smanjila sa 18 na 2. Naime, postojao je jedan nezavisni faktor (linearna kombinacija data u pododjeljku 3.2.3) i jedan zavisni faktor - obim prodaje.

Kada se analiziraju multivarijantni podaci, obično se smatra ne jednim, već mnogim problemima, posebno različitim odabirom nezavisnih i zavisnih varijabli. Stoga, razmotrite problem smanjenja dimenzionalnosti u sljedećoj formulaciji. Dat je multivarijantni uzorak. Od njega je potrebno preći na skup vektora manje dimenzije, čuvajući strukturu početnih podataka što je više moguće, bez gubitka informacija sadržanih u podacima ako je moguće. Zadatak je specificiran u okviru svake specifične metode redukcije dimenzionalnosti.

Metoda glavne komponente je jedna od najčešće korištenih metoda smanjenja dimenzionalnosti. Njegova glavna ideja je da se sekvencijalno identifikuje pravce u kojima se podaci najviše šire. Neka se uzorak sastoji od vektora jednako raspoređenih sa vektorom X = (x(1), x(2), … , x(n)). Razmotrite linearne kombinacije

Y(λ(1), λ(2), …, λ( n)) = λ(1) x(1) +λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Ovdje je vektor λ = (λ(1), λ(2), …, λ( n)) leži na jediničnoj sferi u n-dimenzionalni prostor.

U metodi glavne komponente, prije svega, nalazi se smjer maksimalnog raspršenja, tj. takav λ na kojem varijansa slučajne varijable dostiže svoj maksimum Y(λ) = Y(λ(1), λ(2), …, λ( n)). Tada vektor λ definira prvu glavnu komponentu i količinu Y(λ) je projekcija slučajnog vektora X na osi prve glavne komponente.

Zatim, u terminima linearne algebre, razmatramo hiperravninu u n-dimenzionalni prostor, okomit na prvu glavnu komponentu, i projektovati sve elemente uzorka na ovu hiperravninu. Dimenzija hiperravne je za 1 manja od dimenzije originalnog prostora.

U hiperravni koja se razmatra postupak se ponavlja. U njemu se nalazi pravac najvećeg širenja, tj. druga glavna komponenta. Zatim dodijelite hiperravninu okomitu na prve dvije glavne komponente. Njegova dimenzija je 2 manja od dimenzije originalnog prostora. Sljedeća je sljedeća iteracija.

Sa stanovišta linearne algebre, govorimo o izgradnji nove baze u n-dimenzionalni prostor, čije su ortove glavne komponente.

Varijanca koja odgovara svakoj novoj glavnoj komponenti je manja nego za prethodnu. Obično se zaustavljaju kada je manji od datog praga. Ako je odabrano k glavne komponente, to znači da n-dimenzionalni prostor uspeo da ode k- dimenzionalni, tj. smanjiti dimenziju od n-prije k, praktično bez narušavanja strukture izvornih podataka .

Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, razlikuju se kompaktni klasteri objekata i odvojeno dodijeljeni vektori.

Metoda glavne komponente je jedna od metoda faktorska analiza. Različite algoritme faktorske analize objedinjuje činjenica da u svima postoji prijelaz na novu osnovu u izvornoj n-dimenzionalni prostor. Važan je koncept “faktorskog opterećenja” koji se koristi za opisivanje uloge početnog faktora (varijable) u formiranju određenog vektora iz nove baze.

Nova ideja u poređenju sa metodom glavne komponente je da se faktori na osnovu opterećenja dele u grupe. Jedna grupa kombinuje faktore koji imaju sličan efekat na elemente nove osnove. Tada je preporučljivo ostaviti po jednog predstavnika iz svake grupe. Ponekad se umjesto proračunskog izbora formira novi faktor koji je centralan za dotičnu grupu. Dimenzijska redukcija nastaje u prelasku na sistem faktora koji su predstavnici grupa. Ostali faktori se odbacuju.

Opisani postupak može se provesti ne samo uz pomoć faktorske analize. Riječ je o klaster analizi karakteristika (faktora, varijabli). Različiti algoritmi klaster analize mogu se koristiti za podjelu karakteristika u grupe. Dovoljno je uneti udaljenost (mjeru blizine, indikator razlike) između karakteristika. Neka X I At- dva znaka. Razlika d(X, Y) između njih može se izmjeriti korištenjem koeficijenata korelacije uzorka:

d 1 (X,Y) = 1 – rn(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

Gdje rn(X, Y) je uzorak linearne Pearsonove koeficijent korelacije, ρ n(X, Y) je Spearmanov koeficijent korelacije ranga uzorka.

Višedimenzionalno skaliranje. O korištenju udaljenosti (mjere blizine, indikatori razlike) d(X, Y) između karakteristika X I At osnovana je opsežna klasa višedimenzionalnih metoda skaliranja. Glavna ideja ove klase metoda je predstavljanje svakog objekta točkom u geometrijskom prostoru (obično dimenzije 1, 2 ili 3), čije su koordinate vrijednosti skrivenih (latentnih) faktora koji zajedno adekvatno opisati objekat. U ovom slučaju, odnosi između objekata su zamijenjeni odnosima između tačaka - njihovih predstavnika. Dakle, podaci o sličnosti objekata - po udaljenostima između tačaka, podaci o superiornosti - po međusobnom rasporedu tačaka.

U praksi, jedan broj razni modeli višedimenzionalno skaliranje. Svi oni se suočavaju sa problemom procene prave dimenzije faktorskog prostora. Razmotrimo ovaj problem na primjeru obrade podataka o sličnosti objekata pomoću metričkog skaliranja.

Neka bude n objekata O(1), O(2), …, O(n), za svaki par objekata O(i), O(j) data je mjera njihove sličnosti s(i, j). To uvek mislimo s(i, j) = s(j, i). Poreklo brojeva s(i, j) je irelevantno za opisivanje kako algoritam radi. Mogu se dobiti ili direktnim mjerenjem, ili uz korištenje stručnjaka, ili proračunom iz skupa opisnih karakteristika, ili na neki drugi način.

U Euklidskom prostoru, razmatrani n objekti moraju biti predstavljeni konfiguracijom n tačke i Euklidska udaljenost d(i, j) između odgovarajućih tačaka. Stepen korespondencije između skupa objekata i skupa tačaka koje ih predstavljaju određuje se poređenjem matrica sličnosti || s(i, j)|| i udaljenosti || d(i, j)||. Funkcional metričke sličnosti ima oblik

Geometrijska konfiguracija mora biti odabrana tako da funkcionalna S dostigne svoju minimalnu vrijednost.

Komentar. U nemetričkom skaliranju, umjesto blizine mjera blizine i samih udaljenosti, razmatra se blizina poredaka na skupu mjera blizine i skupu odgovarajućih udaljenosti. Umjesto funkcionalnosti S koriste se analozi Spearmanovih i Kendallovih koeficijenata rang korelacije. Drugim riječima, nemetričko skaliranje pretpostavlja da se mjere blizine mjere na ordinalnoj skali.

Neka Euklidski prostor ima dimenziju m. Uzmite u obzir minimalnu srednju kvadratnu grešku

,

gdje je uzet minimum svih mogućih konfiguracija n tačke u m-dimenzionalni euklidski prostor. Može se pokazati da se razmatrani minimum postiže na nekoj konfiguraciji. Jasno je da sa rastom m veličina α m monotono opada (tačnije, ne raste). Može se pokazati da kada m > n– 1 je jednako 0 (ako s(i, j) je metrika). Da bi se povećale mogućnosti smislenog tumačenja, poželjno je djelovati u prostoru najmanjih mogućih dimenzija. U ovom slučaju, međutim, dimenzija mora biti odabrana tako da tačke predstavljaju objekte bez velikih izobličenja. Postavlja se pitanje: kako racionalno izabrati dimenziju, tj. prirodni broj m?

Kao dio deterministička analizaČini se da nema razumnog odgovora na ovo pitanje. Stoga je neophodno proučavati ponašanje α m u određenim probabilističkim modelima. Ako mjere blizine s(i, j) su slučajne varijable čija distribucija zavisi od "prave dimenzije" m 0 (i, eventualno, na nekim drugim parametrima), onda u klasičnom matematičkom i statističkom stilu možemo postaviti problem procjene m 0, traženje konzistentnih rezultata i tako dalje.

Počnimo sa izgradnjom vjerojatnosnih modela. Pretpostavljamo da su objekti tačke u euklidskom prostoru dimenzija k, Gdje k dovoljno velika. Da je "prava dimenzija". m 0, znači da sve ove tačke leže na hiperravni dimenzija m 0 . Pretpostavimo radi određenosti da je skup tačaka koji se razmatra uzorak iz kružne normalne distribucije sa varijansom σ 2 (0). To znači da su objekti O(1), O(2), …, O(n) su kolektivno nezavisni slučajni vektori, od kojih je svaki konstruiran kao ζ(1) e(1) + ζ(2) e(2) + … + ζ( m 0)e(m 0), gdje e(1), e(2), … , e(m 0) je ortonormirana baza u podprostoru dimenzije m 0 , gdje leže razmatrane tačke, i ζ(1), ζ(2), … , ζ( m 0) su kolektivno nezavisne jednodimenzionalne normalne slučajne varijable sa matematičkim očekivanjem) i varijansom σ 2 (0).

Razmotrimo dva modela za dobijanje mjera blizine s(i, j). U prvom od njih s(i, j) se razlikuju od euklidske udaljenosti između odgovarajućih tačaka zbog činjenice da su tačke poznate sa izobličenjem. Neka With(1),With(2), … , With(n) se smatraju bodovima. Onda

s(i, j) = d(c(i) + ε( i), c(j) + ε( j)), i, j = 1, 2, … , n,

Gdje d je euklidska udaljenost između tačaka u k-dimenzionalni prostor, vektori ε(1), ε(2), … , ε( n) predstavljaju uzorak iz kružne normalne distribucije u k-dimenzionalni prostor sa nultim matematičkim očekivanjem i kovarijansnom matricom σ 2 (1) I, Gdje I je matrica identiteta. Drugim riječima, ε( i) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Gdje e(1), e(2), …, e(k) je ortonormalna osnova u k-dimenzionalni prostor, i (η( i, t), i= 1, 2, …, n, t= 1, 2, … , k) je skup nezavisnih u skupu jednodimenzionalnih slučajne varijable sa nultim matematičkim očekivanjem i varijansom σ 2 (1).

U drugom modelu, izobličenja se nameću direktno na same udaljenosti:

s(i,j) = d(c(i), c(j)) + ε( i,j), i,j = 1, 2, … , n, ij,

gdje (ε( i, j), i, j = 1, 2, … , n) su kolektivno nezavisne normalne slučajne varijable sa matematičkim očekivanjem) i varijansom σ 2 (1).

U radu se pokazuje da je za oba formulisana modela minimum srednje kvadratne greške α m za n→ ∞ konvergira u vjerovatnoći do

f(m) = f 1 (m) + σ 2 (1)( km), m = 1, 2, …, k,

Dakle, funkcija f(m) je linearan na intervalima i , i opada brže na prvom intervalu nego na drugom. Iz toga proizilazi da statistika

je konzistentna procjena prave dimenzije m 0 .

Dakle, iz probabilističke teorije slijedi preporuka - kao procjenu dimenzije faktorskog prostora koristite m*. Napominjemo da je takvu preporuku kao heurističku formulirao jedan od osnivača višedimenzionalnog skaliranja, J. Kraskal. Polazio je od iskustva praktične upotrebe višedimenzionalnog skaliranja i računskih eksperimenata. Teorija vjerovatnoće je omogućila da se potkrijepi ova heuristička preporuka.

Prethodno

Ključne riječi

MATEMATIKA / PRIMIJENJENA STATISTIKA / MATEMATIČKA STATISTIKA/ TAČKE RASTA / METODA GLAVNE KOMPONENTE / FAKTORSKA ANALIZA / MULTIDIMENZIONALNO SKALIRANJE / DIMENZIONALNA PROCJENA PODATAKA / PROCJENA DIMENZIJA MODELA/ MATEMATIKA / PRIMIJENJENA STATISTIKA / MATEMATIČKA STATISTIKA / TAČKE RASTA / ANALIZA GLAVNIH KOMPONENTA / ANALIZA FAKTORA / MULTIDIMENZIONALNO SKALIRANJE / PROCJENA DIMENZIJE PODATAKA / PROCJENA DIMENZIJE MODELA

anotacija naučni članak iz matematike, autor naučnog članka - Alexander I. Orlov, Evgeny Veniaminovič Lutsenko

Jedna od "tačaka rasta" primijenjene statistike su metode za smanjenje dimenzije prostora statističkih podataka. Oni se sve više koriste u analizi podataka u specifičnim primijenjenim istraživanjima, na primjer, sociološkim. Razmotrimo najperspektivnije metode smanjenja dimenzionalnosti. Metoda glavne komponente je jedna od najčešće korištenih metoda smanjenja dimenzionalnosti. Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, razlikuju se kompaktni klasteri objekata i odvojeno dodijeljeni vektori. Metoda glavne komponente je jedna od metoda faktorska analiza. Nova ideja u poređenju sa metoda glavne komponente sastoji se u tome da se na osnovu opterećenja faktori dijele u grupe. Jedna grupa kombinuje faktore koji imaju sličan efekat na elemente nove osnove. Tada je preporučljivo ostaviti po jednog predstavnika iz svake grupe. Ponekad se umjesto proračunskog izbora formira novi faktor koji je centralan za dotičnu grupu. Dimenzijska redukcija nastaje u prelasku na sistem faktora koji su predstavnici grupa. Ostali faktori se odbacuju. Opsežna klasa metoda zasniva se na upotrebi udaljenosti (mjera blizine, indikatora razlika) između karakteristika. višedimenzionalno skaliranje. Glavna ideja ove klase metoda je predstavljanje svakog objekta točkom u geometrijskom prostoru (obično dimenzije 1, 2 ili 3), čije su koordinate vrijednosti skrivenih (latentnih) faktora koji zajedno adekvatno opisati objekat. Kao primjer primjene probabilističko-statističkog modeliranja i rezultata statistike nenumeričkih podataka, opravdavamo valjanost procjene dimenzije prostora podataka u višedimenzionalno skaliranje, koju je prethodno predložio Kruskal iz heurističkih razloga. Brojni radovi na procjenu dimenzija modela(u regresijskoj analizi i u teoriji klasifikacije). Date su informacije o algoritmima redukcije dimenzionalnosti u automatizovanoj sistemsko-kognitivnoj analizi.

Povezane teme naučni radovi iz matematike, autor naučnog rada - Orlov Aleksandar Ivanovič, Lutsenko Jevgenij Venijaminovič

  • Matematičke metode u sociologiji već četrdeset pet godina

  • Raznolikost objekata nenumeričke prirode

  • Procjena parametara: Procjenitelji u jednom koraku su poželjniji od procjenitelja maksimalne vjerovatnoće

  • Primijenjena statistika - stanje i izgledi

    2016 / Aleksandar Orlov
  • Stanje i izgledi za razvoj primijenjene i teorijske statistike

    2016 / Aleksandar Orlov
  • Odnos graničnih teorema i Monte Carlo metode

    2015 / Aleksandar Orlov
  • O razvoju statistike objekata nenumeričke prirode

    2013 / Aleksandar Orlov
  • Tačke rasta statističkih metoda

    2014 / Aleksandar Orlov
  • O novim perspektivnim matematičkim alatima kontrolinga

    2015 / Aleksandar Orlov
  • Udaljenosti u prostorima statističkih podataka

    2014 / Aleksandar Orlov

Jedna od „tačaka rasta“ primijenjene statistike su metode smanjenja dimenzije statističkih podataka. Oni se sve više koriste u analizi podataka u specifičnim primijenjenim istraživanjima, kao što je sociologija. Istražujemo metode koje najviše obećavaju za smanjenje dimenzionalnosti. Glavne komponente su jedna od najčešće korištenih metoda za smanjenje dimenzionalnosti. Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, istaknuti kompaktni klasteri objekata i odvojeno dodijeljeni vektori. Glavne komponente su jedna metoda faktorske analize. Nova ideja faktorske analize u poređenju sa metodom glavnih komponenti je da se faktori na osnovu opterećenja razbiju u grupe. U jednoj grupi faktora, novi faktor se kombinuje sa sličnim uticajem na elemente nove osnove. Zatim se svakoj grupi preporučuje da ostavi po jednog predstavnika. Ponekad, umjesto izbora predstavnika proračunom, novi faktor koji je centralni za grupu u pitanju. Smanjena dimenzija nastaje prilikom prelaska na sistemske faktore, koji su predstavnici grupa. Ostali faktori se odbacuju. Na upotrebi udaljenosti (mjere blizine, indikatori razlika) između karakteristika i ekstenzivne klase baziraju se metode višedimenzionalnog skaliranja. Osnovna ideja ove klase metoda je da se svaki objekt prikaže kao tačka geometrijskog prostora (obično dimenzije 1, 2 ili 3) čije koordinate su vrijednosti skrivenih (latentnih) faktora koji se kombinuju na adekvatan način. opisati objekat. Kao primjer primjene probabilističkog i statističkog modeliranja i rezultata statistike nenumeričkih podataka, opravdavamo konzistentnost estimatora dimenzije podataka u višedimenzionalnom skaliranju, koje je prethodno predložio Kruskal iz heurističkih razmatranja. Razmotrili smo niz konzistentnih procjena dimenzije modela (u regresionoj analizi i u teoriji klasifikacije). Također dajemo neke informacije o algoritmima za smanjenje dimenzionalnosti u automatiziranoj sistemsko-kognitivnoj analizi

Tekst naučnog rada na temu "Metode za smanjenje dimenzije prostora statističkih podataka"

UDC 519.2: 005.521:633.1:004.8

01.00.00 Fizičke i matematičke nauke

METODE ZA DIMENZIONALNU REDUKCIJU PROSTORA STATISTIČKIH PODATAKA

Orlov Aleksandar Ivanovič

Doktor ekonomskih nauka, doktor tehničkih nauka, prof

Šifra RSCI BRSH: 4342-4994

Moskovski državni tehnički

univerzitet. N.E. Bauman, Rusija, 105005,

Moskva, 2. Baumanskaja, 5, [email protected] T

Lutsenko Evgeny Veniaminovič Doktor ekonomskih nauka, prof. RSCI BRSH-šifra: 9523-7101 Kubanski državni agrarni univerzitet, Krasnodar, Rusija [email protected] com

Jedna od „tačaka rasta“ primijenjene statistike su metode smanjenja dimenzije prostora statističkih podataka. Oni se sve više koriste u analizi podataka u specifičnim primijenjenim istraživanjima, na primjer, sociološkim. Razmotrimo najperspektivnije metode smanjenja dimenzionalnosti. Analiza glavnih komponenti jedna je od najčešće korištenih metoda redukcije dimenzionalnosti. Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, razlikuju se kompaktni klasteri objekata i odvojeno dodijeljeni vektori. Analiza glavnih komponenti je jedna od metoda faktorske analize. Nova ideja u poređenju sa metodom glavne komponente je da se faktori na osnovu opterećenja dele u grupe. Jedna grupa kombinuje faktore koji imaju sličan efekat na elemente nove osnove. Tada je preporučljivo ostaviti po jednog predstavnika iz svake grupe. Ponekad se umjesto proračunskog izbora formira novi faktor koji je centralan za dotičnu grupu. Dimenzijska redukcija nastaje u prelasku na sistem faktora koji su predstavnici grupa. Ostali faktori se odbacuju. Opsežna klasa metoda višedimenzionalnog skaliranja zasniva se na korištenju udaljenosti (mjere blizine, indikatori razlike) između karakteristika. Glavna ideja ove klase metoda je predstavljanje svakog objekta kao tačke u geometrijskom prostoru (obično dimenzija 1, 2 ili 3), čije su koordinate vrijednosti skrivenih (latentnih) faktora koji zajedno adekvatno opisati

UDK 519.2:005.521:633.1:004.8

fizike i matematičke nauke

METODE SMANJENJA DIMENZIJE PROSTORA STATISTIČKIH PODATAKA

Alexander Orlov

dr.sc.econ., dr.sci.tech., kand.

Moskovski državni tehnički univerzitet Bauman, Moskva, Rusija

Lutsenko Eugeny Veniaminovič dr. sci., do. tech., profesor RSCI SPIN-kod: 9523-7101

Kubanski državni agrarni univerzitet, Krasnodar, Rusija

[email protected] com

Jedna od „tačaka rasta“ primijenjene statistike su metode smanjenja dimenzije statističkih podataka. Oni se sve više koriste u analizi podataka u specifičnim primijenjenim istraživanjima, kao što je sociologija. Istražujemo metode koje najviše obećavaju za smanjenje dimenzionalnosti. Glavne komponente su jedna od najčešće korištenih metoda za smanjenje dimenzionalnosti. Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično je struktura podataka jasno vidljiva, istaknuti kompaktni klasteri objekata i odvojeno dodijeljeni vektori. Glavne komponente su jedna metoda faktorske analize. Nova ideja faktorske analize u poređenju sa metodom glavnih komponenti je da se faktori na osnovu opterećenja razbiju u grupe. U jednoj grupi faktora, novi faktor se kombinuje sa sličnim uticajem na elemente nove osnove. Zatim se svakoj grupi preporučuje da ostavi po jednog predstavnika. Ponekad, umjesto izbora predstavnika proračunom, novi faktor koji je centralni za grupu u pitanju. Smanjena dimenzija nastaje prilikom prelaska na sistemske faktore, koji su predstavnici grupa. Ostali faktori se odbacuju. Na upotrebi udaljenosti (mjere blizine, indikatori razlika) između karakteristika i ekstenzivne klase zasnovane su metode višedimenzionalnog skaliranja. Osnovna ideja ove klase metoda je da se svaki objekt prikaže kao tačka geometrijskog prostora (obično dimenzije 1, 2 ili 3) čije koordinate su vrijednosti skrivenih (latentnih) faktora koji se kombinuju na adekvatan način. opisati objekat. Kao primjer primjene probabilističkog i statističkog modeliranja i rezultata statistike nenumeričkih podataka, opravdavamo konzistentnost procjenitelja

objekat. Kao primjer primjene vjerovatno-statističkog modeliranja i rezultata statistike nenumeričkih podataka, opravdavamo konzistentnost procjene dimenzije prostora podataka u višedimenzionalnom skaliranju, koju je prethodno predložio Kruskal iz heurističkih razmatranja. Razmatran je niz radova o procjeni dimenzija modela (u regresionoj analizi i u teoriji klasifikacije). Date su informacije o algoritmima redukcije dimenzionalnosti u automatizovanoj sistemsko-kognitivnoj analizi.

Ključne riječi: MATEMATIKA, PRIMIJENJENA STATISTIKA, MATEMATIČKA STATISTIKA, TAČKE RASTA, METODA GLAVNE KOMPONENTE, FAKTORSKA ANALIZA, MULTIDIMENZIONALNO SKALIRANJE, DIMENZIONALNA PROCJENA PODATAKA, DIMENZIONALNA OCJENA MODELA

dimenzija podataka u višedimenzionalnom skaliranju, koje je prethodno predložio Kruskal iz heurističkih razmatranja. Razmotrili smo niz konzistentnih procjena dimenzije modela (u regresionoj analizi i u teoriji klasifikacije). Također dajemo neke informacije o algoritmima za smanjenje dimenzionalnosti u automatiziranoj sistemsko-kognitivnoj analizi

Ključne riječi: MATEMATIKA PRIMIJENJENA STATISTIKA MATEMATIČKA STATISTIKA TAČKE RASTA GLAVNA KOMPONENTA ANALIZA FAKTORSKA ANALIZA MULTIDIMENZIONALNO SKALIRANJE PROCENA DIMENZIJE PODATAKA PROCENA DIMENZIJE MODELA

1. Uvod

Kao što je već napomenuto, jedna od „tačaka rasta“ primenjene statistike su metode smanjenja dimenzije prostora statističkih podataka. Oni se sve više koriste u analizi podataka u specifičnim primijenjenim istraživanjima, na primjer, sociološkim. Razmotrimo najperspektivnije metode smanjenja dimenzionalnosti. Kao primjer primjene vjerovatno-statističkog modeliranja i rezultata statistike nenumeričkih podataka, opravdaćemo konzistentnost procjene dimenzije prostora, koju je prethodno predložio Kruskal iz heurističkih razmatranja.

U multivarijantnoj statističkoj analizi, svaki objekat je opisan vektorom čija je dimenzija proizvoljna (ali ista za sve objekte). Međutim, osoba može direktno percipirati samo numeričke podatke ili tačke na ravni. Već je mnogo teže analizirati skupove tačaka u trodimenzionalnom prostoru. Direktna percepcija višedimenzionalnih podataka je nemoguća. Stoga je sasvim prirodno željeti prijeći sa multivarijatnog uzorka na niskodimenzionalne podatke, tako da se „mogu koristiti za

pogledajte". Na primjer, marketinški stručnjak može vizualno vidjeti koliko ih ima razne vrste ponašanje potrošača (tj. koliko je svrsishodno izdvojiti tržišne segmente) i koji potrošači (sa kojim svojstvima) su uključeni u njih.

Osim želje za vidljivošću, postoje i drugi motivi za smanjenje dimenzije. Oni faktori od kojih ne zavisi varijabla od interesa za istraživača samo ometaju statističku analizu. Prvo, finansijski, vremenski i ljudski resursi se troše na prikupljanje informacija o njima. Drugo, kao što se može dokazati, njihovo uključivanje u analizu pogoršava svojstva statističkih postupaka (posebno povećava varijansu procjena parametara i karakteristika distribucija). Stoga je poželjno da se riješite takvih faktora.

Kada se analiziraju multivarijantni podaci, obično se smatra ne jednim, već mnogim problemima, posebno različitim odabirom nezavisnih i zavisnih varijabli. Stoga, razmotrite problem smanjenja dimenzionalnosti u sljedećoj formulaciji. Dat je multivarijantni uzorak. Od njega je potrebno preći na skup vektora manje dimenzije, čuvajući strukturu početnih podataka što je više moguće, bez gubitka informacija sadržanih u podacima ako je moguće. Zadatak je specificiran u okviru svake specifične metode redukcije dimenzionalnosti.

2. Metoda glavne komponente

To je jedna od najčešće korištenih metoda smanjenja dimenzionalnosti. Njegova glavna ideja je da se sekvencijalno identifikuje pravce u kojima se podaci najviše šire. Neka se uzorak sastoji od vektora jednako raspoređenih sa vektorom X = (x(1), x(2), ... , x(n)). Razmotrite linearne kombinacije

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Ovdje vektor X = (X(1), X(2), ..., X(n)) leži na jedinici sfera u n-dimenzionalnom prostoru.

U metodi glavne komponente, prije svega, nalazi se smjer maksimalnog raspršenja, tj. takav X kod kojeg varijansa slučajne varijable 7(X) = 7(X(1), X(2), ..., X(n)) dostiže svoj maksimum. Tada vektor X specificira prvu glavnu komponentu, a vrijednost 7(X) je projekcija slučajnog vektora X na osu prve glavne komponente.

Zatim, u terminima linearne algebre, razmatra se hiperravan u n-dimenzionalnom prostoru, okomita na prvu glavnu komponentu, i svi elementi uzorka se projektuju na ovu hiperravninu. Dimenzija hiperravne je za 1 manja od dimenzije originalnog prostora.

U hiperravni koja se razmatra postupak se ponavlja. U njemu se nalazi pravac najvećeg širenja, tj. druga glavna komponenta. Zatim dodijelite hiperravninu okomitu na prve dvije glavne komponente. Njegova dimenzija je 2 manja od dimenzije originalnog prostora. Sljedeća je sljedeća iteracija.

Sa stanovišta linearne algebre, govorimo o konstruisanju nove baze u n-dimenzionalnom prostoru, čije su orte glavne komponente.

Varijanca koja odgovara svakoj novoj glavnoj komponenti je manja nego za prethodnu. Obično se zaustavljaju kada je manji od datog praga. Ako je odabrano k glavnih komponenti, to znači da je bilo moguće prijeći iz n-dimenzionalnog prostora u k-dimenzionalni, tj. smanjiti dimenziju sa p-na k, praktično bez narušavanja strukture izvornih podataka.

Za vizualnu analizu podataka često se koriste projekcije originalnih vektora na ravan prve dvije glavne komponente. Obično

struktura podataka je jasno vidljiva, razlikuju se kompaktni skupovi objekata i odvojeno izdvojeni vektori.

3. Faktorska analiza

Analiza glavnih komponenti je jedna od metoda faktorske analize. Različite algoritme faktorske analize objedinjuje činjenica da u svima postoji prijelaz na novu osnovu u originalnom n-dimenzionalnom prostoru. Važan je koncept “faktorskog opterećenja” koji se koristi za opisivanje uloge početnog faktora (varijable) u formiranju određenog vektora iz nove baze.

Nova ideja u poređenju sa metodom glavne komponente je da se faktori na osnovu opterećenja dele u grupe. Jedna grupa kombinuje faktore koji imaju sličan efekat na elemente nove osnove. Tada je preporučljivo ostaviti po jednog predstavnika iz svake grupe. Ponekad se umjesto proračunskog izbora formira novi faktor koji je centralan za dotičnu grupu. Dimenzijska redukcija nastaje u prelasku na sistem faktora koji su predstavnici grupa. Ostali faktori se odbacuju.

Opisani postupak može se provesti ne samo uz pomoć faktorske analize. Riječ je o klaster analizi karakteristika (faktora, varijabli). Za podjelu karakteristika u grupe, mogu se koristiti različiti algoritmi klaster analize. Dovoljno je uneti udaljenost (mjeru blizine, indikator razlike) između karakteristika. Neka su X i Y dvije karakteristike. Razlika d(X,Y) između njih može se izmjeriti korištenjem koeficijenata korelacije uzorka:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, gdje je rn(X,Y) Pearsonov uzorak linearne korelacije, pn(X, Y) - Spearmanov koeficijent korelacije ranga uzorka.

4. Višedimenzionalno skaliranje.

Opsežna klasa višedimenzionalnih metoda skaliranja zasniva se na korištenju udaljenosti (mjere blizine, indikatori razlike) d (X, Y) između karakteristika X i Y. Glavna ideja ove klase metoda je predstavljanje svakog objekta točkom u geometrijskom prostoru (obično dimenzije 1, 2 ili 3), čije su koordinate vrijednosti skrivenih (latentnih) faktora koji zajedno adekvatno opisati objekat. U ovom slučaju, odnosi između objekata su zamijenjeni odnosima između tačaka - njihovih predstavnika. Dakle, podaci o sličnosti objekata - po udaljenostima između tačaka, podaci o superiornosti - po međusobnom rasporedu tačaka.

5. Problem procjene prave dimenzije faktorskog prostora

U praksi sociološke analize podataka koristi se niz različitih multidimenzionalnih modela skaliranja. Svi oni se suočavaju sa problemom procene prave dimenzije faktorskog prostora. Razmotrimo ovaj problem na primjeru obrade podataka o sličnosti objekata pomoću metričkog skaliranja.

Neka postoji n objekata 0(1), O(2), ..., O(n), za svaki par objekata 0(/), O(j) data je mjera njihove sličnosti s(ij). Pretpostavljamo da je uvijek s(i,j) = s(j,i). Porijeklo brojeva s(ij) nije bitno za opis rada algoritma. Mogu se dobiti ili direktnim mjerenjem, ili uz korištenje stručnjaka, ili proračunom iz skupa opisnih karakteristika, ili na neki drugi način.

U euklidskom prostoru, n objekata koji se razmatraju moraju biti predstavljeni konfiguracijom od n tačaka, a euklidska udaljenost d(i,j)

između odgovarajućih tačaka. Stepen korespondencije između skupa objekata i skupa tačaka koji ih predstavljaju određen je poređenjem matrica sličnosti ||i(,)|| i udaljenosti Funkcija sličnosti CMM-metrike ima oblik

i = t|*(/, ]) - d(/, M

Geometrijska konfiguracija mora biti odabrana tako da funkcionalna S dostigne svoju minimalnu vrijednost.

Komentar. U nemetričkom skaliranju, umjesto blizine mjera blizine i samih udaljenosti, razmatra se blizina poredaka na skupu mjera blizine i skupu odgovarajućih udaljenosti. Umjesto funkcionalnog S, koriste se analozi koeficijenata korelacije ranga Spearman i Kendall. Drugim riječima, nemetričko skaliranje pretpostavlja da se mjere blizine mjere na ordinalnoj skali.

Neka Euklidski prostor ima dimenziju m. Razmotrimo minimum srednje kvadratne greške

gdje je minimum uzet za sve moguće konfiguracije od n tačaka u m-dimenzionalnom euklidskom prostoru. Može se pokazati da se razmatrani minimum postiže na nekoj konfiguraciji. Jasno je da kako m raste, vrijednost am monotono opada (tačnije, ne raste). Može se pokazati da je za m > n - 1 jednako 0 (ako je metrika). Da bi se povećale mogućnosti smislenog tumačenja, poželjno je djelovati u prostoru najmanjih mogućih dimenzija. U ovom slučaju, međutim, dimenzija mora biti odabrana tako da tačke predstavljaju objekte bez velikih izobličenja. Postavlja se pitanje: kako racionalno odabrati dimenziju prostora, tj. prirodni broj t?

6. Modeli i metode za procjenu dimenzije prostora podataka

U okviru determinističke analize podataka, čini se da nema razumnog odgovora na ovo pitanje. Stoga je potrebno proučiti ponašanje am u određenim probabilističkim modelima. Ako su mjere blizine s(ij) slučajne varijable čija distribucija zavisi od “prave dimenzije” m0 (i, eventualno, od nekih drugih parametara), onda možemo postaviti problem procjene m0 u klasičnom matematičko-statističkom stilu, pogledajte za konzistentne procjene, itd.

Počnimo sa izgradnjom vjerojatnosnih modela. Pretpostavljamo da su objekti tačke u euklidskom prostoru dimenzije k, gdje je k dovoljno veliko. Činjenica da je "prava dimenzija" jednaka m0 znači da sve ove tačke leže na hiperravni dimenzije m0. Pretpostavimo radi određenosti da je skup razmatranih tačaka uzorak iz kružne normalne distribucije sa varijansom o(0). To znači da su objekti 0(1), 0(2), ..., O(n) međusobno nezavisni slučajni vektori, od kojih je svaki konstruiran kao

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), gdje je e(1), e(2), ... , e(m0) je ortonormalna baza u podprostoru dimenzije m0, u kojoj leže razmatrane tačke, a Z(1), Z(2), , Z(m0) su međusobno nezavisne jednodimenzionalne normalne slučajne varijable sa matematičkim očekivanjem 0 i varijansom o (0).

Razmotrimo dva modela za dobijanje mjera blizine s(ij). U prvom od njih, s(ij) se razlikuje od euklidske udaljenosti između odgovarajućih tačaka zbog činjenice da su tačke poznate sa distorzijama. Neka su c(1), c(2), ... , c(n) tačke koje se razmatraju. Onda

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

gdje je d euklidska udaljenost između tačaka u d-dimenzionalnom prostoru, vektori e(1), e(2), ... , e(n) su uzorak iz kružne normalne distribucije u d-dimenzionalnom prostoru sa nulto matematičko očekivanje i matrica kovarijanse o (1)/, gdje je I matrica identiteta. Drugim riječima,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), gdje je e(1), e(2), ..., e(k) je ortonormalna baza u ^-dimenzionalnom prostoru, a [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - skup jednodimenzionalnih slučajnih varijabli nezavisnih u skupu sa nultim matematičkim očekivanjem i varijansom o (1).

U drugom modelu, izobličenja se nameću direktno na same udaljenosti:

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

gdje i , a na prvom intervalu opada brže nego u drugom. Iz toga proizilazi da statistika

m* = Arg minam+1 - 2am + an-x)

je konzistentna procjena prave dimenzije m0.

Dakle, iz probabilističke teorije slijedi preporuka - koristiti m* kao procjenu dimenzije faktorskog prostora. Napominjemo da je takvu preporuku kao heurističku formulirao jedan od osnivača višedimenzionalnog skaliranja, J. Kraskal. Polazio je od iskustva praktične upotrebe višedimenzionalnog skaliranja i računskih eksperimenata. Teorija vjerovatnoće je omogućila da se potkrijepi ova heuristička preporuka.

7. Procjena dimenzija modela

Ako mogući podskupovi karakteristika čine proširenu porodicu, na primjer, procjenjuje se stepen polinoma, onda je prirodno uvesti pojam „dimenzija modela“ (ovaj koncept je u mnogo čemu sličan konceptu dimenzije prostora podataka koji se koristi u višedimenzionalno skaliranje). Autor ovog članka posjeduje niz radova o procjeni dimenzije modela, koje vrijedi uporediti sa radovima na procjeni dimenzije prostora podataka o kojima je bilo riječi.

Prvi takav rad autor ovog članka je uradio tokom službenog putovanja u Francusku 1976. godine. U njemu je proučavana jedna procjena dimenzije modela u regresiji, odnosno procjena stepena polinoma pod pretpostavkom da je zavisnost se opisuje polinomom. Ova procjena je bila poznata u literaturi, ali je kasnije pogrešno pripisana autoru ovog članka, koji je samo proučavao njezina svojstva, a posebno je otkrio da nije konzistentna, i utvrdio njenu graničnu geometrijsku raspodjelu. U članku su predložene i proučavane druge, već konzistentne procjene dimenzije regresijskog modela. Ovaj ciklus je upotpunjen radom koji je sadržavao brojna pojašnjenja.

Najnovija publikacija na ovu temu uključuje raspravu o rezultatima proučavanja stope konvergencije u graničnim teoremama koje sam dobio metodom Monte Carlo.

U članku se razmatraju metodološki slične procjene dimenzije modela u problemu cijepanja smjesa (dio teorije klasifikacije).

Procjene dimenzije modela razmatrane u višedimenzionalnom skaliranju se proučavaju u radu. U istim radovima ustanovljeno je ograničavajuće ponašanje karakteristika metode glavne komponente (koristeći asimptotičku teoriju ponašanja rješenja ekstremnih statističkih problema).

8. Algoritmi za smanjenje dimenzija u automatizovanoj sistemskoj kognitivnoj analizi

U automatizovanoj sistemsko-kognitivnoj analizi (ASC-analizi) predlaže se još jedan metod redukcije dimenzionalnosti koji se implementira u sistemu "Eidos". Opisan je u radu u odjeljcima 4.2 "Opis algoritama za osnovne kognitivne operacije sistemske analize (BCOSA)" i 4.3 "Detaljni algoritmi za BCOSA (ASC analiza)". Hajde da donesemo Kratki opis dva algoritma - BKOSA-4.1 i BKOSA-4.2.

BKOSA-4.1. "Apstrakcija faktora (smanjenje dimenzije semantičkog prostora faktora)"

Koristeći metodu uzastopnih aproksimacija (iterativni algoritam), pod datim graničnim uslovima, smanjuje se dimenzija prostora atributa bez značajnog smanjenja njegovog volumena. Kriterijum za zaustavljanje iterativnog procesa je postizanje jednog od graničnih uslova.

BKOSA-4.2. "Apstraktiranje klasa (smanjenje dimenzije semantičkog prostora klasa)"

Koristeći metodu uzastopnih aproksimacija (iterativni algoritam), pod datim graničnim uslovima, smanjuje se dimenzija prostora klase bez značajnog smanjenja njegovog volumena. Kriterijum za zaustavljanje iterativnog procesa je postizanje jednog od graničnih uslova.

Evo svih pravih algoritama implementiranih u Eidos sistemu verzije koja je implementirana u vrijeme pripreme rada (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Suština algoritama je sljedeća.

1. Izračunava se količina informacija u vrijednostima faktora o prelasku objekta u stanja koja odgovaraju klasama.

2. Vrijednost faktorske vrijednosti izračunava se za diferencijaciju objekata po klasama. Ova vrijednost je jednostavno varijabilnost informativnosti vrijednosti faktora (postoje mnoge kvantitativne mjere varijabilnosti: prosječno odstupanje od prosjeka, standardna devijacija, itd.). Drugim riječima, ako vrijednost faktora u prosjeku sadrži malo informacija o tome da li objekt pripada klasi ili ne, onda ova vrijednost nije mnogo vrijedna, a ako je mnogo, onda je vrijedna.

3. Izračunava se vrijednost deskriptivnih skala za razlikovanje objekata po klasama. U radovima E.V. Lutsenko sada se to radi kao prosjek vrijednosti gradacije ove skale.

4. Zatim se vrši Pareto optimizacija vrijednosti faktora i deskriptivnih skala:

Vrijednosti faktora (gradacije deskriptivnih skala) se rangiraju u opadajućem redoslijedu vrijednosti, a oni najmanje vrijedni koji idu desno od tangente na 45° Pareto krivulju se uklanjaju iz modela;

Faktori (deskriptivne skale) se rangiraju po opadajućem redoslijedu vrijednosti, a najmanje vrijedni faktori koji idu desno od tangente na Pareto krivulju od 45° uklanjaju se iz modela.

Kao rezultat toga, dimenzija prostora izgrađenog na deskriptivnim skalama je značajno smanjena zbog uklanjanja skala koje koreliraju jedna s drugom, tj. u stvari, ovo je ortonormalizacija prostora u informacijskoj metrici.

Ovaj proces se može ponoviti, tj. biti iterativan, dok nova verzija Sistemske "Eidos" iteracije se pokreću ručno.

Informacijski prostor klasa je ortonormaliziran na sličan način.

Ljestvice i njihove gradacije mogu biti numeričke (u ovom slučaju se obrađuju vrijednosti intervala), a mogu biti i tekstualne (redne ili čak nominalne).

Tako se uz pomoć algoritama BKOSA (ASK-analiza) dimenzija prostora smanjuje što je više moguće uz minimalan gubitak informacija.

Razvijen je niz drugih algoritama smanjenja dimenzionalnosti za analizu statističkih podataka u primijenjenoj statistici. Ciljevi ovog članka ne uključuju opis čitavog niza takvih algoritama.

Književnost

1. Orlov A.I. Tačke rasta statističkih metoda // Politematski mrežni elektronski naučni časopis Kubanskog državnog agrarnog univerziteta. 2014. br. 103. str. 136-162.

2. Kraskal J. Odnos između višedimenzionalnog skaliranja i klaster analize // Klasifikacija i klaster. M.: Mir, 1980. S.20-41.

4. Harman G. Moderna faktorska analiza. M.: Statistika, 1972. 489 str.

5. Orlov A.I. Bilješke o teoriji klasifikacije. / Sociologija: metodologija, metode, matematički modeli. 1991. br. 2. S.28-50.

6. Orlov A.I. Osnovni rezultati matematičke teorije klasifikacije // Politematski mrežni elektronski naučni časopis Kubanskog državnog agrarnog univerziteta. 2015. br. 110. S. 219-239.

7. Orlov A.I. Matematičke metode teorije klasifikacije // Politematski mrežni elektronski naučni časopis Kubanskog državnog agrarnog univerziteta. 2014. br. 95. str. 23 - 45.

8. Terekhina A.Yu. Analiza podataka multidimenzionalnim metodama skaliranja. -M.: Nauka, 1986. 168 str.

9. Perekrest V. T. Nelinearna tipološka analiza društveno-ekonomskih informacija: Matematičke i računske metode. - L.: Nauka, 1983. 176 str.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiza nenumeričkih informacija. M.: Naučno vijeće Akademije nauka SSSR-a o složenom problemu "Kibernetika", 1981. - 80 str.

11. Orlov A.I. Opći pogled na statistiku objekata nenumeričke prirode // Analiza nenumeričkih informacija u sociološkim istraživanjima. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Limitirajuća distribucija jedne procjene broja baznih funkcija u regresiji // Primijenjena multivarijantna statistička analiza. Naučne bilješke o statistici, v.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Procjena dimenzija modela u regresiji // Algoritamski i softver primijenjena statistička analiza. Naučne bilješke o statistici, v.36. - M.: Nauka, 1980. S. 92-99.

14. Orlov A.I. Asimptotika nekih procjena dimenzija modela u regresiji // Primijenjena statistika. Naučne bilješke o statistici, v.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. O procjeni polinoma regresije // Zavodskaya laboratorija. dijagnostika materijala. 1994. V.60. br. 5. P.43-47.

16. Orlov A.I. Neka probabilistička pitanja u teoriji klasifikacije // Primijenjena statistika. Naučne bilješke o statistici, v.45. - M.: Nauka, 1983. S. 166-179.

17. Orlov A.I. O razvoju statistike nenumeričkih objekata // Dizajn eksperimenata i analiza podataka: novi trendovi i rezultati. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metode smanjenja dimenzija // Dodatak 1 knjizi: Tolstova Yu.N. Osnove višedimenzionalnog skaliranja: Tutorial za univerzitete. - M.: Izdavačka kuća KDU, 2006. - 160 str.

19. Orlov A.I. Asimptotika rješenja ekstremnih statističkih problema // Analiza nenumeričkih podataka u istraživanju sistema. Zbornik radova. Problem. 10. - M.: Svesavezni naučno-istraživački institut za sistemska istraživanja, 1982. S. 412.

20. Orlov A.I. Organizaciono i ekonomsko modeliranje: udžbenik: u 3 sata 1. dio: Nenumerička statistika. - M.: Izdavačka kuća MSTU im. N.E. Bauman. - 2009. - 541 str.

21. Lutsenko E.V. Automatizovana sistemsko-kognitivna analiza u upravljanju aktivnim objektima (sistemska teorija informacija i njena primena u proučavanju ekonomskih, socio-psiholoških, tehnoloških i organizaciono-tehničkih sistema): Monografija (naučno izdanje). -Krasnodar: KubGAU. 2002. - 605 str. http://elibrary.ru/item.asp?id=18632909

1. Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. br. 103. S. 136-162.

2. Kraskal J. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimenzionalno skaliranje // Sage University serija radova: Kvalitativne primjene u društvenim znanostima. 1978. br. 11.

4. Harman G. Sovremennyj faktornyj analiz. M.: Statistika, 1972. 489 s.

5. Orlov A.I. Notes po theorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. br. 2. S.28-50.

6. Orlov A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. br. 95. S. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 s.

10. Tjurin J.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. M.: Naučnij Sovet AN SSSR po kompleksnoj problematici "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "noe raspredelenie odnoj ocenki čisla bazisnyh funkcij v regresiji // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka razmernosti modeli v regresii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Učenye zapiski po statistike, t.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekih ocjena modela u regresiji // Prikladna statistika. Učenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regresionnogo polinoma // Zavodskaja laboratorija. Dijagnostički materijali. 1994. T.60. br. 5. S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Učenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. O razvoju statistike nenumeričkih objekata // Dizajn eksperimenata i analiza podataka: novi trendovi i rezultati. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k knjiga: Tolstova Ju.N. Osnovy mnogomernogo škalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Orlov A.I. Organizacionno-jekonomicheskoe modelovanie: uchebnik: v 3 ch. Čast" 1: Nečislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemska teorija informacii i ee primenenie v issledovanii ekonomskih, socijalnih "no-psiholoških, tehnologičeskih i organizaciono-tehničkih sistema): Monografija (naučnoe izdanje. http://6005. izdanja. http://6005. izdanja). .ru/item.asp?id=18632909

Smanjenje dimenzije (smanjenje podataka)

IN analitičke tehnologije smanjenje dimenzionalnosti podataka shvata se kao proces transformacije podataka u najpogodniji oblik za analizu i interpretaciju. Obično se to postiže smanjenjem njihovog volumena, smanjenjem broja korištenih karakteristika i raznolikosti njihovih vrijednosti.

Često su analizirani podaci nepotpuni kada slabo odražavaju zavisnosti i obrasce poslovnih procesa koji se proučavaju. Razlozi za to mogu biti nedovoljan broj zapažanja, odsustvo znakova koji odražavaju bitna svojstva objekata. U ovom slučaju se primjenjuje obogaćivanje podataka.

Smanjenje dimenzija se primjenjuje u suprotnom slučaju, kada su podaci suvišni. Redundantnost se javlja kada se problem analize može riješiti sa istim nivoom efikasnosti i tačnosti, ali koristeći manju dimenziju podataka. To omogućava da se smanje vrijeme i računski troškovi za rješavanje problema, a podaci i rezultati njihove analize budu razumljiviji i razumljiviji za korisnika.

Smanjenje broja posmatranja podataka primjenjuje se ako se rješenje uporedive kvalitete može dobiti na uzorku manje veličine, čime se smanjuju računski i vremenski troškovi. Ovo posebno važi za algoritme koji nisu skalabilni, kada čak i malo smanjenje broja unosa dovodi do značajnog povećanja vremena računanja.

Ima smisla smanjiti broj karakteristika kada su informacije potrebne za kvalitativno rješenje problema sadržane u određenom podskupu karakteristika i nije potrebno koristiti ih sve. Ovo posebno važi za korelirane osobine. Na primjer, karakteristike "Starost" i "Radno iskustvo" u suštini nose iste informacije, pa se jedna od njih može isključiti.

Najefikasnije sredstvo za smanjenje broja karakteristika je faktorska analiza i analiza glavnih komponenti.

Smanjenje raznolikosti vrijednosti karakteristika ima smisla, na primjer, ako je točnost predstavljanja podataka prevelika i cjelobrojne vrijednosti se mogu koristiti umjesto stvarnih vrijednosti bez ugrožavanja kvalitete modela. Ali u isto vrijeme, količina memorije koju zauzimaju podaci i računski troškovi će se smanjiti.

Podskup podataka dobijenih kao rezultat smanjenja dimenzionalnosti treba da naslijedi od originalnog skupa onoliko informacija koliko je potrebno da se problem reši sa datom tačnošću, a računski i vremenski troškovi smanjenja podataka ne bi trebalo da obezvređuju koristi dobijene od toga.

Analitički model izgrađen na smanjenom skupu podataka trebao bi postati lakši za obradu, implementaciju i razumijevanje od modela izgrađenog na originalnom skupu.

Odluka o izboru metode smanjenja dimenzionalnosti zasniva se na apriornom znanju o karakteristikama problema koji se rješava i očekivanim rezultatima, kao i ograničenom vremenu i računskim resursima.



Učitavanje...
Top