Méretcsökkentés. Személyazonosításra alkalmas videofolyam átalakítására használt adatdimenziócsökkentési módszerek értékelése A dimenziócsökkentés problémájának lényege és különféle megoldási módszerek

  • A statisztikában, a gépi tanulásban és az információelméletben a dimenziócsökkentés olyan adattranszformáció, amely a változók számának főváltozók megszerzésével történő csökkentéséből áll. Az átalakítás jellemzők kiválasztására és jellemző kivonásra osztható.

Kapcsolódó fogalmak

Irodalmi hivatkozások

– bemeneti adatok betöltése és előfeldolgozása, – ingeranyagok manuális és automatikus címkézése (érdeklődési területek kiválasztása), – algoritmus az utódábrázolási mátrix kiszámításához, – bővített adattábla készítése a későbbiekhez szükséges bemeneti változók értékeivel elemzés, – módszer méretcsökkentés jellemzőterek (főkomponens módszer), – komponensterhelések megjelenítése az értelmezett komponensek kiválasztásához, – döntési fa tanuló algoritmus, – fa prediktív képességbecslési algoritmus, – döntési fa vizualizáció.

Kapcsolódó fogalmak (folytatás)

A spektrális klaszterezési technikák az adatok hasonlósági mátrixának spektrumát (sajátértékeit) használják a dimenziócsökkentés végrehajtására, mielőtt alacsonyabb dimenziójú terekben klasztereznék. A hasonlósági mátrixot bemenetként adjuk meg, és az adatokban szereplő egyes pontpárok relatív hasonlóságának mennyiségi becsléseiből áll.

A spektrális módszerek olyan technikák egy osztálya, amelyeket az alkalmazott matematikában használnak egyes differenciálegyenletek numerikus megoldására, esetleg a gyors Fourier transzformációt is magukban foglalva. Az ötlet az, hogy a differenciálegyenletek megoldását átírjuk néhány "alapfüggvény" összegeként (például, hogy a Fourier-sorok a szinuszosok összege), majd az összegben az együtthatókat úgy kell kiválasztani, hogy a lehető legjobban kielégítsék a differenciálegyenletet.

Matematikai elemzés (klasszikus matematikai elemzés) - a „végtelen kicsik elemzése” elnevezésű történelmi szakasznak megfelelő matematikai szakaszok készlete, amely a differenciál- és az integrálszámítást kombinálja.

A differenciális evolúció egy többdimenziós matematikai optimalizálási módszer, amely a sztochasztikus optimalizálási algoritmusok osztályába tartozik (vagyis véletlenszámokkal működik), és néhány genetikai algoritmus ötletet használ, de azokkal ellentétben nem igényel bináris kódban változókkal való munkát.

A Discrete Element Method (DEM) numerikus módszerek családja, amely nagyszámú részecske, például molekulák, homokszemcsék, kavics, kavics és más szemcsés közeg mozgásának kiszámítására szolgál. A módszert eredetileg Cundall alkalmazta 1971-ben a kőzetmechanikai problémák megoldására.

Az 5. fejezet anyagának tanulmányozása eredményeként a hallgatónak:

tud

  • a méretcsökkentés alapfogalmai és problémái:
  • megközelítések a jellemzőtér átalakítási problémájának megoldására;

képesnek lenni

  • használja a főkomponens módszert a szabványosított ortogonális jellemzőkre való áttéréshez;
  • értékelje az adatok információtartalmának csökkenését a jellemzőtér dimenziójának csökkenésével;
  • oldja meg az objektumok tanulmányozására szolgáló optimális többdimenziós lépték felépítésének problémáját;

saját

  • dimenziócsökkentési módszerek alkalmazott problémák megoldására Statisztikai analízis;
  • változók értelmezésének készségei a transzformált jellemzőtérben.

A méretcsökkentés alapfogalmai és problémái

Első pillantásra minél több információt használunk fel a vizsgált objektumokról az őket jellemző jellemzők halmaza formájában a modell létrehozásához, annál jobb. A túl sok információ azonban csökkentheti az adatelemzés hatékonyságát. Van még egy olyan kifejezés is, hogy "a dimenzionalitás átka" (a dimenzió átka), jellemzi a nagydimenziós adatokkal való munka problémáit. A dimenzió ilyen vagy olyan formában való csökkentésének igénye különféle statisztikai problémák megoldásához kapcsolódik.

A nem informatív jellemzők további zajforrást jelentenek, és befolyásolják a modellparaméter-becslés pontosságát. Ezen kívül adatkészletek a egy nagy szám A jellemzők korrelált változók csoportjait tartalmazhatják. Az ilyen jellemzőcsoportok jelenléte az információk megkettőzését jelenti, ami torzíthatja a modell specifikációját és befolyásolhatja a paraméterek becslésének minőségét. Minél nagyobb az adatdimenzió, annál nagyobb a számítások mennyisége az algoritmikus feldolgozásuk során.

A jellemzőtér dimenziójának csökkentésében az ehhez használt változók elve szerint két irány különböztethető meg: a jellemzők kiválasztása a meglévő kezdeti halmazból és új jellemzők kialakítása a kiindulási adatok átalakításával. Ideális esetben az adatok csökkentett ábrázolásának olyan dimenzióval kell rendelkeznie, amely megfelel az adatokban rejlő dimenziónak. (belső dimenzió).

A probléma dimenziójának csökkentésének kézenfekvő módja a vizsgált jelenséget jellemző leginformatívabb jellemzők felkutatása, amely nem igényli az eredeti változók transzformációját. Ez lehetővé teszi a modell kompaktabbá tételét és a nem informatív jellemzők zavaró hatásából eredő veszteségek elkerülését. Az informatív jellemzők kiválasztása abból áll, hogy megtaláljuk az összes kezdeti változó halmazának legjobb részhalmazát. A "legjobb" fogalmának kritériumai lehetnek a legtöbbek jó minőség modellezés a jellemzőtér adott dimenziójára, vagy arra a legkisebb adatdimenzióra, amelynél adott minőségű modellt lehet építeni.

A legjobb modell létrehozásának problémájának közvetlen megoldása a jellemzők összes lehetséges kombinációjának felsorolásával jár, ami általában túlságosan fáradságosnak tűnik. Ezért általában a tulajdonságok közvetlen vagy fordított kiválasztásához kell folyamodni. A közvetlen kiválasztási eljárások során a változókat szekvenciálisan adják hozzá a kezdeti halmaztól a modell kívánt minőségének eléréséig. Az eredeti jellemzőtér egymás utáni csökkentésének (fordított szelekció) algoritmusaiban a legkevésbé informatív változókat lépésről lépésre távolítják el, amíg a modell információtartalma elfogadható szintre nem csökken.

Figyelembe kell venni, hogy a jelek információtartalma relatív. A kiválasztásnak a jellemzők halmazának magas információtartalmát kell biztosítania, nem pedig az azt alkotó változók teljes információtartalmát. Így a jellemzők közötti korreláció jelenléte csökkenti azok általános információtartalmát a közös információk megkettőzése miatt. Ezért egy új funkció hozzáadása a már kiválasztottakhoz növeli az információtartalmat a benne foglaltak mértékéig hasznos információ, ami hiányzik a korábban kiválasztott változókban. A legegyszerűbb helyzet a kölcsönösen ortogonális jellemzők kiválasztása, amelyben a kiválasztási algoritmus rendkívül egyszerűen valósul meg: a változókat informatívságuk szerint rangsoroljuk, és ebben a rangsorban az első jellemzők olyan összetételét alkalmazzuk, amely biztosítja az adott informativitást.

A tér dimenziójának csökkentésére szolgáló jellemzőkiválasztási módszerek korlátozottsága a szükséges jellemzők közvetlen jelenlétének feltételezésével jár a kiindulási adatokban, ami általában tévesnek bizonyul. A dimenziócsökkentés egy alternatív megközelítése a jellemzők új változók redukált halmazává történő átalakítása. A kezdeti jellemzők kiválasztásával ellentétben az új jellemzőtér kialakítása új változók létrehozásával jár, amelyek általában az eredeti jellemzők függvényei. Ezeket a közvetlenül nem megfigyelhető változókat gyakran látensnek, ill rejtett. A létrehozási folyamat során ezek a változók különféle hasznos tulajdonságokkal ruházhatók fel, mint például az ortogonalitás. A gyakorlatban a kezdeti jellemzők általában összefüggenek egymással, így terük ortogonálissá alakítása olyan új jellemzőkoordinátákat generál, amelyek nem duplikálják a vizsgált objektumokkal kapcsolatos információkat.

Az objektumok új, ortogonális jellemzőtérben való megjelenítése lehetővé teszi az egyes jellemzők hasznosságának megjelenítését az objektumok közötti különbségek szempontjából. Ha az új bázis koordinátáit a vizsgált megfigyelésekre vonatkozó értékek szórását jellemző variancia szerint rendezzük, akkor nyilvánvalóvá válik, hogy gyakorlati szempontból egyes jellemzők kis szórásértékűek. haszontalanok, mivel az objektumok ezek alapján gyakorlatilag megkülönböztethetetlenek az informatívabb változókban mutatkozó különbségeikhez képest. Ilyen helyzetben az eredeti jellemzőtér ún. degenerációjáról beszélhetünk k változók, és ennek a térnek a valós dimenziója T kisebb lehet, mint az eredeti (m< k).

A jellemzőtér csökkentése az adatok információtartalmának bizonyos csökkenésével jár, de az elfogadható csökkentés mértéke előre meghatározható. A jellemzők kinyerése kivetíti a kezdeti változók halmazát egy alacsonyabb dimenziójú térbe. A jellemzőterület 2-3D-re tömörítése hasznos lehet az adatok megjelenítéséhez. Így az új jellemzőtér kialakításának folyamata általában az igazán informatív változók kisebb halmazához vezet. Ezek alapján jobb modellt lehet építeni, mint kisebb számú, leginkább informatív tulajdonság alapján.

Az új változók az eredetiek alapján történő képzését látens szemantikai elemzésre, adattömörítésre, osztályozásra és mintafelismerésre használják, növelve a tanulási folyamatok sebességét és hatékonyságát. A tömörített adatokat általában további elemzésre és modellezésre használják.

A jellemzőtér-transzformáció és a méretcsökkentés egyik fontos alkalmazása a szintetikus látens kategóriák felépítése a mért jellemzőértékek alapján. Ezek a látens jelek a vizsgált jelenség általános bizonyos jellemzőit jellemezhetik, integrálva a megfigyelt objektumok sajátos tulajdonságait, ami lehetővé teszi az információ általánosításának különböző szintjei integrált indikátorainak felépítését.

A jellemzőtér-redukciós módszerek szerepe alapvető fontosságú a kezdeti jellemzők információduplikációjának problémájának vizsgálatában, ami a regressziós modellek együtthatóinak becslései varianciájának "duzzadásához" vezet. Az ideálisan ortogonális és értelmesen értelmezett új változókra való áttérés hatékony modellezési eszköz a kiindulási adatok multikollinearitása esetén.

A kezdeti jellemzőtér ortogonálisvá átalakítása kényelmes az osztályozási problémák megoldásához, mivel lehetővé teszi az objektumok bizonyos közelségének vagy különbségeinek bizonyos mértékeinek ésszerű alkalmazását, mint például az euklideszi távolság vagy az euklideszi távolság négyzete. A regresszióanalízisben a regressziós egyenlet főkomponensekre történő felépítése lehetővé teszi a multikollinearitás problémájának megoldását.

A többváltozós statisztikai elemzésben minden objektumot egy vektor ír le, amelynek mérete tetszőleges (de minden objektumra ugyanaz). Az ember azonban közvetlenül csak numerikus adatokat vagy pontokat észlel egy síkon. Már sokkal nehezebb elemezni a háromdimenziós térben lévő pontcsoportokat. A magasabb dimenziós adatok közvetlen észlelése lehetetlen. Ezért teljesen természetes, hogy a többváltozós mintáról az alacsony dimenziós adatokra akarunk áttérni, hogy „megnézhesd”.

A láthatóság vágya mellett a dimenzió csökkentésének egyéb motívumai is vannak. Azok a tényezők, amelyektől a kutatót érdeklő változó nem függ, csak hátráltatják a statisztikai elemzést. Először is a róluk szóló információk gyűjtése erőforrásokat fogyaszt. Másodszor, mint bizonyítható, az elemzésbe való bevonásuk rontja a statisztikai eljárások tulajdonságait (különösen növeli a paraméterek becsléseinek és az eloszlások jellemzőinek szórását). Ezért kívánatos megszabadulni az ilyen tényezőktől.

Vizsgáljuk meg a dimenziócsökkentés szempontjából a 3.2.3. alfejezetben tárgyalt példát a regressziós elemzés alkalmazására az értékesítés előrejelzésére. Először is, ebben a példában lehetséges volt a független változók számát 17-ről 12-re csökkenteni. Másodszor, létre lehetett hozni egy új tényezőt - a 12 említett tényező lineáris függvényét, amely az összes többi lineárisnál jobban előrejelzi az értékesítési volument tényezők kombinációi. Tehát elmondhatjuk, hogy ennek eredményeként a probléma dimenziója 18-ról 2-re csökkent. Nevezetesen volt egy független tényező (a 3.2.3. alfejezetben megadott lineáris kombináció) és egy függő tényező - az értékesítési volumen.

A többváltozós adatok elemzésekor általában nem egy, hanem sok problémát vesznek figyelembe, különösen a független és függő változók eltérő kiválasztását. Ezért vegye figyelembe a méretcsökkentési problémát a következő megfogalmazásban. Adott egy többváltozós minta. Ebből kell áttérni egy kisebb dimenziójú vektorhalmazra, lehetőleg megőrizve a kiindulási adatok szerkezetét, lehetőség szerint anélkül, hogy elveszítené az adatokban foglalt információkat. A feladat az egyes konkrét méretcsökkentési módszerek keretein belül kerül meghatározásra.

Főkomponens módszer az egyik leggyakrabban használt méretcsökkentési módszer. Fő gondolata az, hogy egymás után azonosítsa azokat az irányokat, amelyekben az adatok a legnagyobb mértékben terjednek. Álljon a minta a vektorral egyenlő eloszlású vektorokból x = (x(1), x(2), … , x(n)). Vegye figyelembe a lineáris kombinációkat

Y(λ(1), λ(2), …, λ( n)) = λ(1) x(1) +λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Itt a λ = (λ(1), λ(2), …, λ( n)) az egységgömbön fekszik n-dimenziós tér.

A főkomponens módszernél mindenekelőtt a maximális szórás irányát találjuk meg, azaz. olyan λ, amelynél a valószínűségi változó varianciája eléri a maximumát Y(λ) = Y(λ(1), λ(2), …, λ( n)). Ekkor a λ vektor határozza meg az első főkomponenst és a mennyiséget Y(λ) egy véletlen vektor vetülete x az első főkomponens tengelyén.

Ekkor a lineáris algebra szempontjából egy hipersíkot tekintünk be n-dimenziós tér, merőleges az első főkomponensre, és a minta összes elemét erre a hipersíkra vetítjük. A hipersík mérete 1-gyel kisebb, mint az eredeti tér mérete.

A vizsgált hipersíkban az eljárás megismétlődik. A legnagyobb terjedés iránya megtalálható benne, i.e. második főkomponens. Ezután jelöljön ki egy hipersíkot, amely merőleges az első két főkomponensre. Mérete 2-vel kisebb, mint az eredeti tér mérete. Következő a következő iteráció.

A lineáris algebra szempontjából új bázis felépítéséről beszélünk n-dimenziós tér, melynek ortjai főkomponensek.

Az egyes új főkomponenseknek megfelelő szórás kisebb, mint az előzőnél. Általában akkor állnak le, ha az alacsonyabb, mint egy adott küszöb. Ha kiválasztják k fő összetevői, ez azt jelenti, hogy n-dimenziós térbe sikerült eljutni k- dimenziós, azaz. csökkentse a méretet n-előtt k, gyakorlatilag a forrásadatok szerkezetének torzítása nélkül .

Vizuális adatelemzéshez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában az adatstruktúra jól látható, az objektumok kompakt klaszterei és külön-külön kiosztott vektorok megkülönböztethetők.

A főkomponens módszer az egyik módszer faktoranalízis. A különböző faktorelemzési algoritmusokat egyesíti az a tény, hogy mindegyikben átmenet van az eredetiben egy új alapra. n-dimenziós tér. Fontos a „tényezőterhelés” fogalma, amely a kezdeti tényező (változó) szerepének leírására szolgál egy bizonyos vektor új bázisból történő kialakításában.

Új ötlet a főkomponens módszerhez képest, hogy a terhelések alapján a tényezőket csoportokra osztják. Az egyik csoport olyan tényezőket egyesít, amelyek hasonló hatással vannak az új bázis elemeire. Ezután ajánlatos minden csoportból egy képviselőt hagyni. Néha ahelyett, hogy számítással választanának képviselőt, egy új tényező alakul ki, amely központi szerepet játszik az adott csoportban. A dimenziócsökkentés a csoportok képviselőinek rendszerére való átmenet során következik be. A többi tényezőt elveti.

A leírt eljárás nem csak faktoranalízis segítségével végezhető el. A jellemzők (tényezők, változók) klaszteranalíziséről beszélünk. Különféle klaszterelemzési algoritmusok használhatók a szolgáltatások csoportokra osztására. Elegendő megadni a távolságot (közelségi mérték, különbségjelző) a jellemzők között. Hadd xÉs Nál nél- két jel. Különbség d(x, Y) közöttük mintakorrelációs együtthatók segítségével mérhető:

d 1 (X,Y) = 1 – rn(X,Y), d 2 (X,Y) = 1 – ρ n(X,Y),

Ahol rn(x, Y) a minta lineáris Pearson korrelációs együtthatója, ρ n(x, Y) a Spearman-féle minta rangkorrelációs együtthatója.

Többdimenziós méretezés. A távolságok használatáról (közelségi mérőszámok, különbségjelzők) d(x, Y) funkciók között xÉs Nál nél a többdimenziós skálázási módszerek kiterjedt osztályát alapították. Ennek a módszerosztálynak a fő gondolata az, hogy minden objektumot a geometriai tér egy pontjával ábrázoljon (általában 1, 2 vagy 3 dimenziójú), amelynek koordinátái a rejtett (látens) tényezők értékei, amelyek együtt megfelelően írja le a tárgyat. Ebben az esetben az objektumok közötti kapcsolatokat a pontok közötti kapcsolatok váltják fel - azok képviselői. Tehát az objektumok hasonlóságára vonatkozó adatok - a pontok távolságával, a felsőbbrendűségre vonatkozó adatok - a pontok kölcsönös elrendezésével.

A gyakorlatban számos különféle modellek többdimenziós méretezés. Mindegyikük szembesül a faktortér valódi dimenziójának becslésének problémájával. Tekintsük ezt a problémát az objektumok hasonlóságára vonatkozó adatok metrikus skálázással történő feldolgozásának példáján.

Legyen n tárgyakat RÓL RŐL(1), RÓL RŐL(2), …, O(n), minden tárgypárhoz RÓL RŐL(én), O(j) adott a hasonlóság mértéke s(én, j). Mindig ezt gondoljuk s(én, j) = s(j, én). A számok eredete s(én, j) irreleváns az algoritmus működésének leírása szempontjából. Megszerezhetőek akár közvetlen méréssel, akár szakértők bevonásával, akár leíró jellemzők halmazából történő számítással, vagy más módon.

Az euklideszi térben a tekintett n az objektumokat konfigurációval kell ábrázolni n pontok és az euklideszi távolság d(én, j) a megfelelő pontok között. Az objektumok halmaza és az őket reprezentáló ponthalmaz közötti megfelelés mértékét a hasonlósági mátrixok összehasonlításával határozzuk meg || s(én, j)|| és távolságok || d(én, j)||. A metrikus hasonlósági függvénynek van formája

A geometriai konfigurációt úgy kell megválasztani, hogy a funkcionális S elérje minimális értékét.

Megjegyzés. A nem metrikus skálázásban maguknak a közelség- és távolságmértékeknek a közelsége helyett a közelségi mértékek halmazán és a megfelelő távolságok halmazán lévő sorrendek közelségét veszik figyelembe. Funkcionalitás helyett S Spearman és Kendall rangkorrelációs együtthatóinak analógjait használják. Más szavakkal, a nem metrikus skálázás azt feltételezi, hogy a közelségi mértékeket ordinális skálán mérik.

Legyen az euklideszi tér dimenziója m. Tekintsük a minimális átlagos négyzetes hibát

,

ahol a minimum átveszi az összes lehetséges konfigurációt n pont be m-dimenziós euklideszi tér. Megmutatható, hogy a figyelembe vett minimumot valamilyen konfiguráción elértük. Egyértelmű, hogy a növekedéssel m az α m mennyiség monoton csökken (pontosabban nem növekszik). Kimutatható, hogy mikor m > n– 1 egyenlő 0-val (ha s(én, j) egy metrika). Az értelmes értelmezés lehetőségeinek növelése érdekében a lehető legkisebb dimenziójú térben kívánatos cselekedni. Ebben az esetben azonban úgy kell megválasztani a méretet, hogy a pontok nagy torzítások nélkül reprezentálják az objektumokat. Felmerül a kérdés: hogyan válasszuk racionálisan a dimenziót, i.e. természetes szám m?

Részeként determinisztikus elemzésÚgy tűnik, erre a kérdésre nincs ésszerű válasz. Ezért szükséges α m viselkedésének tanulmányozása bizonyos valószínűségi modellekben. Ha a közelség méri s(én, j) olyan valószínűségi változók, amelyek eloszlása ​​az "igazi dimenziótól" függ m 0 (és esetleg más paramétereken), akkor a klasszikus matematikai és statisztikai stílusban felállíthatjuk a becslés problémáját. m 0 , keressen konzisztens pontszámokat, és így tovább.

Kezdjük el a valószínűségi modellek felépítését. Feltételezzük, hogy az objektumok az euklideszi dimenziótér pontjai k, Ahol k elég nagy. Ez az "igazi dimenzió". m 0 , azt jelenti, hogy ezek a pontok egy dimenziós hipersíkon helyezkednek el m 0 . Tegyük fel a határozottság kedvéért, hogy a vizsgált pontok halmaza egy σ 2 (0) varianciájú körkörös normális eloszlásból származó minta. Ez azt jelenti, hogy a tárgyak RÓL RŐL(1), RÓL RŐL(2), …, O(n) kollektíven független véletlenvektorok, amelyek mindegyike ζ(1) e(1) + ζ (2) e(2) + … + ζ( m 0)e(m 0), hol e(1), e(2), … , e(m 0) egy ortonormális bázis a dimenzió alterében m 0 , ahol a figyelembe vett pontok vannak, és ζ(1), ζ(2), … , ζ( m 0) kollektíven független egydimenziós normális valószínűségi változók matematikai elvárással) és variancia σ 2 (0).

Tekintsünk két modellt a közelítés mérésére s(én, j). Az elsőben s(én, j) eltérnek a megfelelő pontok közötti euklideszi távolságtól, mivel a pontok torzításokkal ismertek. Hadd Val vel(1),Val vel(2), … , Val vel(n) pontnak számítanak. Akkor

s(én, j) = d(c(én) + ε( én), c(j) + ε( j)), én, j = 1, 2, … , n,

Ahol d pontok közötti euklideszi távolság k-dimenziós tér, ε(1), ε(2), … , ε( n) egy kör alakú normális eloszlásból származó mintát jelentenek k-dimenziós tér nulla matematikai elvárással és kovarianciamátrixszal σ 2 (1) én, Ahol én az identitásmátrix. Más szóval, ε( én) = η(1) e(1) + η (2) e(2) + … + η( k)e(k), Ahol e(1), e(2), …, e(k) egy ortonormális alap k-dimenziós tér, és (η( én, t), én= 1, 2, …, n, t= 1, 2, … , k) a függetlenek halmaza az egydimenziós halmazban Véletlen változók nulla matematikai várakozással és σ 2 (1) szórással.

A második modellben a torzítások közvetlenül magukra a távolságokra vonatkoznak:

s(i,j) = d(c(én), c(j)) + ε( i,j), i,j = 1, 2, … , n, énj,

ahol (ε( én, j), én, j = 1, 2, … , n) kollektíven független normál valószínűségi változók matematikai elvárással) és variancia σ 2 (1).

A tanulmány azt mutatja, hogy mindkét megfogalmazott modell esetében az átlagos négyzetes hiba minimuma α m for n→ ∞ valószínűségében konvergál ahhoz

f(m) = f 1 (m) + σ 2 (1)( km), m = 1, 2, …, k,

Tehát a funkció f(m) lineáris a és intervallumokon, és gyorsabban csökken az első intervallumon, mint a másodikon. Ebből következik, hogy a statisztika

a valódi dimenzió következetes becslése m 0 .

Tehát a valószínűségi elméletből egy ajánlás következik - a faktortér dimenziójának becsléseként használja m*. Megjegyzendő, hogy egy ilyen ajánlást heurisztikusként fogalmazott meg a többdimenziós skálázás egyik alapítója, J. Kraskal. A többdimenziós skálázás és a számítási kísérletek gyakorlati felhasználásának tapasztalataiból indult ki. A valószínűségi elmélet lehetővé tette ennek a heurisztikus ajánlásnak az alátámasztását.

Előző

Kulcsszavak

MATEMATIKA / ALKALMAZOTT STATISZTIKA / MATEMATIKAI STATISZTIKA/ NÖVEKEDÉSI PONTOK / FŐ KOMPONENS MÓDSZER / FAKTORANALÍZIS / TÖBBDIMENZIÓS MÉRETEZÉS / AZ ADATOK DIMENZIONÁLIS BECSLÉSE / MODELL DIMENZIONÁLIS BECSLÉS/ MATEMATIKA / ALKALMAZOTT STATISZTIKA / MATEMATIKAI STATISZTIKA / NÖVEKEDÉSI PONTOK / FŐÖSSZETEVŐ ELEMZÉS / TÉNYEZŐELEMZÉS / TÖBBDIMENZIÓS SZÁMÁZAT / ADATMÉRETEZÉS BECSLÉSE / MODELL DIMENZIÓ BECSLÉSE

annotáció matematikai tudományos cikk, tudományos cikk szerzője - Alexander I. Orlov, Evgeny Veniaminovich Lutsenko

Az egyik "növekedési pont" alkalmazott statisztika módszerek a statisztikai adatok terének méretének csökkentésére. Egyre gyakrabban használják őket konkrét alkalmazott kutatások, például szociológiai kutatások adatainak elemzésére. Tekintsük a dimenziócsökkentés legígéretesebb módszereit. Főkomponens módszer az egyik leggyakrabban használt méretcsökkentési módszer. Vizuális adatelemzéshez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában az adatstruktúra jól látható, az objektumok kompakt klaszterei és külön-külön kiosztott vektorok megkülönböztethetők. Főkomponens módszer az egyik módszer faktoranalízis. Új ötlet ehhez képest főkomponens módszer abból áll, hogy a terhelések alapján a tényezőket csoportokra osztják. Az egyik csoport olyan tényezőket egyesít, amelyek hasonló hatással vannak az új bázis elemeire. Ezután ajánlatos minden csoportból egy képviselőt hagyni. Néha ahelyett, hogy számítással választanának képviselőt, egy új tényező alakul ki, amely központi szerepet játszik az adott csoportban. A dimenziócsökkentés a csoportok képviselőinek rendszerére való átmenet során következik be. A többi tényezőt elveti. A módszerek egy kiterjedt osztálya a jellemzők közötti távolságok (közelségi mértékek, különbségi mutatók) használatán alapul. többdimenziós méretezés. Ennek a módszerosztálynak a fő gondolata az, hogy minden objektumot a geometriai tér egy pontjával ábrázoljon (általában 1, 2 vagy 3 dimenziójú), amelynek koordinátái a rejtett (látens) tényezők értékei, amelyek együtt megfelelően írja le a tárgyat. A valószínűségi-statisztikai modellezés alkalmazásának és a nem numerikus adatok statisztikai eredményeinek példájaként igazoljuk az adattér dimenziójára vonatkozó becslés érvényességét. többdimenziós méretezés, amelyet korábban Kruskal javasolt heurisztikus okokból. Számos munka a modellek méreteinek becslése(regresszióanalízisben és osztályozáselméletben). Információkat adunk a dimenziócsökkentési algoritmusokról az automatizált rendszer-kognitív elemzésben.

Kapcsolódó témák matematikai tudományos dolgozatok, tudományos munka szerzője - Orlov Alekszandr Ivanovics, Lutsenko Evgeny Veniaminovich

  • Matematikai módszerek a szociológiában negyvenöt éve

  • Nem numerikus jellegű objektumok sokfélesége

  • Paraméterbecslés: Az egylépcsős becslések előnyösebbek a maximális valószínűség becsléseinél

  • Alkalmazott statisztika – állapot és kilátások

    2016 / Alexander Orlov
  • Az alkalmazott és elméleti statisztika helyzete és fejlődési kilátásai

    2016 / Alexander Orlov
  • A határértéktételek és a Monte Carlo-módszer kapcsolata

    2015 / Alexander Orlov
  • A nem numerikus jellegű objektumok statisztikájának fejlesztéséről

    2013 / Alexander Orlov
  • A statisztikai módszerek növekedési pontjai

    2014 / Alexander Orlov
  • A kontrolling új, ígéretes matematikai eszközeiről

    2015 / Alexander Orlov
  • Távolságok a statisztikai adatterekben

    2014 / Alexander Orlov

Az alkalmazott statisztika egyik "növekedési pontja" a statisztikai adatok dimenziójának csökkentésének módszerei. Egyre gyakrabban használják őket konkrét alkalmazott kutatások, például a szociológia adatainak elemzésére. Megvizsgáljuk a legígéretesebb módszereket a dimenzionalitás csökkentésére. A főkomponensek az egyik leggyakrabban használt módszer a méretarány csökkentésére. Az adatok vizuális elemzéséhez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában az adatstruktúra jól látható, kiemelt objektumcsoportok és külön kiosztott vektorok. A fő összetevők a faktoranalízis egyik módszere. A faktoranalízis új ötlete a főkomponensek módszeréhez képest az, hogy a terhelések alapján a tényezők csoportokra bomlanak. A tényezők egyik csoportjában az új faktor az új bázis elemeire hasonló hatással kombinálódik. Ezután minden csoportnak ajánlott egy képviselőt hagyni. Néha a reprezentatív számítással történő megválasztása helyett egy új tényező, amely központi szerepet játszik a szóban forgó csoportban. A redukált dimenzió a rendszertényezőkre való áttérés során jelentkezik, amelyek csoportok képviselői. A többi tényezőt figyelmen kívül hagyjuk. A jellemzők és az extenzív osztály közötti távolság (közelségi mértékek, különbségek mutatói) használatára a többdimenziós skálázás módszerei épülnek. Ennek a módszercsoportnak az alapötlete, hogy minden objektumot a geometriai tér (általában 1-es, 2-es vagy 3-as dimenziójú) pontjaként mutassunk be, amelyek koordinátái a rejtett (látens) tényezők értékei, amelyek megfelelően kombinálódnak. írja le a tárgyat. A valószínűségi és statisztikai modellezés alkalmazásának, valamint a nem numerikus adatok statisztikai eredményeinek példájaként igazoljuk a többdimenziós skálázásban az adatok dimenziójára vonatkozó becslések konzisztenciáját, amelyeket korábban Kruskal javasolt heurisztikus megfontolások alapján. Számos konzisztens becslést vettünk figyelembe a modellek dimenziójára (regresszióanalízisben és osztályozáselméletben). Néhány információt adunk az automatizált rendszer-kognitív elemzésben a dimenzionalitás csökkentésére szolgáló algoritmusokról is

A tudományos munka szövege a "Módszerek a statisztikai adatok terének dimenziójának csökkentésére" témában

UDC 519.2: 005.521:633.1:004.8

01.00.00 Fizikai és matematikai tudományok

MÓDSZEREK A STATISZTIKAI ADATTERÜLET DIMENZIONÁLIS CSÖKKENTÉSÉRE

Orlov Alekszandr Ivanovics

A közgazdaságtudomány doktora, a műszaki tudományok doktora, Ph.D., professzor

RSCI BRSH kód: 4342-4994

Moszkvai Állami Műszaki

egyetemi. N.E. Bauman, Oroszország, 105005,

Moszkva, 2. Baumanskaya u. 5. [e-mail védett] l.t

Lutsenko Evgeny Veniaminovich a közgazdaságtan doktora, Ph.D., professzor RSCI BRSH-kód: 9523-7101 Kuban Állami Agráregyetem, Krasznodar, Oroszország [e-mail védett] com

Az alkalmazott statisztika egyik „növekedési pontja” a statisztikai adattér dimenziójának csökkentésének módszerei. Egyre gyakrabban használják őket konkrét alkalmazott kutatások, például szociológiai kutatások adatainak elemzésére. Tekintsük a dimenziócsökkentés legígéretesebb módszereit. A főkomponens-elemzés az egyik leggyakrabban használt dimenziócsökkentési módszer. Vizuális adatelemzéshez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában az adatstruktúra jól látható, az objektumok kompakt klaszterei és külön-külön kiosztott vektorok megkülönböztethetők. A főkomponens-elemzés a faktoranalízis egyik módszere. Új ötlet a főkomponens módszerhez képest, hogy a terhelések alapján a tényezőket csoportokra osztják. Az egyik csoport olyan tényezőket egyesít, amelyek hasonló hatással vannak az új bázis elemeire. Ezután ajánlatos minden csoportból egy képviselőt hagyni. Néha ahelyett, hogy számítással választanának képviselőt, egy új tényező alakul ki, amely központi szerepet játszik az adott csoportban. A dimenziócsökkentés a csoportok képviselőinek rendszerére való átmenet során következik be. A többi tényezőt elveti. A többdimenziós skálázási módszerek egy kiterjedt osztálya a jellemzők közötti távolságok (közelségi mérőszámok, különbségi mutatók) használatán alapul. Ennek a módszerosztálynak a fő gondolata az, hogy minden objektumot a geometriai térben egy pontként ábrázoljon (általában 1, 2 vagy 3 dimenziójú), amelyek koordinátái a rejtett (látens) tényezők értékei, amelyek együtt megfelelően leírni

UDC 519.2:005.521:633.1:004.8

Fizika és matematikai tudományok

A STATISZTIKAI ADATOK TÉRDIMENZIÓJA CSÖKKENTÉSÉNEK MÓDSZEREI

Sándor Orlov

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Bauman Moszkvai Állami Műszaki Egyetem, Moszkva, Oroszország

Lutsenko Eugeny Veniaminovich Dr. Sci.Econ., Cand.Tech.Sci., professzor RSCI SPIN-kód: 9523-7101

Kuban Állami Agrár Egyetem, Krasznodar, Oroszország

[e-mail védett] com

Az alkalmazott statisztika egyik "növekedési pontja" a statisztikai adatok dimenziójának csökkentésének módszerei. Egyre gyakrabban használják őket konkrét alkalmazott kutatások, például a szociológia adatainak elemzésére. Megvizsgáljuk a legígéretesebb módszereket a dimenzionalitás csökkentésére. A főkomponensek az egyik leggyakrabban használt módszer a méretarány csökkentésére. Az adatok vizuális elemzéséhez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában az adatstruktúra jól látható, kiemelt objektumcsoportok és külön kiosztott vektorok. A fő összetevők a faktoranalízis egyik módszere. A faktoranalízis új ötlete a főkomponensek módszeréhez képest az, hogy a terhelések alapján a tényezők csoportokra bomlanak. A tényezők egyik csoportjában az új faktor az új bázis elemeire hasonló hatással kombinálódik. Ezután minden csoportnak ajánlott egy képviselőt hagyni. Néha a reprezentatív számítással történő megválasztása helyett egy új tényező, amely központi szerepet játszik a szóban forgó csoportban. A redukált dimenzió a rendszertényezőkre való áttérés során jelentkezik, amelyek csoportok képviselői. A többi tényezőt figyelmen kívül hagyjuk. A jellemzők és az extenzív osztály közötti távolság (közelségi mértékek, különbségek mutatói) használatára a többdimenziós skálázás módszerei épülnek. Ennek a módszercsoportnak az alapötlete, hogy minden objektumot a geometriai tér (általában 1-es, 2-es vagy 3-as dimenziójú) pontjaként mutassunk be, amelyek koordinátái a rejtett (látens) tényezők értékei, amelyek megfelelően kombinálódnak. írja le a tárgyat. Példaként a valószínűségi és statisztikai modellezés alkalmazására, valamint a nem numerikus adatok statisztikai eredményeire igazoljuk a becslések konzisztenciáját.

egy tárgy. A valószínűségi-statisztikai modellezés alkalmazásának és a nem numerikus adatok statisztikai eredményeinek példájaként igazoljuk a Kruskal által korábban heurisztikus megfontolásokból javasolt adattér dimenziójának becslésének konzisztenciáját a többdimenziós skálázásban. Számos, a modellek dimenzióinak becslésével foglalkozó munka (regresszióanalízis és osztályozáselmélet) foglalkozik. Információkat adunk a dimenziócsökkentési algoritmusokról az automatizált rendszer-kognitív elemzésben.

Kulcsszavak: MATEMATIKA, ALKALMAZOTT STATISZTIKA, MATEMATIKAI STATISZTIKA, NÖVEKEDÉSI PONTOK, FŐÖSSZETEVŐ MÓDSZER, TÉNYEZŐELEMZÉS, TÖBBDIMENZIÓS SKÁLASZTÁS, ADATOK DIMENZIONÁLIS BECSLÉSE, MODELL DIMENZIONÁLIS BECSLÉS

Az adatok dimenziója a többdimenziós skálázásban, amelyeket korábban Kruskal javasolt heurisztikus megfontolások alapján. Számos konzisztens becslést vettünk figyelembe a modellek dimenziójára (regresszióanalízisben és osztályozáselméletben). Néhány információt adunk az automatizált rendszer-kognitív elemzésben a dimenzionalitás csökkentésére szolgáló algoritmusokról is

Kulcsszavak: MATEMATIKA ALKALMAZOTT STATISZTIKA MATEMATIKAI STATISZTIKA NÖVEKEDÉSI PONTOK A FŐÖSSZETEVŐ ANALÍZIS TÉNYEZŐ ELEMZÉSE TÖBBDIMENZIÓS SKÁLÁZÁS BECSLÉSE AZ ADAT DIMENZIÓ BECSLÉSE A MODELL DIMENZIÓJA

1. Bemutatkozás

Mint már említettük, az alkalmazott statisztika egyik „növekedési pontja” a statisztikai adattér dimenziójának csökkentésének módszerei. Egyre gyakrabban használják őket konkrét alkalmazott kutatások, például szociológiai kutatások adatainak elemzésére. Tekintsük a dimenziócsökkentés legígéretesebb módszereit. A valószínűségi-statisztikai modellezés alkalmazásának és a nem numerikus adatok statisztikai eredményeinek példájaként igazoljuk a Kruskal által korábban heurisztikus megfontolásból javasolt térdimenzió-becslés konzisztenciáját.

A többváltozós statisztikai elemzésben minden objektumot egy vektor ír le, amelynek mérete tetszőleges (de minden objektumra ugyanaz). Az ember azonban közvetlenül csak numerikus adatokat vagy pontokat észlel egy síkon. Már sokkal nehezebb elemezni a háromdimenziós térben lévő pontcsoportokat. A magasabb dimenziós adatok közvetlen észlelése lehetetlen. Ezért teljesen természetes, hogy a többváltozós mintáról át akarunk térni az alacsony dimenziós adatokra, hogy „lehessen használni

néz". Például egy marketingszakember vizuálisan láthatja, hogy hány különféle típusok fogyasztói magatartás (azaz hány piaci szegmenst célszerű kiemelni), és ezekbe mely fogyasztók (milyen tulajdonságokkal) tartoznak.

A láthatóság vágya mellett a dimenzió csökkentésének egyéb motívumai is vannak. Azok a tényezők, amelyektől a kutatót érdeklő változó nem függ, csak hátráltatják a statisztikai elemzést. Először is, anyagi, idő- és emberi erőforrásokat fordítanak a velük kapcsolatos információk gyűjtésére. Másodszor, mint bizonyítható, az elemzésbe való bevonásuk rontja a statisztikai eljárások tulajdonságait (különösen növeli a paraméterek becsléseinek és az eloszlások jellemzőinek szórását). Ezért kívánatos megszabadulni az ilyen tényezőktől.

A többváltozós adatok elemzésekor általában nem egy, hanem sok problémát vesznek figyelembe, különösen a független és függő változók eltérő kiválasztását. Ezért vegye figyelembe a méretcsökkentési problémát a következő megfogalmazásban. Adott egy többváltozós minta. Ebből kell áttérni egy kisebb dimenziójú vektorhalmazra, lehetőleg megőrizve a kiindulási adatok szerkezetét, lehetőség szerint anélkül, hogy elveszítené az adatokban foglalt információkat. A feladat az egyes konkrét méretcsökkentési módszerek keretein belül kerül meghatározásra.

2. Főkomponens módszer

Ez az egyik leggyakrabban használt méretcsökkentési módszer. Fő gondolata az, hogy egymás után azonosítsa azokat az irányokat, amelyekben az adatok a legnagyobb mértékben terjednek. Álljon a minta az X = (x(1), x(2), ... , x(n) vektorral egyenlő eloszlású vektorokból. Vegye figyelembe a lineáris kombinációkat

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Itt az X = (X(1), X(2), ..., X(n)) vektor az egységen fekszik gömb n-dimenziós térben.

A főkomponens módszernél mindenekelőtt a maximális szórás irányát találjuk meg, azaz. olyan X, amelynél a 7(X) = 7(X(1), X(2), ..., X(n)) valószínűségi változó varianciája eléri a maximumát. Ekkor az X vektor megadja az első főkomponenst, a 7(X) érték pedig az X véletlenvektor vetülete az első főkomponens tengelyére.

Ekkor a lineáris algebra szempontjából egy n-dimenziós térbeli hipersíkot veszünk figyelembe, amely merőleges az első főkomponensre, és a minta összes elemét erre a hipersíkra vetítjük. A hipersík mérete 1-gyel kisebb, mint az eredeti tér mérete.

A vizsgált hipersíkban az eljárás megismétlődik. A legnagyobb terjedés iránya megtalálható benne, i.e. második főkomponens. Ezután jelöljön ki egy hipersíkot, amely merőleges az első két főkomponensre. Mérete 2-vel kisebb, mint az eredeti tér mérete. Következő a következő iteráció.

A lineáris algebra szemszögéből egy n-dimenziós térben új bázis felépítéséről beszélünk, melynek ortjai a főkomponensek.

Az egyes új főkomponenseknek megfelelő szórás kisebb, mint az előzőnél. Általában akkor állnak le, ha az alacsonyabb, mint egy adott küszöb. Ha k főkomponenst választunk, akkor ez azt jelenti, hogy az n-dimenziós térből át lehetett lépni a k-dimenziósba, azaz. csökkentse a dimenziót p-ről k-ra, gyakorlatilag a forrásadatok szerkezetének torzítása nélkül.

Vizuális adatelemzéshez gyakran használják az eredeti vektorok vetületeit az első két főkomponens síkjára. Általában

jól látható az adatstruktúra, az objektumok kompakt klaszterei és külön-külön megkülönböztetett vektorok megkülönböztethetők.

3. Faktorelemzés

A főkomponens-elemzés a faktoranalízis egyik módszere. A különböző faktorelemzési algoritmusokat egyesíti, hogy mindegyikben az eredeti n-dimenziós térben történik átmenet egy új bázisra. Fontos a „tényezőterhelés” fogalma, amely a kezdeti tényező (változó) szerepének leírására szolgál egy bizonyos vektor új bázisból történő kialakításában.

Új ötlet a főkomponens módszerhez képest, hogy a terhelések alapján a tényezőket csoportokra osztják. Az egyik csoport olyan tényezőket egyesít, amelyek hasonló hatással vannak az új bázis elemeire. Ezután ajánlatos minden csoportból egy képviselőt hagyni. Néha ahelyett, hogy számítással választanának képviselőt, egy új tényező alakul ki, amely központi szerepet játszik az adott csoportban. A dimenziócsökkentés a csoportok képviselőinek rendszerére való átmenet során következik be. A többi tényezőt elveti.

A leírt eljárás nem csak faktoranalízis segítségével végezhető el. A jellemzők (tényezők, változók) klaszteranalíziséről beszélünk. A funkciók csoportokra osztásához különféle klaszterelemzési algoritmusok használhatók. Elegendő megadni a távolságot (közelségi mérték, különbségjelző) a jellemzők között. Legyen X és Y két jellemző. A köztük lévő d(X,Y) különbség mintakorrelációs együtthatók segítségével mérhető:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, ahol rn(X,Y) a Pearson-féle lineáris korrelációs együttható, pn(X, Y) – Spearman-féle mintarang korrelációs együttható.

4. Többdimenziós méretezés.

A többdimenziós skálázási módszerek egy kiterjedt osztálya az X és Y jellemzők közötti távolságok (a közelség mértéke, a különbség mutatói) d (X, Y) használatán alapul. Ennek a módszerosztálynak a fő gondolata az, hogy minden objektumot a geometriai tér egy pontjával ábrázoljon (általában 1, 2 vagy 3 dimenziójú), amelynek koordinátái a rejtett (látens) tényezők értékei, amelyek együtt megfelelően írja le a tárgyat. Ebben az esetben az objektumok közötti kapcsolatokat a pontok közötti kapcsolatok váltják fel - azok képviselői. Tehát az objektumok hasonlóságára vonatkozó adatok - a pontok távolságával, a felsőbbrendűségre vonatkozó adatok - a pontok kölcsönös elrendezésével.

5. A faktortér valódi dimenziójának becslésének problémája

A szociológiai adatelemzés gyakorlatában számos különböző többdimenziós skálázási modellt alkalmaznak. Mindegyikük szembesül a faktortér valódi dimenziójának becslésének problémájával. Tekintsük ezt a problémát az objektumok hasonlóságára vonatkozó adatok metrikus skálázással történő feldolgozásának példáján.

Legyen n db 0(1), O(2), ..., O(n) objektum, minden 0(/), O(j) objektumpárra adott az s(ij) hasonlóság mértéke. Feltételezzük, hogy mindig s(i,j) = s(j,i). Az s(ij) számok eredete nem számít az algoritmus működésének leírásánál. Megszerezhetőek akár közvetlen méréssel, akár szakértők bevonásával, akár leíró jellemzők halmazából történő számítással, vagy más módon.

Az euklideszi térben a vizsgált n objektumot n pontból álló konfigurációval kell ábrázolni, és az euklideszi távolságnak d(i,j) kell lennie.

megfelelő pontok között. Az objektumok halmaza és az őket reprezentáló ponthalmaz közötti megfelelés mértékét a hasonlósági mátrixok összehasonlításával határozzuk meg ||i(,)|| és távolságok A CMM-metrikus hasonlósági függvénynek az a formája

i = t|*(/, ]) - d(/, M

A geometriai konfigurációt úgy kell megválasztani, hogy a funkcionális S elérje minimális értékét.

Megjegyzés. A nem metrikus skálázásban maguknak a közelség- és távolságmértékeknek a közelsége helyett a közelségi mértékek halmazán és a megfelelő távolságok halmazán lévő sorrendek közelségét veszik figyelembe. A funkcionális S helyett a Spearman és Kendall rangkorrelációs együtthatók analógjait használjuk. Más szavakkal, a nem metrikus skálázás azt feltételezi, hogy a közelségi mértékeket ordinális skálán mérik.

Legyen az euklideszi tér m mérete. Tekintsük az átlagos négyzetes hiba minimumát

ahol a minimum az m-dimenziós euklideszi tér n pontjának összes lehetséges konfigurációját átveszi. Megmutatható, hogy a figyelembe vett minimumot valamilyen konfiguráción elértük. Jól látható, hogy m növekedésével az am értéke monoton csökken (pontosabban nem nő). Megmutatható, hogy m > n - 1 esetén egyenlő 0 (ha metrika). Az értelmes értelmezés lehetőségeinek növelése érdekében a lehető legkisebb dimenziójú térben kívánatos cselekedni. Ebben az esetben azonban úgy kell megválasztani a méretet, hogy a pontok nagy torzítások nélkül reprezentálják az objektumokat. Felmerül a kérdés: hogyan lehet racionálisan megválasztani a tér dimenzióját, i.e. t természetes szám?

6. Modellek és módszerek az adattér dimenziójának becslésére

A determinisztikus adatelemzés keretein belül erre a kérdésre úgy tűnik, nincs ésszerű válasz. Ezért szükséges az am viselkedésének tanulmányozása bizonyos valószínűségi modellekben. Ha az s(ij) közelségi mérőszámok olyan valószínűségi változók, amelyek eloszlása ​​függ az m0 „igazi dimenziótól” (és esetleg más paraméterektől), akkor felvethetjük az m0 klasszikus matematikai-statisztikai stílusban történő becslésének problémáját, nézd meg. következetes becslésekhez stb.

Kezdjük el a valószínűségi modellek felépítését. Feltételezzük, hogy az objektumok egy k dimenziójú euklideszi tér pontjai, ahol k elég nagy. Az a tény, hogy a "valódi méret" egyenlő m0-val, azt jelenti, hogy ezek a pontok egy m0 méretű hipersíkon helyezkednek el. Tegyük fel a határozottság kedvéért, hogy a vizsgált ponthalmaz egy o(0) varianciájú körkörös normális eloszlásból származó minta. Ez azt jelenti, hogy a 0(1), 0(2), ..., O(n) objektumok egymástól független véletlen vektorok, amelyek mindegyike a következőképpen épül fel.

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), ahol e(1), e(2), ... , e(m0) egy ortonormális bázis az m0 dimenzió alterében, amelyben a figyelembe vett pontok fekszenek, Z(1), Z(2), , Z(m0) pedig egymástól független egydimenziós normális valószínűségi változók 0 matematikai elvárással és o varanciával. (0).

Tekintsünk két modellt az s(ij) közelségi mértékek meghatározására. Az elsőben az s(ij) eltér a megfelelő pontok közötti euklideszi távolságtól, amiatt, hogy a pontok torzításokkal ismertek. Legyenek c(1), c(2), ... , c(n) a vizsgált pontok. Akkor

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

ahol d a d-dimenziós tér pontjai közötti euklideszi távolság, az e(1), e(2), ... , e(n) vektorok a d-dimenziós tér körnormális eloszlásából vett minták nulla matematikai elvárás és a kovariancia mátrix o (1)/, ahol I az azonosságmátrix. Más szavakkal,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), ahol e(1), e(2), ..., e(k) egy ortonormális bázis a ^-dimenziós térben, és [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - a halmazban független egydimenziós valószínűségi változók halmaza nulla matematikai várakozással és o (1) szórással.

A második modellben a torzítások közvetlenül magukra a távolságokra vonatkoznak:

Kch) = d(F\SI)) + £(YX u = 1, 2. , n, i f j,

ahol és , és az első intervallumon gyorsabban csökken, mint a másodikon. Ebből következik, hogy a statisztika

m* = Arg minam+1 – 2:00 + an-x)

az m0 valós dimenziójának következetes becslése.

Tehát a valószínűségi elméletből az a javaslat következik, hogy m*-t használjunk a faktortér dimenziójának becsléseként. Megjegyzendő, hogy egy ilyen ajánlást heurisztikusként fogalmazott meg a többdimenziós skálázás egyik alapítója, J. Kraskal. A többdimenziós skálázás és a számítási kísérletek gyakorlati felhasználásának tapasztalataiból indult ki. A valószínűségi elmélet lehetővé tette ennek a heurisztikus ajánlásnak az alátámasztását.

7. Modell dimenzióbecslés

Ha a jellemzők lehetséges részhalmazai bővülő családot alkotnak, például megbecsüljük egy polinom mértékét, akkor természetes a „modelldimenzió” kifejezés bevezetése (ez a fogalom sok tekintetben hasonlít az adattér-dimenzió fogalmához, amelyet az adattérben használtak. többdimenziós skálázás). A cikk szerzője számos, a modell dimenziójának becslésével foglalkozó munkával rendelkezik, amelyeket érdemes összevetni a fent tárgyalt adattér dimenzióbecslésével foglalkozó munkákkal.

Az első ilyen jellegű munkát a cikk szerzője egy 1976-os franciaországi üzleti útja során végezte. Ebben tanulmányozták a regressziós modelldimenzió egy becslését, nevezetesen egy polinom fokának becslését azzal a feltételezéssel, hogy a függést polinom írja le. Ez a becslés ismert volt a szakirodalomban, de később tévesen a cikk szerzőjének tulajdonították, aki csak a tulajdonságait tanulmányozta, különös tekintettel arra, hogy nem konzisztens, és megállapította, hogy korlátozza a geometriai eloszlást. A cikkben más, már konzisztens becsléseket javasoltak és tanulmányoztak a regressziós modell dimenziójára vonatkozóan. Ezt a ciklust egy számos pontosítást tartalmazó munka tette teljessé.

A témával foglalkozó legújabb publikáció a határtételek konvergenciarátájának tanulmányozásának eredményeit tárgyalja, amelyet a Monte Carlo-módszerrel kaptam.

A modell dimenziójának módszertanilag hasonló becsléseit a keverékek felosztásának problémájában (az osztályozási elmélet része) tárgyalja a cikk.

A többdimenziós skálázásban a fenti modelldimenzió-becsléseket tanulmányozzuk a munkákban. Ugyanezen munkákban megállapították a főkomponens módszer jellemzőinek korlátozó viselkedését (az extrém statisztikai problémák megoldásainak viselkedésének aszimptotikus elméletét felhasználva).

8. Algoritmusok dimenziócsökkentéshez az automatizált rendszer kognitív elemzésében

Az automatizált rendszer-kognitív elemzésben (ASC-analízis) egy másik dimenziócsökkentési módszert javasolnak és valósítanak meg az "Eidos" rendszerben. A munka leírása a 4.2 "A rendszerelemzés (BCOSA) alapvető kognitív műveleteihez szükséges algoritmusok leírása" és a 4.3 "Részletes algoritmusok a BCOSA-hoz (ASC elemzés)" részben található. hozzuk Rövid leírás két algoritmus - BKOSA-4.1 és BKOSA-4.2.

BKOSA-4.1. "Tényezők absztrakciója (a tényezők szemantikai terének dimenziójának csökkentése)"

Az egymást követő közelítések módszerével (iteratív algoritmus) adott peremfeltételek mellett az attribútumtér dimenziója lecsökken anélkül, hogy jelentős mértékben csökkenne a térfogata. Az iteratív folyamat megállításának kritériuma az egyik peremfeltétel teljesítése.

BKOSA-4.2. "Osztályok absztrahálása (az osztályok szemantikai terének dimenziójának csökkentése)"

Az egymást követő közelítések módszerével (iteratív algoritmus) adott peremfeltételek mellett az osztálytér dimenziója lecsökken anélkül, hogy jelentős mértékben csökkenne a térfogata. Az iteratív folyamat megállításának kritériuma az egyik peremfeltétel teljesítése.

Itt található az összes valós algoritmus, amelyet a munka elkészítésekor (2002) végrehajtott Eidos rendszerben implementáltak: http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Az algoritmusok lényege a következő.

1. Kiszámítjuk az objektum osztályoknak megfelelő állapotokba való átmenetére vonatkozó tényezők értékeiben szereplő információ mennyiségét.

2. A faktorérték értékét az objektumok osztályok szerinti megkülönböztetéséhez számítjuk ki. Ez az érték egyszerűen a faktorértékek informativitásának változékonysága (a változékonyságnak számos mennyiségi mérőszáma van: az átlagtól való átlagos eltérés, szórás stb.). Más szóval, ha egy tényező értéke átlagosan kevés információt tartalmaz arról, hogy egy objektum osztályba tartozik-e vagy sem, akkor ez az érték nem túl értékes, ha pedig sok, akkor értékes.

3. Az objektumok osztályok szerinti megkülönböztetésére szolgáló leíró skálák értékét kiszámítjuk. E.V. munkáiban. Lutsenko most ez a skála fokozatainak átlagaként történik.

4. Ezután a faktorok és a leíró skálák értékeinek Pareto-optimalizálását hajtják végre:

A faktorok értékei (a leíró skálák fokozatai) csökkenő értékrendbe kerülnek, és a 45°-os Pareto-görbe érintőjétől jobbra menő legkevésbé értékeseket eltávolítják a modellből;

A faktorok (leíró skálák) csökkenő értékrendbe kerülnek, és a 45°-os Pareto-görbe érintőjétől jobbra eső legkevésbé értékes tényezőket eltávolítják a modellből.

Ennek eredményeként a leíró léptékekre épített tér dimenziója jelentősen csökken az egymással korreláló léptékek eltávolítása miatt, pl. valójában ez a tér ortonormalizálása az információs metrikában.

Ez a folyamat megismételhető, pl. legyen iteratív, miközben új verzió A rendszer „Eidos” iterációi manuálisan indulnak el.

Az osztályok információs tere hasonlóan ortonormalizálódik.

A skálák és fokozataik lehetnek numerikusak (ebben az esetben az intervallumértékek kerülnek feldolgozásra), és lehetnek szövegesek (sorrendűek vagy akár névlegesek is).

Így a BKOSA (ASK-analízis) algoritmusok segítségével a tér dimenziója a lehető legkisebb információvesztéssel csökkenthető.

Számos más dimenziócsökkentő algoritmust fejlesztettek ki az alkalmazott statisztikák statisztikai adatainak elemzésére. Ennek a cikknek a céljai nem tartalmazzák az ilyen algoritmusok sokféleségének leírását.

Irodalom

1. Orlov A.I. A statisztikai módszerek növekedési pontjai // A Kubani Állami Agráregyetem Politematikus hálózat elektronikus tudományos folyóirata. 2014. No. 103. P. 136-162.

2. Kraskal J. A többdimenziós skálázás és a klaszteranalízis kapcsolata // Osztályozás és klaszter. M.: Mir, 1980. S.20-41.

4. Harman G. Modern faktoranalízis. M.: Statisztika, 1972. 489 p.

5. Orlov A.I. Megjegyzések az osztályozás elméletéhez. / Szociológia: módszertan, módszerek, matematikai modellek. 1991. No. 2. S.28-50.

6. Orlov A.I. Az osztályozás matematikai elméletének alapvető eredményei // A Kubani Állami Agráregyetem Politematikus hálózat elektronikus tudományos folyóirata. 2015. No. 110. S. 219-239.

7. Orlov A.I. Az osztályozás elméletének matematikai módszerei // Politematikus hálózat elektronikus tudományos folyóirata a Kubani Állami Agráregyetemről. 2014. No. 95. P. 23 - 45.

8. Terekhina A.Yu. Adatelemzés többdimenziós skálázási módszerekkel. -M.: Nauka, 1986. 168 p.

9. Perekrest V. T. A társadalmi-gazdasági információk nemlineáris tipológiai elemzése: Matematikai és számítási módszerek. - L.: Nauka, 1983. 176 p.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Nem numerikus információk elemzése. M.: A Szovjetunió Tudományos Akadémia Tudományos Tanácsa a "Kibernetika" összetett problémájáról, 1981. - 80 p.

11. Orlov A.I. Általános nézet a nem numerikus természetű objektumok statisztikájáról // Nem numerikus információk elemzése a szociológiai kutatásban. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. A regressziós bázisfüggvények számának egy becslésének korlátozása // Applied Multivariate Statistical Analysis. Tudományos megjegyzések a statisztikához, v.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Modell dimenzióbecslés regresszióban // Algoritmikus és szoftver alkalmazott statisztikai elemzés. Tudományos megjegyzések a statisztikához, v.36. - M.: Nauka, 1980. S. 92-99.

14. Orlov A.I. Néhány modell dimenzióbecslésének aszimptotikája a regresszióban // Alkalmazott statisztika. Tudományos megjegyzések a statisztikához, v.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. A regressziós polinom becsléséről // Zavodskaya labor. anyagdiagnosztika. 1994. V.60. No. 5. P.43-47.

16. Orlov A.I. Néhány valószínűségi kérdés az osztályozás elméletében // Alkalmazott statisztika. Tudományos megjegyzések a statisztikához, v.45. - M.: Nauka, 1983. S. 166-179.

17. Orlov A.I. A nem numerikus objektumok statisztikájának fejlesztéséről // Kísérletek tervezése és adatelemzés: Új trendek és eredmények. - M.: ANTAL, 1993. Р.52-90.

18. Orlov A.I. Méretcsökkentési módszerek // A könyv 1. melléklete: Tolstova Yu.N. A többdimenziós skálázás alapjai: Oktatóanyag egyetemek számára. - M.: KDU Kiadó, 2006. - 160 p.

19. Orlov A.I. Extrémális statisztikai problémák megoldásának aszimptotikája // Nem numerikus adatok elemzése a rendszerkutatásban. Műgyűjtemény. Probléma. 10. - M.: All-Union Scientific Research Institute for System Research, 1982. S. 412.

20. Orlov A.I. Szervezeti és gazdasági modellezés: tankönyv: 3 órakor 1. rész: Nem számszerű statisztika. - M.: MSTU kiadó im. N.E. Bauman. - 2009. - 541 p.

21. Lutsenko E.V. Automatizált rendszer-kognitív elemzés az aktív objektumok kezelésében (az információ rendszerelmélete és alkalmazása a gazdasági, szociálpszichológiai, technológiai és szervezet-technikai rendszerek tanulmányozásában): Monográfia (tudományos kiadás). -Krasznodar: KubGAU. 2002. - 605 p. http://elibrary.ru/item.asp?id=18632909

1. Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 103. S. 136-162.

2. Kraskal J. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Qualitative applications in the social sciences. 1978. 11. sz.

4. Harman G. Sovremennyj faktornyj analiz. M.: Statisztika, 1972. 489 s.

5. Orlov A.I. Notes po theorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. No. 2. S.28-50.

6. Orlov A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 95. S. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 s.

10. Tjurin J.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlov A.I. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Uchenye zapiski po statistike, t.36. - M.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regressionnogo polinoma // Zavodskaja laboratorija. Diagnosztikai anyag. 1994. T.60. No. 5. S.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike, t.45. - M.: Nauka, 1983. S.166-179.

17. Orlov A.I. A nem numerikus objektumok statisztikájának fejlesztéséről // Kísérletek tervezése és adatelemzés: Új trendek és eredmények. - M.: ANTAL, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k könyv: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh, S.1.9 dovanij21, S.1.9-8-2.1.

20. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-rie: stemary6. sistemary6. stemnicheskih5 (na):no. .ru/item.asp?id=18632909

Méretcsökkentés (Adatcsökkentés)

BAN BEN elemző technológiák Az adatdimenzionalitás csökkentése az adatok elemzése és értelmezése szempontjából legkényelmesebb formájává történő átalakításának folyamata. Ezt általában a hangerő csökkentésével, a használt funkciók számának és értékeinek változatosságának csökkentésével érik el.

Az elemzett adatok gyakran hiányosak, ha rosszul tükrözik a vizsgált üzleti folyamatok függőségeit és mintázatait. Ennek oka lehet az elégtelen számú megfigyelés, a tárgyak lényeges tulajdonságait tükröző jelek hiánya. Ebben az esetben adatdúsítást alkalmaznak.

A méretcsökkentést ellenkező esetben alkalmazzuk, amikor az adatok redundánsak. Redundancia akkor következik be, ha az elemzési probléma ugyanolyan hatékonysággal és pontossággal, de kisebb adatdimenzió felhasználásával megoldható. Ez lehetővé teszi a probléma megoldásához szükséges idő és számítási költségek csökkentését, az adatok és elemzésük eredményeinek értelmezhetőbbé, érthetőbbé tételét a felhasználó számára.

Az adatmegfigyelések számának csökkentését alkalmazzuk, ha kisebb méretű mintán összehasonlítható minőségű megoldás érhető el, csökkentve ezzel a számítási és időköltségeket. Ez különösen igaz a nem skálázható algoritmusokra, amikor a bejegyzések számának kismértékű csökkenése is jelentős számítási időnövekedéshez vezet.

A jellemzők számát akkor célszerű csökkenteni, ha a probléma minőségi megoldásához szükséges információkat a jellemzők egy bizonyos részhalmaza tartalmazza, és nem szükséges mindegyiket felhasználni. Ez különösen igaz a korrelált tulajdonságokra. Például az „életkor” és a „munkatapasztalat” jellemzők lényegében ugyanazt az információt hordozzák, így egyikük kizárható.

A jellemzők számának csökkentésének leghatékonyabb eszköze a faktoranalízis és a főkomponens-elemzés.

A jellemzőértékek diverzitásának csökkentésének van értelme például akkor, ha az adatábrázolás pontossága túlzott, és valós értékek helyett egész számokat lehet használni anélkül, hogy a modell minőségét veszélyeztetnénk. Ugyanakkor az adatok által elfoglalt memória mennyisége és a számítási költségek is csökkenni fognak.

A dimenziócsökkentés eredményeként kapott adatok részhalmaza annyi információt örököljön az eredeti halmazból, amennyi a probléma adott pontosságú megoldásához szükséges, és az adatredukció számítási és időköltségei ne értékeljék le az ebből származó előnyöket.

Egy csökkentett adathalmazra épített analitikus modellnek könnyebben feldolgozhatóvá, megvalósíthatóvá és érthetőbbé kell válnia, mint az eredeti halmazra épülő modellnek.

A dimenziócsökkentési módszer kiválasztására vonatkozó döntés a megoldandó probléma jellemzőiről és a várható eredményekről, valamint a korlátozott időről és a számítási erőforrásokról szóló előzetes ismereteken alapul.



Betöltés...
Top