Намаляване на размерите. Оценка на методите за намаляване на размерността на данните, използвани за трансформиране на видео поток за лична идентификация. Същността на проблема с намаляването на размерността и различни методи за решаването му

  • В статистиката, машинното обучение и теорията на информацията намаляването на размерността е трансформация на данни, която се състои в намаляване на броя на променливите чрез получаване на главни променливи. Трансформацията може да бъде разделена на избор на функция и извличане на функция.

Свързани понятия

Препратки в литературата

– зареждане и предварителна обработка на входни данни, – ръчно и автоматично етикетиране на стимулационни материали (избор на области на интерес), – алгоритъм за изчисляване на матрицата за представяне на наследник, – изграждане на разширена таблица с данни със стойностите на входните променливи, необходими за последващи анализ, – метод намаляване на размеритепространствени характеристики (метод на главния компонент), – визуализация на натоварванията на компоненти за избор на интерпретирани компоненти, – алгоритъм за обучение на дърво на решения, – алгоритъм за оценка на способността за предвиждане на дърво, – визуализация на дърво на решение.

Свързани понятия (продължение)

Техниките за спектрално клъстериране използват спектъра (собствените стойности) на матрицата на подобие на данните, за да извършат намаляване на размерността преди групиране в пространства с по-ниско измерение. Матрицата на сходството е дадена като вход и се състои от количествени оценки на относителното сходство на всяка двойка точки в данните.

Спектралните методи са клас техники, използвани в приложната математика за числено решаване на някои диференциални уравнения, вероятно включващи бързото преобразуване на Фурие. Идеята е да се пренапише решението на диференциалните уравнения като сума от някои „базисни функции“ (като как редовете на Фурие са сумата от синусоидите) и след това да се изберат коефициентите в сумата, за да задоволят възможно най-добре диференциалното уравнение.

Математически анализ (класически математически анализ) - набор от раздели на математиката, съответстващи на историческия раздел под името "анализ на безкрайно малки", съчетава диференциално и интегрално смятане.

Диференциалната еволюция е многоизмерен математически метод за оптимизация, който принадлежи към класа на алгоритмите за стохастична оптимизация (т.е. работи с помощта на случайни числа) и използва някои идеи на генетични алгоритми, но за разлика от тях не изисква работа с променливи в двоичен код.

Методът на дискретните елементи (DEM) е семейство от числени методи, предназначени за изчисляване на движението на голям брой частици като молекули, пясъчни зърна, чакъл, камъчета и други гранулирани среди. Методът първоначално е приложен от Cundall през 1971 г. за решаване на проблеми в скалната механика.

В резултат на изучаването на материала от глава 5 студентът трябва:

зная

  • основни понятия и проблеми на намаляването на размерите:
  • подходи за решаване на проблема с трансформацията на пространственото пространство;

да бъде в състояние да

  • използвайте метода на главния компонент, за да преминете към стандартизирани ортогонални характеристики;
  • оценява намаляването на информационното съдържание на данните с намаляване на размера на пространството на признаците;
  • решаване на проблема за конструиране на оптимални многомерни скали за изследване на обекти;

собствен

  • методи за намаляване на размерността за решаване на приложни проблеми Статистически анализ;
  • умения за интерпретиране на променливи в трансформираното пространство на характеристиките.

Основни понятия и проблеми на намаляването на размерността

На пръв поглед колкото повече информация за обектите на изследване под формата на набор от характеристики, които ги характеризират, ще се използва за създаване на модел, толкова по-добре. Твърде много информация обаче може да намали ефективността на анализа на данните. Има дори термин "проклятие на размерността" (проклятие на измерението), характеризиращи проблемите при работа с високоразмерни данни. Необходимостта от намаляване на измерението под една или друга форма е свързана с решаването на различни статистически проблеми.

Неинформативните характеристики са източник на допълнителен шум и влияят върху точността на оценката на параметрите на модела. В допълнение, набори от данни с Голям бройхарактеристиките могат да съдържат групи от корелирани променливи. Наличието на такива групи характеристики означава дублиране на информация, което може да изкриви спецификацията на модела и да повлияе на качеството на оценката на неговите параметри. Колкото по-висока е размерността на данните, толкова по-голям е обемът на изчисленията по време на тяхната алгоритмична обработка.

Могат да се разграничат две посоки в намаляването на размерността на пространството на признаците според принципа на използваните за това променливи: избор на признаци от съществуващия първоначален набор и формиране на нови признаци чрез трансформиране на оригиналните данни. В идеалния случай намаленото представяне на данните трябва да има измерение, съответстващо на измерението, присъщо на данните. (присъщо измерение).

Търсенето на най-информативните характеристики, които характеризират изследваното явление, е очевиден начин за намаляване на измерението на проблема, което не изисква трансформация на оригиналните променливи. Това дава възможност да се направи моделът по-компактен и да се избегнат загубите, свързани с интерфериращия ефект на неинформативни характеристики. Изборът на информативни характеристики се състои в намирането на най-доброто подмножество от набора от всички първоначални променливи. Критериите за понятието "най-добър" могат да бъдат или най-много високо качествомоделиране за дадено измерение на пространството на характеристиките или най-малкото измерение на данните, при което е възможно да се изгради модел с дадено качество.

Прякото решаване на проблема за създаване на най-добрия модел е свързано с изброяването на всички възможни комбинации от характеристики, което обикновено изглежда прекалено трудоемко. Следователно, като правило, се прибягва до директен или обратен подбор на признаци. При процедурите за директен подбор променливите се добавят последователно от първоначалния набор, докато се постигне необходимото качество на модела. В алгоритмите за последователно намаляване на оригиналното пространство на характеристиките (обратен избор) най-малко информативните променливи се премахват стъпка по стъпка, докато информационното съдържание на модела се намали до приемливо ниво.

Трябва да се има предвид, че информационното съдържание на знаците е относително. Изборът трябва да осигурява високо информационно съдържание на набор от характеристики, а не общото информационно съдържание на неговите съставни променливи. По този начин наличието на корелация между характеристиките намалява общото им информационно съдържание поради дублиране на обща за тях информация. Следователно добавянето на нова функция към вече избраните осигурява увеличаване на информационното съдържание до степента, която съдържа полезна информация, който отсъства в предварително избраните променливи. Най-простата ситуация е изборът на взаимно ортогонални признаци, при който алгоритъмът за избор се изпълнява изключително просто: променливите се класират според тяхната информативност и се използва такъв състав на първите признаци в това класиране, който осигурява дадената информативност.

Ограничаването на методите за избор на характеристики за намаляване на размерността на пространството е свързано с предположението за пряко присъствие на необходимите характеристики в изходните данни, което обикновено се оказва неправилно. Алтернативен подход за намаляване на размерността е да се трансформират характеристиките в намален набор от нови променливи. За разлика от избора на първоначални характеристики, формирането на ново пространство на характеристиките включва създаването на нови променливи, които обикновено са функции на оригиналните характеристики. Тези променливи, които не могат да се наблюдават директно, често се наричат ​​латентни, или латентен.По време на процеса на създаване тези променливи могат да бъдат надарени с различни полезни свойства, като например ортогоналност. На практика първоначалните признаци обикновено са взаимосвързани, така че трансформирането на тяхното пространство в ортогонално генерира нови координати на признаци, които нямат ефект на дублиране на информация за изследваните обекти.

Показването на обекти в ново ортогонално пространство на характеристики прави възможно визуализирането на полезността на всяка от характеристиките по отношение на разликите между тези обекти. Ако координатите на новата основа са подредени според дисперсията, характеризираща разсейването на стойностите за тях за разглежданите наблюдения, тогава става очевидно, че от практическа гледна точка някои характеристики с малки стойности на дисперсии са безполезни, тъй като обектите по тези характеристики са практически неразличими в сравнение с техните разлики в по-информативни променливи. В такава ситуация можем да говорим за така нареченото израждане на оригиналното функционално пространство от кпроменливи и реалното измерение на това пространство Tможе да е по-малко от оригинала (m< к).

Намаляването на пространството на характеристиките е придружено от известно намаляване на информационното съдържание на данните, но нивото на приемливо намаляване може да бъде определено предварително. Извличането на характеристики проектира набор от първоначални променливи в пространство с по-ниско измерение. Компресирането на пространството на функциите до 2-3D може да бъде полезно за визуализация на данни. По този начин процесът на формиране на ново функционално пространство обикновено води до по-малък набор от наистина информативни променливи. Въз основа на тях може да се изгради по-добър модел, базиран на по-малък брой най-информативни характеристики.

Формирането на нови променливи въз основа на оригиналните се използва за латентен семантичен анализ, компресиране на данни, класификация и разпознаване на образи, повишаване на скоростта и ефективността на процесите на обучение. Компресираните данни обикновено се използват за допълнителен анализ и моделиране.

Едно от важните приложения на трансформацията на пространствените характеристики и намаляването на размерите е конструирането на синтетични латентни категории въз основа на измерени стойности на характеристиките. Тези латентни знаци могат да характеризират общите определени характеристики на изследваното явление, интегрирайки специфичните свойства на наблюдаваните обекти, което позволява да се изградят интегрални показатели на различни нива на обобщаване на информацията.

Съществена е ролята на методите за редуциране на пространството на признаците в изследването на проблема с дублирането на информация в изходните признаци, което води до "набъбване" на дисперсията на оценките на коефициентите на регресионните модели. Преходът към нови променливи, идеално ортогонални и смислено интерпретирани, е ефективен инструмент за моделиране в условията на мултиколинеарност на първоначалните данни.

Преобразуването на първоначалното пространство на характеристиките в ортогонално е удобно за решаване на проблеми с класификацията, тъй като позволява разумно да се прилагат определени мерки за близост или разлики на обекти, като евклидовото разстояние или квадрата на евклидовото разстояние. При регресионния анализ изграждането на регресионното уравнение върху главните компоненти позволява решаването на проблема с мултиколинеарността.

При многовариантния статистически анализ всеки обект се описва от вектор, чиято размерност е произволна (но еднаква за всички обекти). Човек обаче може директно да възприема само числови данни или точки на равнина. Вече е много по-трудно да се анализират групи от точки в триизмерното пространство. Директното възприемане на данни с по-високо измерение е невъзможно. Следователно е съвсем естествено да искате да преминете от многовариантна извадка към данни с ниска размерност, така че „да можете да ги разгледате“.

Освен желанието за видимост има и други мотиви за намаляване на измерението. Онези фактори, от които не зависи променливата, която интересува изследователя, само пречат на статистическия анализ. Първо, събирането на информация за тях изразходва ресурси. Второ, както може да се докаже, включването им в анализа влошава свойствата на статистическите процедури (по-специално, увеличава дисперсията на оценките на параметрите и характеристиките на разпределенията). Ето защо е желателно да се отървете от такива фактори.

Нека обсъдим от гледна точка на намаляването на размерността примера за използване на регресионен анализ за прогнозиране на продажбите, разгледан в подраздел 3.2.3. Първо, в този пример беше възможно да се намали броят на независимите променливи от 17 на 12. Второ, беше възможно да се конструира нов фактор - линейна функция на 12-те споменати фактора, която прогнозира обема на продажбите по-добре от всички други линейни комбинации от фактори. Следователно можем да кажем, че в резултат размерността на проблема намаля от 18 на 2. А именно, имаше един независим фактор (линейната комбинация, дадена в подраздел 3.2.3) и един зависим фактор - обем на продажбите.

Когато се анализират многовариантни данни, обикновено се разглежда не един, а много проблеми, по-специално изборът на независими и зависими променливи по различен начин. Следователно, разгледайте проблема за намаляване на размерността в следната формулировка. Дадена е многовариантна извадка. Необходимо е да се премине от него към набор от вектори с по-малка размерност, като се запази максимално структурата на първоначалните данни, без да се губи информацията, съдържаща се в данните, ако е възможно. Задачата се конкретизира в рамките на всеки конкретен метод за намаляване на размерността.

Метод на главния компоненте един от най-често използваните методи за намаляване на размерността. Основната му идея е последователно да идентифицира посоките, в които данните имат най-голямо разпространение. Нека извадката се състои от вектори, равномерно разпределени с вектора х = (х(1), х(2), … , х(н)). Помислете за линейни комбинации

Y(λ(1), λ(2), …, λ( н)) = λ(1) х(1) +λ(2) х(2) + … + λ( н)х(н),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( н) = 1.

Тук векторът λ = (λ(1), λ(2), …, λ( н)) лежи върху единичната сфера в н-измерно пространство.

При метода на главния компонент най-напред се намира посоката на максималното разсейване, т.е. такова λ, при което дисперсията на случайната променлива достига своя максимум Y(λ) = Y(λ(1), λ(2), …, λ( н)). Тогава векторът λ определя първия главен компонент и количеството Y(λ) е проекция на произволен вектор хпо оста на първия главен компонент.

Тогава, от гледна точка на линейната алгебра, се разглежда хиперравнина в н-дименсионално пространство, перпендикулярно на първия главен компонент, и проектираме всички елементи на образеца върху тази хиперравнина. Измерението на хиперравнината е с 1 по-малко от измерението на оригиналното пространство.

В разглежданата хиперравнина процедурата се повтаря. В него се открива посоката на най-голямото разпространение, т.е. втори основен компонент. След това разпределете хиперравнина, перпендикулярна на първите два главни компонента. Размерът му е 2 по-малък от размерите на оригиналното пространство. Следва следващата итерация.

От гледна точка на линейната алгебра говорим за конструиране на нов базис в н-дименсионално пространство, чиито орти са главни компоненти.

Дисперсията, съответстваща на всеки нов основен компонент, е по-малка, отколкото за предишния. Обикновено те спират, когато е под даден праг. Ако е избрано косновни компоненти, това означава, че н-измерното пространство успя да отиде к- размерен, т.е. намаляване на измерението от н-преди к, практически без изкривяване на структурата на изходните данни .

За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, разграничават се компактни клъстери от обекти и отделно разпределени вектори.

Методът на главния компонент е един от методите факторен анализ. Различните алгоритми за факторен анализ са обединени от факта, че във всички тях има преход към нова основа в оригинала н-измерно пространство. Важно е понятието „факторно натоварване“, което се използва за описване на ролята на първоначалния фактор (променлива) при формирането на определен вектор от нова основа.

Нова идея в сравнение с метода на главния компонент е, че въз основа на натоварванията факторите се разделят на групи. Едната група обединява фактори, които имат сходен ефект върху елементите на новата основа. След това се препоръчва да оставите по един представител от всяка група. Понякога, вместо да се избира представител чрез изчисление, се формира нов фактор, който е централен за въпросната група. Намаляването на размерността възниква при прехода към система от фактори, които са представители на групи. Останалите фактори се отхвърлят.

Описаната процедура може да се извърши не само с помощта на факторен анализ. Говорим за клъстерен анализ на признаци (фактори, променливи). Могат да се използват различни алгоритми за клъстерен анализ, за ​​да се разделят характеристиките на групи. Достатъчно е да въведете разстоянието (мярка за близост, индикатор за разлика) между характеристиките. Позволявам хИ При- два знака. Разлика д(х, Y) между тях могат да бъдат измерени с помощта на примерни коефициенти на корелация:

д 1 (X,Y) = 1 – rn(X,Y), д 2 (X,Y) = 1 – ρ н(X,Y),

Където rn(х, Y) е примерният линеен коефициент на корелация на Пиърсън, ρ н(х, Y) е корелационният коефициент на извадката на Spearman.

Многомерно мащабиране. Относно използването на разстояния (мерки за близост, показатели за разлика) д(х, Y) между характеристиките хИ Прибеше основан обширен клас от многомерни методи за мащабиране. Основната идея на този клас методи е да представи всеки обект чрез точка в геометричното пространство (обикновено с размерност 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които заедно описват адекватно обекта. В този случай връзките между обектите се заменят с отношения между точките - техни представители. И така, данните за сходството на обектите - чрез разстоянията между точките, данните за превъзходството - чрез взаимното разположение на точките.

На практика редица различни моделимногомерно мащабиране. Всички те са изправени пред проблема за оценка на истинското измерение на факторното пространство. Нека разгледаме този проблем, използвайки примера за обработка на данни за сходството на обекти, използвайки метрично мащабиране.

Нека има нобекти ОТНОСНО(1), ОТНОСНО(2), …, О(н), за всяка двойка обекти ОТНОСНО(аз), О(й) е дадена мярката за тяхното сходство с(аз, й). Мислим, че винаги с(аз, й) = с(й, аз). Произход на числата с(аз, й) е без значение за описанието на начина на работа на алгоритъма. Те могат да бъдат получени или чрез директно измерване, или с помощта на експерти, или чрез изчисление от набор от описателни характеристики, или по някакъв друг начин.

В евклидовото пространство разглежданото нобектите трябва да бъдат представени чрез конфигурация нточки и евклидовото разстояние д(аз, й) между съответните точки. Степента на съответствие между набор от обекти и набор от точки, които ги представят, се определя чрез сравняване на матриците на подобие || с(аз, й)|| и разстояния || д(аз, й)||. Функционалът на метричното сходство има формата

Геометричната конфигурация трябва да бъде избрана така, че функционалът S да достигне своята минимална стойност.

Коментирайте.При неметрично мащабиране, вместо близостта на самите мерки за близост и разстояния, се разглежда близостта на подрежданията върху набора от мерки за близост и набора от съответните разстояния. Вместо функционалност Сизползвани са аналози на коефициентите на рангова корелация на Spearman и Kendall. С други думи, неметричното мащабиране предполага, че мерките за близост се измерват по порядъчна скала.

Нека евклидовото пространство има измерението м. Помислете за минималната средна квадратна грешка

,

където минимумът е взет за всички възможни конфигурации нточки в м-мерно евклидово пространство. Може да се покаже, че разглежданият минимум се постига при някаква конфигурация. Ясно е, че с растежа мвеличината α m монотонно намалява (по-точно не нараства). Може да се покаже, че когато м > н– 1 е равно на 0 (ако с(аз, й) е показател). За да се увеличат възможностите за смислена интерпретация, е желателно да се действа в пространство с възможно най-малко измерение. В този случай обаче размерът трябва да бъде избран така, че точките да представляват обекти без големи изкривявания. Възниква въпросът: как рационално да изберете измерението, т.е. естествено число м?

Като част от детерминистичен анализИзглежда, че няма разумен отговор на този въпрос. Следователно е необходимо да се изследва поведението на α m в определени вероятностни модели. Ако мерките за близост с(аз, й) са случайни променливи, чието разпределение зависи от „истинското измерение“ м 0 (и, вероятно, на някои други параметри), тогава в класическия математически и статистически стил можем да зададем проблема за оценката м 0, търсене на последователни резултати и т.н.

Нека започнем да изграждаме вероятностни модели. Приемаме, че обектите са точки в евклидовото пространство на измерение к, Където кдостатъчно голям. Че "истинското измерение" е м 0 означава, че всички тези точки лежат на хиперравнина на измерение м 0 . Нека приемем за определеност, че разглежданото множество от точки е извадка от кръгово нормално разпределение с дисперсия σ 2 (0). Това означава, че обектите ОТНОСНО(1), ОТНОСНО(2), …, О(н) са колективно независими произволни вектори, всеки от които е конструиран като ζ(1) д(1) + ζ(2) д(2) + … + ζ( м 0)д(м 0), където д(1), д(2), … , д(м 0) е ортонормална база в подпространството на измерението м 0 , където лежат разглежданите точки, и ζ(1), ζ(2), … , ζ( м 0) са колективно независими едномерни нормални случайни променливи с математическо очакване) и дисперсия σ 2 (0).

Разгледайте два модела за получаване на мерки за близост с(аз, й). В първия от тях с(аз, й) се различават от евклидовото разстояние между съответните точки поради факта, че точките са известни с изкривявания. Позволявам с(1),с(2), … , с(н) се считат за точки. Тогава

с(аз, й) = д(° С(аз) + ε( аз), ° С(й) + ε( й)), аз, й = 1, 2, … , н,

Където де евклидовото разстояние между точките в к-мерно пространство, вектори ε(1), ε(2), … , ε( н) представляват извадка от кръгово нормално разпределение в к-дименсионално пространство с нулево математическо очакване и ковариационна матрица σ 2 (1) аз, Където азе матрицата на идентичността. С други думи, ε( аз) = η(1) д(1) + η(2) д(2) + … + η( к)д(к), Където д(1), д(2), …, д(к) е ортонормална основа в к-мерно пространство и (η( аз, T), аз= 1, 2, …, n, T= 1, 2, … , k) е множеството от независими в множеството едномерни случайни променливис нулево математическо очакване и дисперсия σ 2 (1).

Във втория модел изкривяванията се налагат директно върху самите разстояния:

с(i,j) = д(° С(аз), ° С(й)) + ε( i,j), i,j = 1, 2, … , н, азй,

където (ε( аз, й), аз, й = 1, 2, … , н) са колективно независими нормални случайни променливи с математическо очакване) и дисперсия σ 2 (1).

Документът показва, че и за двата формулирани модела, минимумът на средната квадратична грешка α m за н→ ∞ се сближава по вероятност към

f(м) = f 1 (м) + σ 2 (1)( км), м = 1, 2, …, к,

Така че функцията f(м) е линеен на интервалите и , и намалява по-бързо на първия интервал, отколкото на втория. От това следва, че статистиката

е последователна оценка на истинското измерение м 0 .

И така, от вероятностната теория следва препоръка - като оценка на размерността на факторното пространство използвайте м*. Имайте предвид, че такава препоръка е формулирана като евристична от един от основателите на многомерното скалиране, J. Kraskal. Той изхожда от опита от практическото използване на многомерно мащабиране и изчислителни експерименти. Вероятностната теория направи възможно обосноваването на тази евристична препоръка.

Предишен

Ключови думи

МАТЕМАТИКА / ПРИЛОЖНА СТАТИСТИКА / МАТЕМАТИЧЕСКА СТАТИСТИКА/ ТОЧКИ НА РАСТЕЖ / МЕТОД НА ОСНОВНИЯ КОМПОНЕНТ / ФАКТОРЕН АНАЛИЗ / МНОГОИЗМЕРНО СКАЛИРАНЕ / ИЗМЕРИТЕЛНА ОЦЕНКА НА ДАННИТЕ / ОЦЕНКА НА РАЗМЕРИТЕ НА МОДЕЛА/ МАТЕМАТИКА / ПРИЛОЖНА СТАТИСТИКА / МАТЕМАТИЧЕСКА СТАТИСТИКА / ТОЧКИ НА РАСТЕЖ / АНАЛИЗ НА ОСНОВНИ КОМПОНЕНТИ / ФАКТОРЕН АНАЛИЗ / МНОГОИЗМЕРНО СКАЛИРАНЕ / ОЦЕНКА НА ИЗМЕРЕНИЕТО НА ДАННИТЕ / ОЦЕНКА НА ИЗМЕРЕНИЕТО НА МОДЕЛА

анотация научна статия по математика, автор на научна статия - Александър И. Орлов, Евгений Вениаминович Луценко

Една от "точките на растеж" приложна статистикаса методи за намаляване на измерението на пространството от статистически данни. Те се използват все повече при анализа на данни в конкретни приложни изследвания, например социологически. Нека разгледаме най-обещаващите методи за намаляване на размерността. Метод на главния компоненте един от най-често използваните методи за намаляване на размерността. За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, разграничават се компактни клъстери от обекти и отделно разпределени вектори. Метод на главния компоненте един от методите факторен анализ. Нова идея в сравнение с метод на главния компонентсе състои в това, че въз основа на натоварванията факторите се разделят на групи. Едната група обединява фактори, които имат сходен ефект върху елементите на новата основа. След това се препоръчва да оставите по един представител от всяка група. Понякога, вместо да се избира представител чрез изчисление, се формира нов фактор, който е централен за въпросната група. Намаляването на размерността възниква при прехода към система от фактори, които са представители на групи. Останалите фактори се отхвърлят. Обширен клас методи се основава на използването на разстояния (мерки за близост, индикатори за разлики) между характеристиките. многомерно мащабиране. Основната идея на този клас методи е да представи всеки обект чрез точка в геометричното пространство (обикновено с размерност 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които заедно описват адекватно обекта. Като пример за прилагане на вероятностно-статистическо моделиране и резултатите от статистиката на нечислови данни, ние обосноваваме валидността на оценката на размерността на пространството от данни в многомерно мащабиране, предложен преди това от Kruskal по евристични причини. Редица работи по оценка на размерите на моделите(в регресионния анализ и в теорията на класификацията). Дадена е информация за алгоритмите за намаляване на размерността в автоматизирания системно-когнитивен анализ.

Свързани теми научни статии по математика, автор на научна работа - Орлов Александър Иванович, Луценко Евгений Вениаминович

  • Математически методи в социологията за четиридесет и пет години

  • Разнообразие от обекти с нечислов характер

  • Оценка на параметър: Оценителите в една стъпка са за предпочитане пред оценителите на максимална вероятност

  • Приложна статистика – състояние и перспективи

    2016 / Александър Орлов
  • Състояние и перспективи за развитие на приложната и теоретична статистика

    2016 / Александър Орлов
  • Връзка между граничните теореми и метода Монте Карло

    2015 / Александър Орлов
  • За развитието на статистиката на обекти с нечислов характер

    2013 г. / Александър Орлов
  • Точки на растеж на статистическите методи

    2014 / Александър Орлов
  • За нови обещаващи математически инструменти за контрол

    2015 / Александър Орлов
  • Разстояния в пространства със статистически данни

    2014 / Александър Орлов

Една от "точките на растеж" на приложната статистика са методите за намаляване на измерението на статистическите данни. Те се използват все повече при анализа на данни в специфични приложни изследвания, като например социологията. Ние изследваме най-обещаващите методи за намаляване на размерността. Основните компоненти са един от най-често използваните методи за намаляване на размерността. За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, подчертани компактни групи от обекти и отделно разпределени вектори. Основните компоненти са един метод за факторен анализ. Новата идея на факторния анализ в сравнение с метода на главните компоненти е, че въз основа на натоварванията факторите се разделят на групи. В една група фактори новият фактор се комбинира с подобно въздействие върху елементите на новата основа. След това всяка група се препоръчва да остави по един представител. Понякога, вместо избор на представител чрез изчисление, нов фактор, който е централен за въпросната група. Намалената размерност възниква при прехода към системните фактори, които са представители на групи. Други фактори се отхвърлят. Методите за многомерно мащабиране се основават на използването на разстояние (мерки за близост, индикатори за разлики) между характеристики и екстензивен клас. Основната идея на този клас методи е да представи всеки обект като точка от геометричното пространство (обикновено с измерение 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които се комбинират, за да адекватно опишете обекта. Като пример за прилагане на вероятностно и статистическо моделиране и резултатите от статистиката на нечислови данни, ние обосноваваме съгласуваността на оценителите на измерението на данните в многомерно мащабиране, които бяха предложени преди това от Kruskal от евристични съображения. Разгледахме редица последователни оценки на размерността на моделите (в регресионния анализ и в теорията на класификацията). Даваме и малко информация за алгоритмите за намаляване на размерността в автоматизирания системно-когнитивен анализ

Текстът на научната работа на тема "Методи за намаляване на размерността на пространството на статистически данни"

UDC 519.2: 005.521:633.1:004.8

01.00.00 Физико-математически науки

МЕТОДИ ЗА НАМАЛЯВАНЕ НА РАЗМЕРНОСТТА НА ПРОСТРАНСТВОТО НА СТАТИСТИЧЕСКИ ДАННИ

Орлов Александър Иванович

Доктор на икономическите науки, доктор на техническите науки, д-р, професор

RSCI BRSH код: 4342-4994

Московски държавен технически

университет. Н.Е. Бауман, Русия, 105005,

Москва, ул. 2-ра Бауманская, 5, [имейл защитен] T

Луценко Евгений Вениаминович доктор по икономика, д-р, професор RSCI BRSH-код: 9523-7101 Кубански държавен аграрен университет, Краснодар, Русия [имейл защитен] com

Една от "точките на растеж" на приложната статистика са методите за намаляване на измерението на пространството от статистически данни. Те се използват все повече при анализа на данни в конкретни приложни изследвания, например социологически. Нека разгледаме най-обещаващите методи за намаляване на размерността. Анализът на главните компоненти е един от най-често използваните методи за намаляване на размерността. За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, разграничават се компактни клъстери от обекти и отделно разпределени вектори. Анализът на главните компоненти е един от методите на факторния анализ. Нова идея в сравнение с метода на главния компонент е, че въз основа на натоварванията факторите се разделят на групи. Едната група обединява фактори, които имат сходен ефект върху елементите на новата основа. След това се препоръчва да оставите по един представител от всяка група. Понякога, вместо да се избира представител чрез изчисление, се формира нов фактор, който е централен за въпросната група. Намаляването на размерността възниква при прехода към система от фактори, които са представители на групи. Останалите фактори се отхвърлят. Обширен клас от методи за многоизмерно мащабиране се основава на използването на разстояния (мерки за близост, индикатори за разлика) между характеристиките. Основната идея на този клас методи е да представи всеки обект като точка в геометричното пространство (обикновено с размери 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които заедно описват адекватно

UDC 519.2:005.521:633.1:004.8

Физика и математически науки

МЕТОДИ ЗА НАМАЛЯВАНЕ НА ПРОСТРАНСТВОТО НА СТАТИСТИЧЕСКИ ДАННИ

Александър Орлов

д-р по икономика, д-р по техн. наук, к.ф.-м.н.,

Московски държавен технически университет „Бауман“, Москва, Русия

Луценко Евгений Вениаминович д-р по икономика, кандидат технически науки, професор RSCI SPIN-код: 9523-7101

Кубански държавен аграрен университет, Краснодар, Русия

[имейл защитен] com

Една от "точките на растеж" на приложната статистика са методите за намаляване на измерението на статистическите данни. Те се използват все повече при анализа на данни в специфични приложни изследвания, като например социологията. Ние изследваме най-обещаващите методи за намаляване на размерността. Основните компоненти са един от най-често използваните методи за намаляване на размерността. За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено структурата на данните е ясно видима, подчертани компактни групи от обекти и отделно разпределени вектори. Основните компоненти са един метод за факторен анализ. Новата идея на факторния анализ в сравнение с метода на главните компоненти е, че въз основа на натоварванията факторите се разделят на групи. В една група фактори новият фактор се комбинира с подобно въздействие върху елементите на новата основа. След това всяка група се препоръчва да остави по един представител. Понякога, вместо избор на представител чрез изчисление, нов фактор, който е централен за въпросната група. Намалената размерност възниква при прехода към системните фактори, които са представители на групи. Други фактори се отхвърлят. Методите за многомерно мащабиране се основават на използването на разстояние (мерки за близост, индикатори за разлики) между характеристики и екстензивен клас. Основната идея на този клас методи е да представи всеки обект като точка от геометричното пространство (обикновено с измерение 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които се комбинират, за да адекватно опишете обекта. Като пример за прилагане на вероятностно и статистическо моделиране и резултатите от статистиката на нечислови данни, ние обосноваваме последователността на оценителите на

предмет. Като пример за прилагане на вероятностно-статистическо моделиране и резултатите от статистиката на нечислови данни, ние обосноваваме последователността на оценката на измерението на пространството от данни в многомерно мащабиране, предложено преди това от Kruskal от евристични съображения. Разглеждат се редица работи по оценка на размерите на моделите (в регресионния анализ и в теорията на класификацията). Дадена е информация за алгоритмите за намаляване на размерността в автоматизирания системно-когнитивен анализ.

Ключови думи: МАТЕМАТИКА, ПРИЛОЖНА СТАТИСТИКА, МАТЕМАТИЧЕСКА СТАТИСТИКА, ТОЧКИ НА РАСТЕЖ, МЕТОД НА ОСНОВНИ КОМПОНЕНТИ, ФАКТОРЕН АНАЛИЗ, МНОГОИЗМЕРНО СКАЛИРАНЕ, ИЗМЕРИТЕЛНА ОЦЕНКА НА ДАННИТЕ, МОДЕЛНА ИЗМЕРИТЕЛНА ОЦЕНКА

измерение на данните в многомерно мащабиране, които бяха предложени преди това от Kruskal от евристични съображения. Разгледахме редица последователни оценки на размерността на моделите (в регресионния анализ и в теорията на класификацията). Даваме и малко информация за алгоритмите за намаляване на размерността в автоматизирания системно-когнитивен анализ

Ключови думи: МАТЕМАТИКА ПРИЛОЖНА СТАТИСТИКА МАТЕМАТИЧЕСКА СТАТИСТИКА ТОЧКИ НА РАСТЕЖ ОСНОВНИЯТ КОМПОНЕНТЕН АНАЛИЗ ФАКТОРЕН АНАЛИЗ МНОГОИЗМЕРНО СКАЛИРАНЕ ОЦЕНКА НА ИЗМЕРЕНИЕТО НА ДАННИТЕ ОЦЕНКА НА ИЗМЕРЕНИЕТО НА МОДЕЛА

1. Въведение

Както вече беше отбелязано, една от „точките на растеж“ на приложната статистика са методите за намаляване на измерението на пространството на статистически данни. Те се използват все повече при анализа на данни в конкретни приложни изследвания, например социологически. Нека разгледаме най-обещаващите методи за намаляване на размерността. Като пример за прилагане на вероятностно-статистическо моделиране и резултатите от статистиката на нечислови данни, ще обосновем последователността на оценката на измерението на пространството, предложена преди това от Kruskal от евристични съображения.

При многовариантния статистически анализ всеки обект се описва от вектор, чиято размерност е произволна (но еднаква за всички обекти). Човек обаче може директно да възприема само числови данни или точки на равнина. Вече е много по-трудно да се анализират групи от точки в триизмерното пространство. Директното възприемане на данни с по-високо измерение е невъзможно. Следователно е съвсем естествено да искате да преминете от многовариантна извадка към данни с ниска размерност, така че „да могат да се използват за

виж". Например маркетолог може визуално да види колко различни видовепотребителско поведение (т.е. колко пазарни сегменти е целесъобразно да се отделят) и кои потребители (с какви свойства) са включени в тях.

Освен желанието за видимост има и други мотиви за намаляване на измерението. Онези фактори, от които не зависи променливата, която интересува изследователя, само пречат на статистическия анализ. Първо се изразходват финансови, времеви и човешки ресурси за събиране на информация за тях. Второ, както може да се докаже, включването им в анализа влошава свойствата на статистическите процедури (по-специално, увеличава дисперсията на оценките на параметрите и характеристиките на разпределенията). Ето защо е желателно да се отървете от такива фактори.

Когато се анализират многовариантни данни, обикновено се разглежда не един, а много проблеми, по-специално изборът на независими и зависими променливи по различен начин. Следователно, разгледайте проблема за намаляване на размерността в следната формулировка. Дадена е многовариантна извадка. Необходимо е да се премине от него към набор от вектори с по-малка размерност, като се запази максимално структурата на първоначалните данни, без да се губи информацията, съдържаща се в данните, ако е възможно. Задачата се конкретизира в рамките на всеки конкретен метод за намаляване на размерността.

2. Метод на главния компонент

Това е един от най-често използваните методи за намаляване на размерността. Основната му идея е последователно да идентифицира посоките, в които данните имат най-голямо разпространение. Нека извадката се състои от вектори, равномерно разпределени с вектора X = (x(1), x(2), ... , x(n)). Помислете за линейни комбинации

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Тук векторът X = (X(1), X(2), ..., X(n)) лежи върху единицата сфера в n-мерното пространство.

При метода на главния компонент най-напред се намира посоката на максималното разсейване, т.е. такова X, при което дисперсията на случайната променлива 7(X) = 7(X(1), X(2), ..., X(n)) достига своя максимум. Тогава векторът X определя първия главен компонент, а стойността 7(X) е проекцията на произволния вектор X върху оста на първия главен компонент.

След това, от гледна точка на линейната алгебра, се разглежда хиперравнина в n-мерното пространство, перпендикулярна на първия главен компонент, и всички елементи на извадката се проектират върху тази хиперравнина. Измерението на хиперравнината е с 1 по-малко от измерението на оригиналното пространство.

В разглежданата хиперравнина процедурата се повтаря. В него се открива посоката на най-голямото разпространение, т.е. втори основен компонент. След това разпределете хиперравнина, перпендикулярна на първите два главни компонента. Размерът му е 2 по-малък от размерите на оригиналното пространство. Следва следващата итерация.

От гледна точка на линейната алгебра, ние говорим за конструиране на нов базис в n-мерно пространство, чиито орти са главните компоненти.

Дисперсията, съответстваща на всеки нов основен компонент, е по-малка, отколкото за предишния. Обикновено те спират, когато е под даден праг. Ако са избрани k главни компоненти, това означава, че е възможно да се премине от n-мерното пространство към k-мерното, т.е. намалете размерността от p-до k, практически без да изкривявате структурата на изходните данни.

За визуален анализ на данни често се използват проекциите на оригиналните вектори върху равнината на първите два главни компонента. Обикновено

структурата на данните е ясно видима, разграничават се компактни групи от обекти и отделно разграничени вектори.

3. Факторен анализ

Анализът на главните компоненти е един от методите на факторния анализ. Различните алгоритми за факторен анализ са обединени от факта, че във всички тях има преход към нова основа в оригиналното n-мерно пространство. Важно е понятието „факторно натоварване“, което се използва за описване на ролята на първоначалния фактор (променлива) при формирането на определен вектор от нова основа.

Нова идея в сравнение с метода на главния компонент е, че въз основа на натоварванията факторите се разделят на групи. Едната група обединява фактори, които имат сходен ефект върху елементите на новата основа. След това се препоръчва да оставите по един представител от всяка група. Понякога, вместо да се избира представител чрез изчисление, се формира нов фактор, който е централен за въпросната група. Намаляването на размерността възниква при прехода към система от фактори, които са представители на групи. Останалите фактори се отхвърлят.

Описаната процедура може да се извърши не само с помощта на факторен анализ. Говорим за клъстерен анализ на признаци (фактори, променливи). За да се разделят характеристиките на групи, могат да се използват различни алгоритми за клъстерен анализ. Достатъчно е да въведете разстоянието (мярка за близост, индикатор за разлика) между характеристиките. Нека X и Y са две характеристики. Разликата d(X,Y) между тях може да бъде измерена с помощта на примерни корелационни коефициенти:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, където rn(X,Y) е примерен линеен коефициент на корелация на Пиърсън, pn(X, Y) - корелационен коефициент на извадка на Спирман.

4. Многомерно мащабиране.

Обширен клас от многоизмерни методи за мащабиране се основава на използването на разстояния (мерки за близост, индикатори за разлика) d (X, Y) между характеристики X и Y. Основната идея на този клас методи е да представи всеки обект чрез точка в геометричното пространство (обикновено с размерност 1, 2 или 3), чиито координати са стойностите на скритите (латентни) фактори, които заедно описват адекватно обекта. В този случай връзките между обектите се заменят с отношения между точките - техни представители. И така, данните за сходството на обектите - чрез разстоянията между точките, данните за превъзходството - чрез взаимното разположение на точките.

5. Проблемът за оценка на истинската размерност на факторното пространство

В практиката на анализ на социологически данни се използват редица различни многомерни скалиращи модели. Всички те са изправени пред проблема за оценка на истинското измерение на факторното пространство. Нека разгледаме този проблем, използвайки примера за обработка на данни за сходството на обекти, използвайки метрично мащабиране.

Нека има n обекта 0(1), O(2), ..., O(n), за всяка двойка обекти 0(/), O(j) е дадена мярка за тяхното сходство s(ij). Приемаме, че винаги s(i,j) = s(j,i). Произходът на числата s(ij) няма значение за описанието на работата на алгоритъма. Те могат да бъдат получени или чрез директно измерване, или с помощта на експерти, или чрез изчисление от набор от описателни характеристики, или по някакъв друг начин.

В евклидовото пространство разглежданите n обекта трябва да бъдат представени чрез конфигурация от n точки, а евклидовото разстояние d(i,j)

между съответните точки. Степента на съответствие между набор от обекти и набор от точки, които ги представят, се определя чрез сравняване на матриците на подобие ||i(,)|| и разстояния Функционалът за сходство на CMM-метриката има формата

i = t|*(/, ]) - d(/, M

Геометричната конфигурация трябва да бъде избрана така, че функционалът S да достигне своята минимална стойност.

Коментирайте. При неметрично мащабиране, вместо близостта на самите мерки за близост и разстояния, се разглежда близостта на подрежданията върху набора от мерки за близост и набора от съответните разстояния. Вместо функционалния S се използват аналози на коефициентите на рангова корелация на Spearman и Kendall. С други думи, неметричното мащабиране предполага, че мерките за близост се измерват по порядъчна скала.

Нека евклидовото пространство има размерност m. Помислете за минимума на средната квадратна грешка

където минимумът се приема за всички възможни конфигурации от n точки в m-мерното евклидово пространство. Може да се покаже, че разглежданият минимум се постига при някаква конфигурация. Ясно е, че с увеличаването на m стойността на am намалява монотонно (по-точно не нараства). Може да се покаже, че за m > n - 1 то е равно на 0 (ако е метрика). За да се увеличат възможностите за смислена интерпретация, е желателно да се действа в пространство с възможно най-малко измерение. В този случай обаче размерът трябва да бъде избран така, че точките да представляват обекти без големи изкривявания. Възниква въпросът: как рационално да се избере измерението на пространството, т.е. естествено число t?

6. Модели и методи за оценка на размерността на пространството от данни

В рамките на детерминистичния анализ на данни изглежда няма разумен отговор на този въпрос. Следователно е необходимо да се изследва поведението на am в определени вероятностни модели. Ако мерките за близост s(ij) са случайни променливи, чието разпределение зависи от „истинското измерение“ m0 (и, вероятно, от някои други параметри), тогава можем да поставим проблема за оценка на m0 в класическия математико-статистически стил, вижте за последователни оценки и др.

Нека започнем да изграждаме вероятностни модели. Предполагаме, че обектите са точки в евклидово пространство с размерност k, където k е достатъчно голямо. Фактът, че "истинското измерение" е равно на m0 означава, че всички тези точки лежат на хиперравнина с измерение m0. Нека приемем за определеност, че разглежданото множество от точки е извадка от кръгово нормално разпределение с дисперсия o(0). Това означава, че обектите 0(1), 0(2), ..., O(n) са взаимно независими произволни вектори, всеки от които е конструиран като

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), където e(1), e(2), ... , e(m0) е ортонормална база в подпространството с размерност m0, в която лежат разглежданите точки, а Z(1), Z(2), , Z(m0) са взаимно независими едномерни нормални случайни променливи с математическо очакване 0 и дисперсия o (0).

Разгледайте два модела за получаване на мерки за близост s(ij). В първия от тях s(ij) се различава от евклидовото разстояние между съответните точки поради факта, че точките са известни с изкривявания. Нека c(1), c(2), ... , c(n) са разглежданите точки. Тогава

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

където d е евклидовото разстояние между точките в d-мерното пространство, векторите e(1), e(2), ... , e(n) са извадка от кръговото нормално разпределение в d-мерното пространство с нулево математическо очакване и ковариационната матрица o (1)/, където I е единичната матрица. С други думи,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), където e(1), e(2), ..., e(k) е ортонормална база в ^-мерното пространство и [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - множество от едномерни случайни променливи, независими в множеството с нулево математическо очакване и дисперсия o (1).

Във втория модел изкривяванията се налагат директно върху самите разстояния:

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

където и , като на първия интервал намалява по-бързо отколкото на втория. От това следва, че статистиката

m* = Arg minam+1 - 2am + an-x)

е последователна оценка на истинското измерение на m0.

И така, от вероятностната теория следва препоръка - да се използва m* като оценка на размерността на факторното пространство. Имайте предвид, че такава препоръка е формулирана като евристична от един от основателите на многомерното скалиране, J. Kraskal. Той изхожда от опита от практическото използване на многомерно мащабиране и изчислителни експерименти. Вероятностната теория направи възможно обосноваването на тази евристична препоръка.

7. Оценка на размерите на модела

Ако възможните подмножества от признаци образуват разширяващо се семейство, например се оценява степента на полином, тогава е естествено да се въведе терминът „измерение на модела“ (това понятие е в много отношения подобно на понятието за измерение на пространството от данни, използвано в многомерно мащабиране). Авторът на тази статия притежава редица разработки за оценка на размерността на модела, които си струва да се сравнят с работите за оценка на размерността на пространството от данни, обсъдени по-горе.

Първата такава работа е извършена от автора на тази статия по време на командировка във Франция през 1976 г. В нея е изследвана една оценка на размерността на модела в регресията, а именно оценката на степента на полином при допускането, че зависимостта се описва с полином. Тази оценка беше известна в литературата, но по-късно беше погрешно приписана на автора на тази статия, който само проучи нейните свойства, по-специално установи, че тя не е последователна, и намери нейното ограничаващо геометрично разпределение. Други, вече последователни оценки на измерението на регресионния модел бяха предложени и проучени в статията. Този цикъл беше завършен с произведение, съдържащо редица пояснения.

Последната публикация по тази тема включва обсъждане на резултатите от изследване на скоростта на сходимост в граничните теореми, получени по метода на Монте Карло.

В статията се разглеждат методологически сходни оценки на размерността на модела в проблема за разделяне на смеси (част от теорията на класификацията).

Оценките на измерението на модела, разгледани по-горе при многомерно мащабиране, са изследвани в работите. В същите работи е установено ограничаващото поведение на характеристиките на метода на главните компоненти (с помощта на асимптотичната теория за поведението на решенията на екстремални статистически проблеми).

8. Алгоритми за намаляване на измерението в автоматизирана система за когнитивен анализ

В автоматизирания системно-когнитивен анализ (ASC-анализ) е предложен и внедрен в системата "Eidos" друг метод за намаляване на размерността. Описано е в работата в раздели 4.2 „Описание на алгоритми за основни когнитивни операции на системен анализ (BCOSA)“ и 4.3 „Подробни алгоритми за BCOSA (ASC анализ)“. Да донесем Кратко описаниедва алгоритъма - BKOSA-4.1 и BKOSA-4.2.

БКОСА-4.1. „Абстракция на фактори (намаляване на измерението на семантичното пространство на факторите)“

Използвайки метода на последователните приближения (итеративен алгоритъм), при зададени гранични условия, размерността на атрибутното пространство се намалява без значително намаляване на обема му. Критерият за спиране на итеративния процес е постигането на едно от граничните условия.

БКОСА-4.2. „Абстрахиране на класове (намаляване на измерението на семантичното пространство на класовете)“

Използвайки метода на последователните приближения (итеративен алгоритъм), при зададени гранични условия, размерността на класовото пространство се намалява без значително намаляване на неговия обем. Критерият за спиране на итеративния процес е постигането на едно от граничните условия.

Ето всички реални алгоритми, внедрени в системата Eidos на версията, която е внедрена по време на подготовката на работата (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Същността на алгоритмите е следната.

1. Изчислява се количеството информация в стойностите на факторите за прехода на обекта към състоянията, съответстващи на класовете.

2. Стойността на стойността на фактора се изчислява за разграничаване на обекти по класове. Тази стойност е просто променливостта на информативността на стойностите на фактора (има много количествени мерки за променливост: средното отклонение от средната стойност, стандартното отклонение и т.н.). С други думи, ако средната стойност на даден фактор съдържа малко информация за това дали даден обект принадлежи към клас или не, тогава тази стойност не е много ценна, а ако има много, тогава е ценна.

3. Изчислява се стойността на описателните скали за разграничаване на обекти по класове. В произведенията на E.V. Луценко сега това се прави като средна стойност на градациите на тази скала.

4. След това се извършва оптимизация на Парето на стойностите на факторите и описателните скали:

Стойностите на факторите (градации на описателни скали) се подреждат в низходящ ред на стойност и най-малко ценните, които отиват вдясно от допирателната към кривата на Парето 45°, се премахват от модела;

Факторите (дескриптивни скали) се класират в низходящ ред на стойност и най-малко ценните фактори, които отиват вдясно от допирателната към 45° крива на Парето, се премахват от модела.

В резултат на това измерението на пространството, изградено върху описателни мащаби, е значително намалено поради премахването на мащабите, които корелират помежду си, т.е. всъщност това е ортонормирането на пространството в информационната метрика.

Този процес може да се повтори, т.е. бъде итеративен, докато нова версияИтерациите на системата "Eidos" се стартират ръчно.

Информационното пространство на класовете се ортонормира по подобен начин.

Скалите и градациите им могат да бъдат числови (в този случай се обработват интервални стойности), а също така могат да бъдат текстови (редни или дори номинални).

По този начин, с помощта на алгоритмите BKOSA (ASK-анализ), измерението на пространството се намалява максимално с минимална загуба на информация.

Редица други алгоритми за намаляване на размерността са разработени за анализ на статистически данни в приложната статистика. Целите на тази статия не включват описание на цялото разнообразие от такива алгоритми.

Литература

1. Орлов А.И. Точки на растеж на статистическите методи // Политематично мрежово електронно научно списание на Кубанския държавен аграрен университет. 2014. № 103. С. 136-162.

2. Kraskal J. Връзка между многомерно мащабиране и клъстерен анализ // Класификация и клъстер. М.: Мир, 1980. С.20-41.

4. Харман Г. Модерен факторен анализ. М.: Статистика, 1972. 489 с.

5. Орлов А.И. Бележки по теорията на класификацията. / Социология: методология, методи, математически модели. 1991. № 2. С.28-50.

6. Орлов А.И. Основни резултати от математическата теория на класификацията // Политематично мрежово електронно научно списание на Кубанския държавен аграрен университет. 2015. № 110. С. 219-239.

7. Орлов А.И. Математически методи на теорията на класификацията // Политематично мрежово електронно научно списание на Кубанския държавен аграрен университет. 2014. № 95. С. 23 - 45.

8. Терехина А.Ю. Анализ на данни чрез методи за многомерно мащабиране. -М .: Наука, 1986. 168 с.

9. Перекрест В. Т. Нелинеен типологичен анализ на социално-икономическа информация: Математически и изчислителни методи. - Л.: Наука, 1983. 176 с.

10. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Анализ на нечислова информация. М.: Научен съвет на Академията на науките на СССР по комплексния проблем "Кибернетика", 1981. - 80 с.

11. Орлов А.И. Общ поглед върху статистиката на обекти с нечислова природа // Анализ на нечислова информация в социологическите изследвания. - М.: Наука, 1985. С.58-92.

12. Орлов А.И. Ограничаващо разпределение на една оценка на броя на базисните функции в регресия // Приложен многомерен статистически анализ. Научни бележки по статистика, т.33. - М.: Наука, 1978. С.380-381.

13. Орлов А.И. Оценка на измерението на модела в регресия // Алгоритмично и софтуерприложен статистически анализ. Научни бележки по статистика, т.36. - М.: Наука, 1980. С. 92-99.

14. Орлов А.И. Асимптотика на някои оценки на измерението на модела в регресия // Приложна статистика. Научни бележки по статистика, т.45. - М.: Наука, 1983. С.260-265.

15. Орлов А.И. Относно оценката на регресионния полином // Zavodskaya лаборатория. материална диагностика. 1994. Т.60. № 5. С.43-47.

16. Орлов А.И. Някои вероятностни въпроси в теорията на класификацията // Приложна статистика. Научни бележки по статистика, т.45. - М.: Наука, 1983. С. 166-179.

17. Орлов А.И. За развитието на статистиката на нечислови обекти // Проектиране на експерименти и анализ на данни: нови тенденции и резултати. - М.: АНТАЛ, 1993. Р.52-90.

18. Орлов А.И. Методи за намаляване на размерите // Приложение 1 към книгата: Толстова Ю.Н. Основи на многомерното мащабиране: Урокза университети. - М.: Издателство КДУ, 2006. - 160 с.

19. Орлов А.И. Асимптотика на решения на екстремални статистически проблеми // Анализ на нечислови данни в системните изследвания. Сборник с произведения. Проблем. 10. - М.: Всесъюзен научноизследователски институт за системни изследвания, 1982. С. 412.

20. Орлов А.И. Организационно-икономическо моделиране: учебник: в 3 ч. Част 1: Нечислова статистика. - М .: Издателство на MSTU im. Н.Е. Бауман. - 2009. - 541 с.

21. Луценко Е.В. Автоматизиран системно-когнитивен анализ в управлението на активни обекти (системна теория на информацията и нейното приложение при изследване на икономически, социално-психологически, технологични и организационно-технически системи): Монография (научно издание). -Краснодар: КубГАУ. 2002. - 605 с. http://elibrary.ru/item.asp?id=18632909

1. Орлов А.И. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 103. С. 136-162.

2. Краскал Дж. Взаимосвязь" между многомерным скалированием и кластер-анализом // Класификация и кластер. М.: Мир, 1980. С.20-41.

3. Kruskal J.B., Wish M. Многомерно мащабиране // Серия документи на Sage University: Качествени приложения в социалните науки. 1978. № 11.

4. Харман Г. Съвременен факторен анализ. М.: Статистика, 1972. 489 с.

5. Орлов А.И. Бележки по теория на класификацията. / Социология: методология, методи, математически модели. 1991. № 2. С.28-50.

6. Орлов А.И. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. № 110. S. 219-239.

7. Орлов А.И. Математически методи на теорията на класификацията // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 95. С. 23 - 45.

8. Терехина А.Ю. Analiz dannyh metodami mnogomernogo shkalirovanija. - М.: Наука, 1986. 168 с.

9. Перекрест В.Т. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - Л.: Наука, 1983. 176 с.

10. Tjurin J.N., Литвак B.G., Орлов A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. М.: Научный Совет на АН СССР по комплексной проблеме "Кибернетика", 1981. - 80 с.

11. Орлов А.И. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - М.: Наука, 1985. С.58-92.

12. Орлов А.И. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Орлов А.И. Ocenka razmernosti modeli v regressii // Algoritmicheskoe и programmnoe obespechenie prikladnogo statisticheskogo analiz. Ученые записки по статистика, т.36. - М.: Наука, 1980. С.92-99.

14. Орлов А.И. Asimptotika nekotoryh ocena razmernosti modeli v regressii // Prikladnaja statistika. Ученые записки по статистика, т.45. - М.: Наука, 1983. С.260-265.

15. Орлов А.И. Об оценката на регресионния полином // Zavodskaja laboratorija. Диагностични материали. 1994. Т.60. № 5. С.43-47.

16. Орлов А.И. Някои вероятностные въпроси на теорията на класификацията // Прикладная статистика. Ученые записки по статистика, т.45. - М.: Наука, 1983. С.166-179.

17. Орлов А.И. За развитието на статистиката на нечислови обекти // Проектиране на експерименти и анализ на данни: нови тенденции и резултати. - М.: АНТАЛ, 1993. Р.52-90.

18. Орлов А.И. Metody snizhenija razmernosti // Prilozhenie 1 k книга: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - М.: Издател "ство КДУ, 2006. - 160 с.

19. Орлов А.И. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Орлов А.И. Организационно-икономическо моделиране: учебник: в 3 гл. Част" 1: Nechislovaja statistika. - М.: Изд-во МГТУ им. Н. Й. Баумана. - 2009. - 541 с.

21. Луценко Е.В. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Монография (nauchnoe izdandarie). 605 s. http://elibrary .ru/item.asp?id=18632909

Намаляване на размерите (намаляване на данни)

IN аналитични технологиинамаляването на размерността на данните се разбира като процес на трансформиране на данните в най-удобната форма за анализ и интерпретация. Обикновено това се постига чрез намаляване на техния обем, намаляване на броя на използваните функции и разнообразието на техните стойности.

Често анализираните данни са непълни, когато отразяват слабо зависимостите и моделите на изследваните бизнес процеси. Причините за това могат да бъдат недостатъчен брой наблюдения, липса на знаци, които отразяват основните свойства на обектите. В този случай се прилага обогатяване на данни.

Намаляването на размерността се прилага в обратния случай, когато данните са излишни. Излишък възниква, когато проблемът с анализа може да бъде решен със същото ниво на ефективност и точност, но с помощта на по-малко измерение на данните. Това дава възможност да се намалят времето и изчислителните разходи за решаване на проблема, да се направят данните и резултатите от техния анализ по-интерпретируеми и разбираеми за потребителя.

Намаляването на броя на наблюденията на данните се прилага, ако може да се получи решение със сравнимо качество върху извадка с по-малък размер, като по този начин се намаляват изчислителните и времевите разходи. Това е особено вярно за алгоритми, които не са мащабируеми, когато дори малко намаляване на броя на записите води до значителна печалба в изчислителното време.

Има смисъл да се намали броят на характеристиките, когато информацията, необходима за качествено решаване на проблема, се съдържа в определено подмножество от характеристики и не е необходимо да се използват всички. Това е особено вярно за корелирани черти. Например характеристиките "Възраст" и "Трудов стаж" по същество носят една и съща информация, така че една от тях може да бъде изключена.

Най-ефективният начин за намаляване на броя на характеристиките е факторният анализ и анализът на главните компоненти.

Намаляването на разнообразието от стойности на характеристиките има смисъл, например, ако точността на представяне на данните е прекомерна и могат да се използват цели числа вместо реални стойности, без да се компрометира качеството на модела. Но в същото време количеството памет, заемано от данните, и изчислителните разходи ще намалеят.

Подмножеството от данни, получено в резултат на намаляване на размерността, трябва да наследи от оригиналния набор толкова информация, колкото е необходимо за решаване на проблема с дадена точност, а изчислителните и времеви разходи за намаляване на данните не трябва да обезценяват ползите, получени от него.

Аналитичен модел, изграден върху намален набор от данни, трябва да стане по-лесен за обработка, прилагане и разбиране от модел, изграден върху оригиналния набор.

Решението за избор на метод за намаляване на размерността се основава на предварителни познания за характеристиките на решавания проблем и очакваните резултати, както и ограниченото време и изчислителни ресурси.



Зареждане...
Връх