Зниження розмірності. Оцінка методів зменшення розмірності даних, що застосовуються для перетворення відеопотоку при ідентифікації особи Сутність проблеми зниження розмірності та різні методи її вирішення

  • У статистиці, машинному навчанні та теорії інформації зниження розмірності - це перетворення даних, що полягає у зменшенні кількості змінних шляхом отримання основних змінних. Перетворення можна розділити на відбір ознак і виділення ознак.

Пов'язані поняття

Згадки у літературі

– завантаження та передобробка вхідних даних, – ручна та автоматична розмітка стимульних матеріалів (виділення зон інтересу), – алгоритм обчислення матриці подання наступника, – побудова розширеної таблиці даних зі значеннями вхідних змінних, необхідних для подальшого аналізу, – метод зниження розмірностіпростору ознак (метод основних компонентів), – візуалізація компонентних навантажень для вибору интерпретируемых компонент, – алгоритм навчання дерева рішень, – алгоритм оцінки передбачуваної спроможності дерева, – візуалізація дерева решений.

Пов'язані поняття (продовження)

Техніки спектральної кластеризації використовують спектр (власні значення) матриці подібності даних реалізації зниження розмірності перед кластеризацією в просторах менших размерностей. Матриця подібності подається як вход і складається з кількісних оцінок відносної схожості кожної пари точок даних.

Спектральні методи - це клас технік, що використовуються в прикладній математиці для чисельного розв'язання деяких диференціальних рівнянь, можливо залучаючи Швидке перетворення Фур'є. Ідея полягає у переписі розв'язання диференціальних рівнянь як суми деяких «базисних функцій» (наприклад, як ряди Фур'є є сумою синусоїд), а потім вибрати коефіцієнти у сумі, щоб задовольнити диференціальне рівняння, наскільки це можливо.

Математичний аналіз (класичний математичний аналіз) - сукупність розділів математики, що відповідають історичному розділу під найменуванням «аналіз нескінченно малих», поєднує диференціальне та інтегральне обчислення.

Диференціальна еволюція (англ. differential evolution) - метод багатовимірної математичної оптимізації, що відноситься до класу стохастичних алгоритмів оптимізації (тобто працює з використанням випадкових чисел) і використовує деякі ідеї генетичних алгоритмів, але, на відміну від них, не вимагає роботи зі змінними код.

Метод дискретного елемента (DEM, від англ. Discrete element method) - це сімейство чисельних методів, призначених для розрахунку руху великої кількості частинок, таких як молекули, піщинки, гравій, галька та інших гранульованих середовищ. Спосіб був спочатку застосований Cundall в 1971 для вирішення завдань механіки гірських порід.

В результаті вивчення матеріалу глави 5 учень повинен:

знати

  • основні поняття та завдання зниження розмірності:
  • підходи до розв'язання задач трансформації ознакового простору;

вміти

  • використовувати метод основних компонент переходу до стандартизованим ортогональним ознаками;
  • оцінювати зменшення інформативності даних у разі зниження розмірності ознакового простору;
  • вирішувати задачу побудови оптимальних багатовимірних шкал на дослідження об'єктів;

володіти

  • методами зниження розмірності на вирішення прикладних завдань статистичного аналізу;
  • навичками інтерпретації змінних у перетвореному ознаковому просторі.

Основні поняття та завдання зниження розмірності

На перший погляд, чим більше інформації про об'єкти дослідження у вигляді сукупності ознак, що характеризують їх, буде використано для створення моделі, тим краще. Однак, надмірний обсяг інформації може призвести до зниження ефективності аналізу даних. Існує навіть термін "прокляття розмірності" (curse of dimensionality), що характеризує проблеми роботи з високорозмірними даними. З необхідністю зниження розмірності у тій чи іншій формі пов'язане вирішення різних статистичних проблем.

Неінформативні ознаки є джерелом додаткового шуму та впливають на точність оцінки параметрів моделі. Крім того, набори даних з великим числом ознак можуть містити групи змінних, що корелюються. Наявність таких груп ознак означає дублювання інформації, що може спотворювати специфікацію моделі та проводити якість оцінки її параметрів. Чим вище розмірність даних, тим вищий обсяг обчислень при їхній алгоритмічній обробці.

Можна виділити два напрямки зниження розмірності ознакового простору за принципом використовуваних при цьому змінних: відбір ознак з наявного вихідного набору і формування нових ознак шляхом трансформації початкових даних. В ідеальному випадку скорочене представлення даних повинно мати розмірність, що відповідає розмірності, внутрішньо властивій даним (intrinsic dimensionality).

Пошук найбільш інформативних ознак, що характеризують досліджуване явище, є очевидним напрямом зниження розмірності завдання, що не вимагає перетворення вихідних змінних. Це дозволяє зробити модель більш компактною і уникнути втрат, пов'язаних з дією малоінформативних ознак. Відбір інформативних ознак полягає у пошуку найкращого підмножини з множини всіх вихідних змінних. Критеріями поняття " найкраще " можуть бути або найвищу якість моделювання при заданої розмірності ознакового простору, або найменша розмірність даних, коли він можливе побудова моделі заданого якості.

Пряме вирішення завдання створення найкращої моделі пов'язане з перебором всіх можливих поєднань ознак, що зазвичай є надмірно трудомістким. Тому, як правило, вдаються до прямої чи зворотної селекції ознак. У процедурах прямого відбору проводиться послідовне додавання змінних вихідного набору до досягнення необхідної якості моделі. У алгоритмах послідовної редукції вихідного ознакового простору (зворотної селекції) провадиться поетапне видалення найменш інформативних змінних до допустимого зниження інформативності моделі.

Слід враховувати, що інформативність ознак є відносною. Відбір повинен забезпечити високу інформативність набору ознак, а чи не сумарну інформативність складових його змінних. Так, наявність кореляції між ознаками знижує їхню загальну інформативність внаслідок дублювання загальної їм інформації. Тому додавання нової ознаки до вже відібраних забезпечує приріст інформативності в тій мірі, в якій він містить корисну інформацію, яка відсутня раніше обраних змінних. Найпростішою є ситуація відбору взаємно ортогональних ознак, у якій алгоритм відбору реалізується гранично просто: змінні ранжуються за інформативністю, і використовується такий склад перших у цьому рейтингу ознак, що забезпечує задану інформативність.

Обмеженість методів відбору ознак з метою зниження розмірності простору пов'язана з припущенням про безпосередню присутність необхідних ознак у вихідних даних, що зазвичай виявляється неправильним. Альтернативний підхід до зниження розмірності передбачає перетворення ознак у скорочений набір нових змінних. На відміну від відбору вихідних ознак формування нового ознакового простору передбачає створення нових змінних, які є функціями вихідних ознак. Ці змінні, що безпосередньо не спостерігаються, часто називають прихованими, або латентними.У процесі створення ці змінні можуть бути наділені різними корисними властивостями, такими як ортогональність. Насправді вихідні ознаки зазвичай взаємопов'язані, тому трансформація їхнього простору в ортогональне породжує нові координати-ознаки, у яких відсутня ефект дублювання інформації про досліджувані об'єкти.

Відображення об'єктів у новому ортогональному ознаковому просторі створює можливість наочно уявити корисність кожної з ознак з погляду різниці між цими об'єктами. Якщо координати нового базису впорядкувати за дисперсією, що характеризує розкид значень по ним для аналізованих спостережень, стає очевидною непотрібність з практичної точки зору деяких ознак з малими значеннями дисперсій, так як об'єкти за цими ознаками практично невиразні в порівнянні з їх відмінностями по більш інформативним змінним. У такій ситуації можна говорити про так зване виродження вихідного ознакового простору з kзмінних і реальна розмірність цього простору тможе бути менше вихідної (m< k).

p align="justify"> Редукція ознакового простору супроводжується певним зниженням інформативності даних, але рівень допустимого зниження може бути визначений заздалегідь. Виділення ознак проектує набір вихідних змінних у простір меншої розмірності. Стиснення ознакового простору до двох-тривимірного може бути корисним для візуалізації даних. Таким чином, процес формування нового ознакового простору зазвичай призводить до меншого набору реально інформативних змінних. На їх основі може бути побудована якісніша модель як заснована на меншому числі найбільш інформативних ознак.

Формування нових змінних на основі вихідних використовується для латентно-семантичного аналізу, стиснення даних, класифікації та розпізнавання образів, підвищення швидкості та ефективності процесів навчання. Стислі дані зазвичай застосовуються для подальшого аналізу та моделювання.

Одним з важливих додатків трансформації ознакового простору та зниження розмірності є побудова синтетичних латентних категорій на основі значень, що вимірюваються. Ці латентні ознаки можуть характеризувати загальні певні риси досліджуваного явища, що інтегрують приватні властивості об'єктів, що спостерігаються, що дозволяє будувати інтегральні індикатори різних рівнів узагальнення інформації.

Істотна роль методів редукції ознакового простору у дослідженні проблеми дублювання інформації у вихідних ознаках, що призводить до "розбухання" дисперсії оцінок коефіцієнтів регресійних моделей. Перехід до нових, в ідеальному випадку ортогональним та змістовно інтерпретованим, змінним є ефективним засобом моделювання в умовах мультиколінеарності вихідних даних.

Перетворення вихідного ознакового простору в ортогональне зручно для вирішення завдань класифікації, оскільки дозволяє обґрунтовано застосовувати певні заходи близькості або відмінностей об'єктів, такі як відстань евкліда або квадрат евклідова відстані. У регресійному аналізі побудова рівняння регресії на головних компонентах дозволяє вирішити проблему мультиколінеарності.

У багатовимірному статистичному аналізі кожен об'єкт описується вектором, розмірність якого довільна (але та сама для всіх об'єктів). Проте людина може безпосередньо сприймати лише числові дані чи точки на площині. Аналізувати накопичення точок у тривимірному просторі вже набагато складніше. Безпосереднє сприйняття даних вищої розмірності неможливе. Тому цілком природним є бажання перейти від багатовимірної вибірки до даних невеликої розмірності, щоби «на них можна було подивитися».

Крім прагнення наочності, є й інші мотиви зниження розмірності. Ті чинники, яких цікава дослідника змінна залежить, лише заважають статистичного аналізу. По-перше, збирання інформації про них витрачаються ресурси. По-друге, як можна довести, їхнє включення в аналіз погіршує властивості статистичних процедур (зокрема, збільшує дисперсію оцінок параметрів та характеристик розподілів). Тому бажано позбавитися таких факторів.

Обговоримо з погляду зниження розмірності приклад використання регресійного аналізу для прогнозування обсягу продажу, розглянутий у підрозділі 3.2.3. По-перше, у цьому прикладі вдалося скоротити кількість незалежних змінних з 17 до 12. По-друге, вдалося сконструювати новий фактор – лінійну функцію від 12 згаданих факторів, яка краще за всіх інших лінійних комбінацій факторів прогнозує обсяг продажів. Тому можна сказати, що в результаті розмірність завдання зменшилася з 18 до 2. Зокрема, залишився один незалежний фактор (наведена в підрозділі 3.2.3 лінійна комбінація) та один залежний – обсяг продажу.

При аналізі багатовимірних даних зазвичай розглядають не одну, а безліч завдань, зокрема, по-різному вибираючи незалежні та залежні змінні. Тому розглянемо завдання зниження розмірності у наступному формулюванні. Дана багатовимірна вибірка. Потрібно перейти від неї до сукупності векторів меншої розмірності, максимально зберігши структуру вихідних даних, по можливості не втрачаючи інформації, що містяться в даних. Завдання конкретизується у межах кожного конкретного способу зниження размерности.

Метод основних компонентє одним із найбільш часто використовуваних методів зниження розмірності. Основна його ідея полягає у послідовному виявленні напрямків, у яких дані мають найбільший розкид. Нехай вибірка складається з векторів, однаково розподілених із вектором X = (x(1), x(2), … , x(n)). Розглянемо лінійні комбінації

Y(λ(1), λ(2), …, λ( n)) = λ(1) x(1) + λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Тут вектор λ = (λ(1), λ(2), …, λ( n)) лежить на одиничній сфері в n-мірному просторі.

У способі основних компонент передусім знаходять напрям максимального розкиду, тобто. таке λ, при якому досягає максимуму дисперсія випадкової величини Y(λ) = Y(λ(1), λ(2), …, λ( n)). Тоді вектор λ визначає першу головну компоненту, а величина Y(λ) є проекцією випадкового вектора Хна вісь першої головної компоненти.

Потім, висловлюючись термінами лінійної алгебри, розглядають гіперплощину n-мірному просторі, перпендикулярній першій головній компоненті, і проектують на цю гіперплощину всі елементи вибірки. Розмірність гіперплощини на 1 менша, ніж розмірність вихідного простору.

У аналізованої гіперплощині процедура повторюється. У ньому знаходять напрям найбільшого розкиду, тобто. другу головну компоненту. Потім виділяють гіперплощину, перпендикулярну першим двом головним компонентам. Її розмірність на 2 менша, ніж розмірність вихідного простору. Далі – наступна ітерація.

З погляду лінійної алгебри йдеться про побудову нового базису n-мірному просторі, ортами якого є основні компоненти.

Дисперсія, що відповідає кожній новій головній компоненті, менша, ніж для попередньої. Зазвичай зупиняються, коли вона менша за заданий поріг. Якщо відібрано kосновних компонентів, це означає, що від n-мірного простору вдалося перейти до k- мірному, тобто. скоротити розмірність з n-до k, практично не спотворивши структуру вихідних даних .

Для візуального аналізу даних часто використовують проекції вихідних векторів на площину перших двох основних компонентів. Зазвичай добре видно структуру даних, виділяються компактні кластери об'єктів і вектори, що окремо виділяються.

Метод головних компонент є одним із методів факторного аналізу. Різні алгоритми факторного аналізу об'єднані тим, що у всіх них відбувається перехід до нового базису у вихідному n-мірному просторі. Важливим є поняття «навантаження фактора», яке застосовується для опису ролі вихідного фактора (змінної) у формуванні певного вектора з нового базису.

Нова ідея проти методом головних компонент у тому, що у основі навантажень відбувається розбиття чинників групи. В одну групу поєднуються фактори, що мають подібний вплив на елементи нового базису. Потім із кожної групи рекомендується залишити одного представника. Іноді замість вибору представника розрахунковим шляхом формується новий фактор, що є центральним для групи, що розглядається. Зниження розмірності відбувається за переходу до системи чинників, є представниками груп. Інші чинники відкидаються.

Описана процедура може бути здійснена не лише за допомогою факторного аналізу. Йдеться про кластер-аналіз ознак (чинників, змінних). Для розбиття ознак групи можна застосовувати різні алгоритми кластер-аналізу. Достатньо ввести відстань (заходи близькості, показник відмінності) між ознаками. Нехай Хі У– дві ознаки. Відмінність d(X, Y) між ними можна вимірювати за допомогою вибіркових коефіцієнтів кореляції:

d 1 (X,Y) = 1 – r n(X,Y), d 2 (X,Y) = 1 - ρ n(X,Y),

де r n(X, Y) – вибірковий лінійний коефіцієнт кореляції Пірсона, ρ n(X, Y) - вибірковий коефіцієнт рангової кореляції Спірмена.

Багатовимірне шкалювання. На використанні відстаней (мір близькості, показників відмінності) d(X, Y) між ознаками Хі Узаснований великий клас методів багатовимірного шкалювання. Основна ідея цього класу методів полягає у поданні кожного об'єкта точкою геометричного простору (зазвичай розмірності 1, 2 або 3), координатами якої служать значення прихованих (латентних) факторів, що в сукупності досить адекватно описують об'єкт. При цьому відносини між об'єктами замінюються відносинами між точками – їхніми представниками. Так, дані про схожість об'єктів - відстанями між точками, дані про перевагу - взаємним розташуванням точок.

У практиці використовують ряд різних моделей багатовимірного шкалювання. У всіх них постає проблема оцінки істинної розмірності факторного простору. Розглянемо цю проблему з прикладу обробки даних про подібність об'єктів з допомогою метричного шкалирования.

Нехай є nоб'єктів Про(1), Про(2), …, O(n), для кожної пари об'єктів Про(i), O(j) задана міра їх подібності s(i, j). Вважаємо, що завжди s(i, j) = s(j, i). Походження чисел s(i, j) немає значення для опису роботи алгоритму. Вони могли бути отримані або безпосереднім виміром, або з використанням експертів, або шляхом обчислення сукупності описових характеристик, або якось інакше.

В евклідовому просторі розглядаються nоб'єктів мають бути представлені конфігурацією nточок, причому як міра близькості точок-представників виступає евклідова відстань d(i, j) між відповідними точками. Ступінь відповідності між сукупністю об'єктів і сукупністю точок, що їх представляють, визначається шляхом зіставлення матриць подібності || s(i, j)|| та відстаней || d(i, j)||. Метричний функціонал подібності має вигляд

Геометричну конфігурацію треба вибирати так, щоб функціонал S досягав найменшого значення .

Зауваження.У неметричному шкалюванні замість близькості самих заходів близькості та відстаней розглядається близькість упорядковань на безлічі заходів близькості та безлічі відповідних відстаней. Замість функціоналу Sвикористовуються аналоги рангових коефіцієнтів кореляції Спірмена та Кендала. Іншими словами, неметричне шкалювання виходить із припущення, що міри близькості виміряні у порядковій шкалі.

Нехай евклідовий простір має розмірність m. Розглянемо мінімум середнього квадрата помилки

,

де мінімум береться за всіма можливими конфігураціями nточок в m-мірному евклідовому просторі Можна показати, що аналізований мінімум досягається деякій конфігурації. Ясно, що при зростанні mвеличина m монотонно зменшується (точніше, не зростає). Можна показати, що за m > n- 1 вона дорівнює 0 (якщо s(i, j) – метрика). Для збільшення можливостей змістовної інтерпретації бажано діяти у просторі можливо меншої розмірності. Однак розмірність необхідно вибрати так, щоб точки представляли об'єкти без великих спотворень. Виникає питання: як оптимально вибирати розмірність, тобто. натуральне число m?

У межах детермінованого аналізу даних обґрунтованої відповіді це питання, певне, немає. Отже, необхідно вивчити поведінку α m у тих чи інших імовірнісних моделях. Якщо міри близькості s(i, j) є випадковими величинами, розподіл яких залежить від «істинної розмірності» m 0 (і, можливо, від будь-яких параметрів), то можна в класичному математико-статистичному стилі ставити завдання оцінки m 0, шукати заможні оцінки і т.д.

Почнемо будувати імовірнісні моделі. Приймемо, що об'єкти є крапками в евклідовому просторі розмірності k, де kдосить велике. Те, що «справжня розмірність» дорівнює m 0 означає, що всі ці точки лежать на гіперплощині розмірності m 0 . Приймемо для визначеності, що сукупність точок, що розглядаються, являє собою вибірку з кругового нормального розподілу з дисперсією σ 2 (0). Це означає, що об'єкти Про(1), Про(2), …, O(n) є незалежними в сукупності випадковими векторами, кожен із яких будується як ζ(1) e(1) + ζ(2) e(2) + … + ζ( m 0)e(m 0), де e(1), e(2), … , e(m 0) – ортонормальний базис у підпросторі розмірності m 0 , в якому лежать точки, що розглядаються, а ζ(1), ζ(2), … , ζ( m 0) – незалежні в сукупності одновимірні нормальні випадкові величини з математичним очікуванням) та дисперсією σ 2 (0).

Розглянемо дві моделі отримання мір близькості s(i, j). У першій із них s(i, j) відрізняються від евклідової відстані між відповідними точками через те, що точки відомі з спотвореннями. Нехай з(1),з(2), … , з(n) - Розглянуті точки. Тоді

s(i, j) = d(c(i) + ε( i), c(j) + ε( j)), i, j = 1, 2, … , n,

де d- евклідова відстань між точками в k-мірному просторі, вектора ε(1), ε(2), … , ε( n) являють собою вибірку з кругового нормального розподілу k-мірному просторі з нульовим математичним очікуванням та коваріаційною матрицею σ 2 (1) I, де I- одинична матриця. Іншими словами, ε( i) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), де e(1), e(2), …, e(k) – ортонормальний базис у k-мірному просторі, а (η( i, t), i= 1, 2, …, n, t= 1, 2, … , k) – сукупність незалежних у сукупності одновимірних випадкових величин з нульовим математичним очікуванням та дисперсією σ 2 (1).

У другій моделі спотворення накладені безпосередньо на самі відстані:

s(i,j) = d(c(i), c(j)) + ε( i,j), i,j = 1, 2, … , n, ij,

де (ε( i, j), i, j = 1, 2, … , n) – незалежні в сукупності нормальні випадкові величини з математичним очікуванням) та дисперсією σ 2 (1).

У роботі показано, що для обох сформульованих моделей мінімум середнього квадрата помилки α m при n→ ∞ сходиться ймовірно до

f(m) = f 1 (m) + σ 2 (1)( km), m = 1, 2, …, k,

Таким чином, функція f(m) лінійна на інтервалах і , причому на першому інтервалі вона меншає швидше, ніж на другому. Звідси випливає, що статистика

є заможною оцінкою істинної розмірності m 0 .

Отже, з ймовірнісної теорії випливає рекомендація – як оцінку розмірності факторного простору використовувати m*. Зазначимо, що подібна рекомендація була сформульована як евристична одним із засновників багатовимірного шкалювання Дж. Краскалом. Він виходив із досвіду практичного використання багатовимірного шкалювання та обчислювальних експериментів. Імовірна теорія дозволила обґрунтувати цю евристичну рекомендацію.

Попередня

Ключові слова

МАТЕМАТИКА / ПРИКЛАДНА СТАТИСТИКА / МАТЕМАТИЧНА СТАТИСТИКА/ ТОЧКИ ЗРОСТАННЯ / МЕТОД ГОЛОВНИХ КОМПОНЕНТ / ФАКТОРНИЙ АНАЛІЗ / БАГАТОМІРНЕ ШКАЛЮВАННЯ / ОЦІНЮВАННЯ РОЗМІРНОСТІ ДАНИХ / ОЦІНЮВАННЯ РОЗМІРНОСТІ МОДЕЛІ/ MATHEMATICS / APPLIED STATISTICS / MATHEMATICAL STATISTICS / GROWTH POINTS / PRINCIPAL COMPONENT ANALYSIS / FACTOR ANALYSIS / MULTIDIMENSIONAL SCALING / ESTIMATION OF DATA DIMENSION / ESTIMATION OF MODEL DIMENSION

Анотація наукової статті з математики, автор наукової роботи - Орлов Олександр Іванович, Луценко Євген Веніамінович

Однією з «точок зростання» прикладної статистикиє методи зниження розмірності простору статистичних даних. Вони дедалі частіше використовуються під час аналізу даних у конкретних прикладних дослідженнях, наприклад, соціологічних. Розглянемо найперспективніші методи зниження розмірності. Метод основних компонентє одним із найбільш часто використовуваних методів зниження розмірності. Для візуального аналізу даних часто використовують проекції вихідних векторів на площину перших двох основних компонентів. Зазвичай добре видно структуру даних, виділяються компактні кластери об'єктів і вектори, що окремо виділяються. Метод основних компонентє одним із методів факторного аналізу. Нова ідея в порівнянні з шляхом основних компонентполягає в тому, що на основі навантажень відбувається розбиття факторів на групи. В одну групу поєднуються фактори, що мають подібний вплив на елементи нового базису. Потім із кожної групи рекомендується залишити одного представника. Іноді замість вибору представника розрахунковим шляхом формується новий фактор, що є центральним для групи, що розглядається. Зниження розмірності відбувається за переходу до системи чинників, є представниками груп. Інші чинники відкидаються. На використанні відстаней (мір близькості, показників відмінності) між ознаками і заснований великий клас методів багатовимірного шкалювання. Основна ідея цього класу методів полягає у поданні кожного об'єкта точкою геометричного простору (зазвичай розмірності 1, 2 або 3), координатами якої служать значення прихованих (латентних) факторів, що в сукупності досить адекватно описують об'єкт. Як приклад застосування імовірнісно-статистичного моделювання та результатів статистики нечислових даних обґрунтуємо спроможність оцінки розмірності простору даних у багатомірне шкалювання, раніше запропонованої Фарбалом з евристичних міркувань Розглянуто ряд робіт з оцінювання розмірностей моделей(У регресійному аналізі та в теорії класифікації). Дано інформацію про алгоритми зниження розмірності в автоматизованому системно-когнітивному аналізі.

Схожі теми наукових праць з математики, автор наукової роботи - Орлов Олександр Іванович, Луценко Євген Веніамінович

  • Математичні методи у соціології за сорок п'ять років

  • Різноманітність об'єктів нечислової природи

  • Оцінювання параметрів: однокрокові оцінки краще оцінок максимальної правдоподібності

  • Прикладна статистика - стан та перспективи

    2016 / Орлов Олександр Іванович
  • Стан та перспективи розвитку прикладної та теоретичної статистики

    2016 / Орлов Олександр Іванович
  • Взаємозв'язок граничних теорем та методу Монте-Карло

    2015 / Орлов Олександр Іванович
  • Про розвиток статистики об'єктів нечислової природи

    2013 / Орлов Олександр Іванович
  • Точки зростання статистичних методів

    2014 / Орлов Олександр Іванович
  • Про нові перспективні математичні інструменти контролінгу

    2015 / Орлов Олександр Іванович
  • Відстань у просторах статистичних даних

    2014 / Орлов Олександр Іванович

Один з "показів зростання" applied statistics is metodos reducing the dimension of statistical data. Вони є значним чином використані в аналізі даних в конкретний applied research, так як соціології. We investigate the most promising methods to reduce the dimensionality. У основних компонентах є один з найбільш поширених методів для зменшення dimensionality. Для visual analysis data будуть використані проекти оригіналів векторів на плані перших двох основних компонентів. Зазвичай ці структури є чітко відтвореними, високоосвітленими compact clusters of objects and separatelly allocated vectors. Основними компонентами є один метод factor analysis . Нова idea factor analysis в comparison with метод основних компонентів є, що, заснований на loads, factors breaks up ingroups. У одній групі factors, новий factor is combined with similar impact on the elements of new basis. Там уся група є recommended to leave one representative. Деякий час, усвідомлення вибору оцінки, що визначається, як новий фактор, що є центральною для групи в роботі. Зменшені dimension occurs при transition to system factors, які є representatives of groups. Інші factory є discarded. На основі відстані (пропорційності вимірювань, показників різниці) між ознаками і основними класами є базовані методи multidimensional scaling . Основна думка цього класу методів є сучасним об'єктом як елемент geometric space (зазвичай dimension 1, 2, or 3), які coordinates є значеннями з hidden (latent) factors, які з'єднуються з точним чином, що відображається. Як приклад application of probabilistic and statistical modeling and results of statistics of non-numeric data, we justify the consistency of estimators of dimension of the data in multidimensional scaling , which are proposed previously by Kruskal from heuristic considerations. Незнайдено число послідовних вимірів dimension of models (in regression analysis and in theory of classification). We also give some information o algorithms для зменшення dimensionality в the automated system-cognitive analysis

Текст наукової роботи на тему «Методи зниження розмірності простору статистичних даних»

УДК 519.2: 005.521:633.1:004.8

01.00.00 Фізико-математичні науки

МЕТОДИ ЗНИЖЕННЯ РОЗМІРНОСТІ ПРОСТОРУ СТАТИСТИЧНИХ ДАНИХ

Орлов Олександр Іванович

д.е.н., д.т.н., к.ф.-м.н., професор

РІНЦ БРШ-код: 4342-4994

Московський державний технічний

університет ім. н.е. Баумана, Росія, 105005,

Москва, 2-а Бауманська вул., 5, [email protected]т

Луценко Євген Веніамінович д.е.н., к.т.н., професор РІНЦ БРШ-код: 9523-7101 Кубанський державний аграрний університет, Краснодар, Росія [email protected] com

Однією з «точок зростання» прикладної статистики є методи зниження розмірності простору статистичних даних. Вони дедалі частіше використовуються під час аналізу даних у конкретних прикладних дослідженнях, наприклад, соціологічних. Розглянемо найперспективніші методи зниження розмірності. Метод головних компонент одна із найчастіше використовуваних методів зниження розмірності. Для візуального аналізу даних часто використовують проекції вихідних векторів на площину перших двох основних компонентів. Зазвичай добре видно структуру даних, виділяються компактні кластери об'єктів і вектори, що окремо виділяються. Метод основних компонент одна із методів факторного аналізу. Нова ідея проти методом головних компонент у тому, що у основі навантажень відбувається розбиття чинників групи. В одну групу поєднуються фактори, що мають подібний вплив на елементи нового базису. Потім із кожної групи рекомендується залишити одного представника. Іноді замість вибору представника розрахунковим шляхом формується новий фактор, що є центральним для групи, що розглядається. Зниження розмірності відбувається за переходу до системи чинників, є представниками груп. Інші чинники відкидаються. На використанні відстаней (мір близькості, показників відмінності) між ознаками і заснований великий клас методів багатовимірного шкалювання. Основна ідея цього класу методів полягає у поданні кожного об'єкта точкою геометричного простору (зазвичай розмірності 1, 2 або 3), координатами якої служать значення прихованих (латентних) факторів, що в сукупності досить адекватно описують

UDC 519.2: 005.521:633.1:004.8

Physics and mathematical sciences

METHODS OF REDUCING SPACE DIMENSION OF STATISTICAL DATA

Orlov Alexander Ivanovich

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Bauman Moscow State Technical University, Москва, Росія

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., profesor RSCI SPIN-код: 9523-7101

Kuban State Agrarian University, Krasnodar, Росія

[email protected] com

Один з "показів зростання" applied statistics is metodos reducing the dimension of statistical data. Вони є значним чином використані в аналізі даних в конкретний applied research, так як соціології. We investigate the most promising methods to reduce the dimensionality. У основних компонентах є один з найбільш поширених методів для зменшення dimensionality. Для visual analysis data будуть використані проекти оригіналів векторів на плані перших двох основних компонентів. Зазвичай ці структури є чітко відтвореними, високоосвітленими compact clusters of objects and separatelly allocated vectors. Головними компонентами є один метод factor analysis. Нова idea factor analysis в comparison with метод основних компонентів є, що, заснований на loads, factors breaks up ingroups. У одній групі factors, новий factor is combined with similar impact on the elements of new basis. Там уся група є recommended to leave one representative. Деякий час, усвідомлення вибору оцінки, що визначається, як новий фактор, що є центральною для групи в роботі. Зменшені dimension occurs при transition to system factors, які є representatives of groups. Інші factory є discarded. Використовуючи дистанцію (пропорційні міри, показники відмінностей) між ознаками і основними класами є базовані методи multidimensional scaling. Основна думка цього класу методів є сучасним об'єктом як елемент geometric space (зазвичай dimension 1, 2, or 3), які coordinates є значеннями з hidden (latent) factors, які з'єднуються з точним чином, що відображається. Як приклад application of probabilistic and statistical modeling and results of statistics of non-numeric data, we justify the consistency of estimators of the

об'єкт. Як приклад застосування імовірнісно-статистичного моделювання та результатів статистики нечислових даних обґрунтуємо спроможність оцінки розмірності простору даних у багатовимірному шкалі, раніше запропонованої Фарбалом з евристичних міркувань. Розглянуто ряд робіт з оцінювання розмірностей моделей (у регресійному аналізі та теорії класифікації). Дано інформацію про алгоритми зниження розмірності в автоматизованому системно-когнітивному аналізі.

Ключові слова: МАТЕМАТИКА, ПРИКЛАДНА СТАТИСТИКА, МАТЕМАТИЧНА СТАТИСТИКА, ТОЧКИ ЗРОСТАННЯ, МЕТОД ГОЛОВНИХ КОМПОНЕНТ, ФАКТОРНИЙ АНАЛІЗ, БАГАТОМІРНЕ ШКАЛЮВАННЯ, ОЦІНЮВАННЯ РАЗІВ,

dimension of the data in multidimensional scaling, which are proposed previously by Kruskal from heuristic considerations. Незнайдено число послідовних вимірів dimension of models (in regression analysis and in theory of classification). We also give some information o algorithms для зменшення dimensionality в the automated system-cognitive analysis

Ключові слова: MATHEMATICS, APPLIED STATISTICS, MATHEMATICAL STATISTICS, GROWTH POINTS, THE PRINCIPAL COMPONENT ANALYSIS, FACTOR ANALYSIS, MULTIDIMENSIONAL SCALING, ESTIMATION OF DATA DIMENSION, ESTIMATION OF MODELDI

1. Введення

Як зазначалося, однією з «точок зростання» прикладної статистики є методи зниження розмірності простору статистичних даних. Вони дедалі частіше використовуються під час аналізу даних у конкретних прикладних дослідженнях, наприклад, соціологічних. Розглянемо найперспективніші методи зниження розмірності. Як приклад застосування імовірнісно-статистичного моделювання та результатів статистики нечислових даних обґрунтуємо спроможність оцінки розмірності простору, раніше запропонованої Фарбалом з евристичних міркувань.

У багатовимірному статистичному аналізі кожен об'єкт описується вектором, розмірність якого довільна (але та сама для всіх об'єктів). Проте людина може безпосередньо сприймати лише числові дані чи точки на площині. Аналізувати накопичення точок у тривимірному просторі вже набагато складніше. Безпосереднє сприйняття даних вищої розмірності неможливе. Тому цілком природним є бажання перейти від багатовимірної вибірки до даних невеликої розмірності, щоби «на них можна було

подивитися». Наприклад, маркетолог може наочно побачити, скільки є різних типів поведінки споживачів (тобто скільки доцільно виділяти сегментів ринку) і які саме (з якими властивостями) споживачі до них входять.

Крім прагнення наочності, є й інші мотиви зниження розмірності. Ті чинники, яких цікава дослідника змінна залежить, лише заважають статистичного аналізу. По-перше, збір інформації про них витрачаються фінансові, тимчасові, кадрові ресурси. По-друге, як можна довести, їхнє включення в аналіз погіршує властивості статистичних процедур (зокрема, збільшує дисперсію оцінок параметрів та характеристик розподілів). Тому бажано позбавитися таких факторів.

При аналізі багатовимірних даних зазвичай розглядають не одну, а безліч завдань, зокрема, по-різному вибираючи незалежні та залежні змінні. Тому розглянемо завдання зниження розмірності у наступному формулюванні. Дана багатовимірна вибірка. Потрібно перейти від неї до сукупності векторів меншої розмірності, максимально зберігши структуру вихідних даних, по можливості не втрачаючи інформації, що містяться в даних. Завдання конкретизується у межах кожного конкретного способу зниження размерности.

2. Метод основних компонент

Він є одним із найбільш часто використовуваних методів зниження розмірності. Основна його ідея полягає у послідовному виявленні напрямків, у яких дані мають найбільший розкид. Нехай вибірка складається з векторів, що однаково розподілені з вектором X = (x(1), x(2), ... , x(n)). Розглянемо лінійні комбінації

7(^(1), Х(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

Х2(1) + Х2(2) + ...+ Х2(п) = 1. Тут вектор X = (Х(1), Х(2), ..., Х(п)) лежить на одиничній сфері п-мірному просторі.

У способі основних компонент передусім знаходять напрям максимального розкиду, тобто. таке X, у якому досягає максимуму дисперсія випадкової величини 7(Х) = 7(Х(1), Х(2), ..., Х(п)). Тоді вектор X визначає першу головну компоненту, а величина 7(Х) є проекцією випадкового вектора Х на вісь першої головної компоненти.

Потім, висловлюючись термінами лінійної алгебри, розглядають гіперплощину в п-мірному просторі, перпендикулярну першій головній компоненті, і проектують на цю гіперплощину всі елементи вибірки. Розмірність гіперплощини на 1 менша, ніж розмірність вихідного простору.

У аналізованої гіперплощині процедура повторюється. У ньому знаходять напрям найбільшого розкиду, тобто. другу головну компоненту. Потім виділяють гіперплощину, перпендикулярну першим двом головним компонентам. Її розмірність на 2 менша, ніж розмірність вихідного простору. Далі – наступна ітерація.

З погляду лінійної алгебри йдеться про побудову нового базису в п-мірному просторі, ортами якого є основні компоненти.

Дисперсія, що відповідає кожній новій головній компоненті, менша, ніж для попередньої. Зазвичай зупиняються, коли вона менша за заданий поріг. Якщо відібрано до основних компонент, це означає, що з п-мерного простору вдалося перейти до к-мерному, тобто. скоротити розмірність з п-до до, практично не спотворивши структуру вихідних даних.

Для візуального аналізу даних часто використовують проекції вихідних векторів на площину перших двох основних компонентів. Зазвичай

добре видно структуру даних, виділяються компактні кластери об'єктів і окремі вектори.

3. Факторний аналіз

Метод головних компонент одна із методів факторного аналізу. Різні алгоритми факторного аналізу об'єднані тим, що в них відбувається перехід до нового базису у вихідному n-мірному просторі. Важливим є поняття «навантаження фактора», яке застосовується для опису ролі вихідного фактора (змінної) у формуванні певного вектора з нового базису.

Нова ідея проти методом головних компонент у тому, що у основі навантажень відбувається розбиття чинників групи. В одну групу поєднуються фактори, що мають подібний вплив на елементи нового базису. Потім із кожної групи рекомендується залишити одного представника. Іноді замість вибору представника розрахунковим шляхом формується новий фактор, що є центральним для групи, що розглядається. Зниження розмірності відбувається за переходу до системи чинників, є представниками груп. Інші чинники відкидаються.

Описана процедура може бути здійснена не лише за допомогою факторного аналізу. Йдеться про кластер-аналіз ознак (чинників, змінних). Для розбиття ознак групи можна застосовувати різні алгоритми кластер-аналізу . Достатньо ввести відстань (заходи близькості, показник відмінності) між ознаками. Нехай Х та У – дві ознаки. Відмінність d(X,Y) між ними можна вимірювати за допомогою вибіркових коефіцієнтів кореляції:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, де rn(X,Y) - вибірковий лінійний коефіцієнт кореляції Пірсона, pn(X, Y) – вибірковий коефіцієнт рангової кореляції Спірмена.

4. Багатовимірне шкалювання.

На використанні відстаней (мір близькості, показників відмінності) d(X,Y) між ознаками Х і У заснований великий клас методів багатовимірного шкалювання. Основна ідея цього класу методів полягає у поданні кожного об'єкта точкою геометричного простору (зазвичай розмірності 1, 2 або 3), координатами якої служать значення прихованих (латентних) факторів, що в сукупності досить адекватно описують об'єкт. При цьому відносини між об'єктами замінюються відносинами між точками – їх представниками. Так, дані про схожість об'єктів - відстанями між точками, дані про перевагу - взаємним розташуванням точок.

5. Проблема оцінки істинної розмірності факторного простору

У практиці аналізу соціологічних даних використовують ряд різних моделей багатовимірного шкалювання. У всіх них постає проблема оцінки істинної розмірності факторного простору. Розглянемо цю проблему з прикладу обробки даних про подібність об'єктів з допомогою метричного шкалирования.

Нехай є n об'єктів 0(1), О(2), ..., O(n), кожної пари об'єктів 0(/), O(j) задана міра їх подібності s(ij). Вважаємо, що s(i,j) = s(j,i). Походження чисел s(ij) не має значення для опису роботи алгоритму. Вони могли бути отримані або безпосереднім виміром, або з використанням експертів, або шляхом обчислення сукупності описових характеристик, або якось інакше.

У евклідовому просторі розглянуті n об'єктів повинні бути представлені конфігурацією n точок, причому як міра близькості точок-представників виступає евклідова відстань d(i,j)

між відповідними точками. Ступінь відповідності між сукупністю об'єктів і сукупністю точок, що їх представляють, визначається шляхом зіставлення матриць подібності ||я(,)|| та відстаней ШМ-Метричний функціонал подібності має вигляд

я = £|*(/, ]) - й (/, М

Геометричну конфігурацію треба вибирати так, щоб функціонал S досягав найменшого значення .

Зауваження. У неметричному шкалюванні замість близькості самих заходів близькості та відстаней розглядається близькість упорядковань на безлічі заходів близькості та безлічі відповідних відстаней. Замість функціоналу S використовуються аналоги рангових коефіцієнтів кореляції Спірмена та Кендала. Іншими словами, неметричне шкалювання виходить із припущення, що міри близькості виміряні у порядковій шкалі.

Нехай евклідове простір має розмірність т. Розглянемо мінімум середнього квадрата помилки

де мінімум береться за всіма можливими конфігураціями п точок у т-мірному евклідовому просторі. Можна показати, що аналізований мінімум досягається деякій конфігурації. Ясно, що при зростанні т величина ат монотонно зменшується (точніше, не зростає). Можна показати, що при т > п – 1 вона дорівнює 0 (якщо – метрика). Для збільшення можливостей змістовної інтерпретації бажано діяти у просторі можливо меншої розмірності. Однак розмірність необхідно вибрати так, щоб точки представляли об'єкти без великих спотворень. Виникає питання: як оптимально вибирати розмірність простору, тобто. натуральне число т?

6. Моделі та методи оцінювання розмірності простору даних

У межах детермінованого аналізу даних обґрунтованої відповіді це питання, певне, немає. Отже, необхідно вивчити поведінку am у тих чи інших імовірнісних моделях. Якщо міри близькості s(ij) є випадковими величинами, розподіл яких залежить від «істинної розмірності» m0 (і, можливо, від будь-яких параметрів), то можна в класичному математико-статистичному стилі ставити завдання оцінки m0, шукати заможні оцінки і і т.д.

Почнемо будувати імовірнісні моделі. Приймемо, що об'єкти є крапками в евклідовому просторі розмірності до, де досить велика. Те, що «справжня розмірність» дорівнює m0, означає, що всі ці точки лежать на гіперплощині розмірності m0. Приймемо для визначеності, що сукупність точок, що розглядаються, являє собою вибірку з кругового нормального розподілу з дисперсією про (0). Це означає, що об'єкти 0(1), 0(2), ..., O(n) є незалежними в сукупності випадковими векторами, кожен з яких будується як

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), де e(1), e(2), ... , e(m0) - ортонормальний базис у підпросторі розмірності m0, у якому лежать розглянуті точки, а Z(1), Z(2), , Z(m0) - незалежні разом одномірні нормальні випадкові величини з математичним очікуванням 0 і дисперсією про (0).

Розглянемо дві моделі отримання мір близькості s(ij). У першій з них s(ij) відрізняються від евклідової відстані між відповідними точками через те, що точки відомі з спотвореннями. Нехай с(1), с(2), ... , c(n) - точки, що розглядаються. Тоді

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ..., n,

де й - евклідова відстань між точками в ^мірному просторі, вектора е(1), е(2), ... , е(п) являють собою вибірку з кругового нормального розподілу в ^мірному просторі з нульовим математичним очікуванням та підступною матрицею про (1)/, де I-одинична матриця. Іншими словами,

е(0 = п(1)е(1) + П(2)е(2) + ... + ц(к)в(к), де е(1), е(2), ..., e(k) - ортонормальний базис в ^мірному просторі, а [ц^^), i = 1, 2, ..., п,? =1, 2, ..., к) - сукупність незалежних у сукупності одновимірних випадкових величин з нульовим математичним очікуванням та дисперсією про (1).

У другій моделі спотворення накладені безпосередньо на самі відстані:

Кч) = й(Ф\ СІ)) + £(УХ і = 1, 2., n, i ф j,

де і , причому на першому інтервалі вона меншає швидше, ніж на другому. Звідси випливає, що статистика

m* = Arg minam+1 - 2am + an-x)

є спроможною оцінкою істинної розмірності m0.

Отже, з ймовірнісної теорії випливає рекомендація - як оцінка розмірності факторного простору використовувати т *. Зазначимо, що подібна рекомендація була сформульована як евристична одним із засновників багатовимірного шкалювання Дж. Краскалом. Він виходив із досвіду практичного використання багатовимірного шкалювання та обчислювальних експериментів. Імовірна теорія дозволила обґрунтувати цю евристичну рекомендацію.

7. Оцінювання розмірності моделі

Якщо можливі підмножини ознак утворюють сімейство, що розширюється, наприклад, оцінюється ступінь полінома, то природно ввести термін «розмірність моделі» (це поняття багато в чому аналогічно використовуваному в багатовимірному шкалювання поняття розмірності простору даних). Автору цієї статті належить ряд робіт з оцінювання розмірності моделі, які доцільно зіставити з роботами з оцінювання розмірності простору даних, розглянутими вище.

Перша така робота виконана автором цієї статті під час відрядження до Франції в 1976 р. У ній була вивчена одна оцінка розмірності моделі в регресії, а саме оцінка ступеня полінома у припущенні, що залежність описується поліномом. Ця оцінка була відома в літературі, але пізніше її стали помилково приписувати автору цієї статті, який лише вивчив її властивості, зокрема, встановив, що вона не є заможною, і знайшов її граничний геометричний розподіл. Інші, вже заможні оцінки розмірності регресійної моделі були запропоновані та вивчені у статті. Цей цикл завершила робота, що містить ряд уточнень.

Крайня публікація на цю тему включає обговорення результатів вивчення швидкості збіжності в отриманих мною граничних теоремах методом Монте-Карло.

Аналогічні за методологією оцінки розмірності моделі в задачі розщеплення сумішей (частина теорії класифікації) розглянуті у статті.

Розглянуті вище оцінки розмірності моделі в багатовимірному шкалі вивчаються в роботах. У цих роботах встановлено граничне поведінка параметрів способу основних компонент (з допомогою асимптотичної теорії поведінки рішень екстремальних статистичних завдань ).

8. Алгоритми зниження розмірності в автоматизованому системно-когнітивному аналізі

В автоматизованому системно-когнітивному аналізі (АСК-аналізі) запропоновано і в системі "Ейдос" реалізовано ще один метод зниження розмірності. Він описаний у роботі у розділах 4.2 "Опис алгоритмів базових когнітивних операцій системного аналізу (БКОСА)" та 4.3 "Детальні алгоритми БКОСА (АСК-аналізу)". Наведемо короткий опис двох алгоритмів – БКОСА-4.1 та БКОСА-4.2.

БКОСА-4.1. "Абстрагування факторів (зниження розмірності семантичного простору факторів)"

За допомогою методу послідовних наближень (ітераційний алгоритм) за заданих граничних умов знижується розмірність простору атрибутів без істотного зменшення його обсягу. Критерій зупинки ітераційного процесу – досягнення однієї з граничних умов.

БКОСА-4.2. "Абстрагування класів (зниження розмірності семантичного простору класів)"

За допомогою методу послідовних наближень (ітераційний алгоритм) за заданих граничних умов знижується розмірність простору класів без істотного зменшення його обсягу. Критерій зупинки ітераційного процесу – досягнення однієї з граничних умов.

Тут наведено всі реальні алгоритми, реалізовані в системі "Ейдос" тієї версії, яка була реалізована на момент підготовки роботи (2002 рік): http://lc.kubagro .ru/aidos/aidos02/4.3 .htm

Суть алгоритмів є такою.

1. Розраховується кількість інформації у значеннях факторів про перехід об'єкта у стани, що відповідають класам.

2. Розраховується цінність значення чинника для диференціації об'єкта за класами. Ця цінність - це просто варіабельність інформативностей значень факторів (кількісних заходів варіабельності багато: середнє відхилення від середнього, середнє квадратичне відхилення та ін.). Інакше кажучи, якщо в значенні фактора в середньому міститься мало інформації про належність і не належність об'єкта до класу, то це значення не дуже цінне, а якщо багато цінне.

3. Розраховується цінність описових шкал для диференціації об'єктів за класами. У роботах Є.В. Луценко сьогодні це робиться як середнє від цінностей градацій цієї шкали.

4. Потім проводиться Парето-оптимізація значень факторів та описових шкал:

Значення факторів (градації описових шкал) ранжуються в порядку зменшення цінності і видаляються з моделі ті найменш цінні, які йдуть правіше дотичної до Парето-кривої 45°;

Чинники (описові шкали) ранжуються в порядку зменшення цінності і видаляються з моделі ті менш цінні, які йдуть правіше дотичної до Парето-кривої 45°.

Через війну розмірність простору, побудованого на описових шкалах, істотно знижується з допомогою видалення корелюючих між собою шкал, тобто. по суті, це ортонормування простору в інформаційній метриці.

Цей процес може повторюватись, тобто. бути ітераційним, причому у новій версії системі " Ейдос " ітерації запускаються вручну.

Аналогічно ортонормується інформаційний простір класів.

Шкали та його градації може бути числовими (тоді обробляються інтервальні значення), і навіть можуть бути текстовими (порядковими і навіть номінальними).

Таким чином, за допомогою алгоритмів БКОСА (АСК-аналізу) розмірність простору максимально знижується з мінімальною втратою інформації.

Для аналізу статистичних даних у прикладній статистиці розроблено низку інших алгоритмів зниження розмірності. У завдання цієї статті не входить опис всього різноманіття таких алгоритмів.

Література

1. Орлов А.І. Точки зростання статистичних методів // Політематичний мережевий електронний науковий журнал Кубанського державного аграрного університету. 2014. № 103. С. 136-162.

2. Фаркал Дж. Взаємозв'язок між багатовимірним шкалюванням та кластер-аналізом // Класифікація та кластер. М: Світ, 1980. С.20-41.

4. Харман Р. Сучасний факторний аналіз. М: Статистика, 1972. 489 з.

5. Орлов А.І. Нотатки з теорії класифікації. / Соціологія: методологія, методи, математичні моделі. 1991. № 2. С.28-50.

6. Орлов А.І. Базові результати математичної теорії класифікації // Політематичний мережевий електронний науковий журнал Кубанського державного аграрного університету. 2015. № 110. С. 219-239.

7. Орлов А.І. Математичні методи теорії класифікації // Політематичний мережевий електронний науковий журнал Кубанського державного аграрного університету. 2014. № 95. С. 23 – 45.

8. Терьохіна А.Ю. Аналіз даних методами багатовимірного шкалювання. -М: Наука, 1986. 168 с.

9. Перехрест В. Т. Нелінійний типологічний аналіз соціально-економічної інформації: Математичні та обчислювальні методи. – Л.: Наука, 1983. 176 с.

10. Тюрін Ю.Н., Литвак Б.Г., Орлов А.І., Сатаров Г.А., Шмерлінг Д.С. Аналіз нечислової інформації. М.: Наукова Рада АН СРСР з комплексної проблеми "Кібернетика", 1981. – 80 с.

11. Орлов А.І. Загальний погляд на статистику об'єктів нечислової природи// Аналіз нечислової інформації в соціологічних дослідженнях. - М: Наука, 1985. С.58-92.

12. Орлов А.І. Граничне розподілення однієї оцінки числа базисних функцій у регресії // Прикладний багатовимірний статистичний аналіз. Вчені записки за статистикою, т.33. - М: Наука, 1978. С.380-381.

13. Орлов А.І. Оцінка розмірності моделі у регресії // Алгоритмічне та програмне забезпечення прикладного статистичного аналізу. Вчені записки за статистикою, т.36. - М: Наука, 1980. С.92-99.

14. Орлов А.І. Асимптотика деяких оцінок розмірності моделі у регресії // Прикладна статистика. Вчені записки за статистикою, т.45. - М: Наука, 1983. С.260-265.

15. Орлов А.І. Про оцінювання регресійного полінома / / Заводська лабораторія. Діагностика матеріалів. 1994. Т.60. №5. С.43-47.

16. Орлов А.І. Деякі ймовірні питання теорії класифікації // Прикладна статистика. Вчені записки за статистикою, т.45. - М: Наука, 1983. С.166-179.

17. Орлов А.І. На розробці статей з nonnumerical objects // Design of Experiments and Data Analysis: New Trends and Results. - M: ANTAL, 1993. Р.52-90.

18. Орлов А.І. Методи зниження розмірності// Додаток 1 до книги: Толстова Ю.М. Основи багатовимірного шкалювання: Навчальний посібник для вузів. – М.: Видавництво КДУ, 2006. – 160 с.

19. Орлов А.І. Асимптотика рішень екстремальних статистичних завдань// Аналіз нечислових даних у системних дослідженнях. Збірник праць. Вип. 10. - М: Всесоюзний науково-дослідний інститут системних досліджень, 1982. С. 412.

20. Орлов А.І. Організаційно-економічне моделювання: підручник: о 3 год. Частина 1: Нечислова статистика. - М: Вид-во МДТУ ім. н.е. Баумана. – 2009. – 541 с.

21. Луценко Є.В. Автоматизований системно-когнітивний аналіз в управлінні активними об'єктами (системна теорія інформації та її застосування у дослідженні економічних, соціально-психологічних, технологічних та організаційно-технічних систем): Монографія (наукове видання). -Краснодар: КубДАУ. 2002. – 605 с. http://elibrary.ru/item.asp?id=18632909

1. Орлов А.І. Tochki rosta statisticheskich metod // Politematicheskij setevej jelektronny nauchny zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. № 103. S. 136-162.

2. Краскаль Дж. Vzaimosvjaz" між багатогомерним скаліруванням і klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Qualitative applications in the social sciences. 1978. №11.

4. Harman G. Сучасний факторний аналіз. M: Statistika, 1972. 489 s.

5. Орлов А.І. Заметки по теорії класифікації. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. № 2. S.28-50.

6. Орлов А.І. Базові ресурси математичної теорії класіфікації // Поліматичний сетевий електронний науковий жанр Кубанського державного аграрного університету. 2015. № 110. S. 219-239.

7. Орлов А.І. Математичні методи теорії класифікації // Поліматичний сетевий електронний науковий журнал Кубанського державного аграрного університету. 2014. № 95. S. 23 – 45.

8. Terehina A.Ju. Аналіз даних методами багатомерного шкалірованія. - M.: Nauka, 1986. 168 с.

9. Perekrest V.T. Нелінійний топологічний аналіз соціальної "но-ekonomicкої інформації: Matematicheskie і vychislitel"nye metody. - L.: Nauka, 1983. 176 с.

10. Tjurin Ju.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. М.: Научний Совет на SSSR по комплексній проблемі "Кібернетика", 1981. - 80 с.

11. Орлов А.І. Obshhij vzgljad на statistiku ob#ektov nehislovoj prirody // Analiz nehislovoj informacii в sociologicheskih issledovanijah. – M.: Nauka, 1985. S.58-92.

12. Орлов А.І. Розділ "не розповсюдження однієї основи чисела bazisnych функцій в regressii // Приkladной многомерный statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Орлов А.І. Оцінка розмірності моделі в регресія // Алгорітміческое і programmное обтяження пріходного статістіческого аналітика. Учені записки по statistike, t.36. – M.: Nauka, 1980. S.92-99.

14. Орлов А.І. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Прикладна statistika. Учені записки по statistike, t.45. – M.: Nauka, 1983. S.260-265.

15. Орлов А.І. Об отенізації регресійного полінома // Заводська laboratoria. Діагностика матеріалів. 1994. T.60. №5. S.43-47.

16. Орлов А.І. Некоторі віроятностние вопроси teorii klasifikacii / / Prikladna statistika. Учені записки по statistike, t.45. - M: Nauka, 1983. S.166-179.

17. Орлов А.І. На розробці статей з nonnumerical objects // Design of Experiments and Data Analysis: New Trends and Results. - M: ANTAL, 1993. R.52-90.

18. Орлов А.І. Методи сниженія розмірності // Приложение 1 до книги: Толстова Ю.Н. Основное багатомерне шкалірування: Учебне способу для вузов. - M.: Izdatel"stvo KDU, 2006. - 160 с.

19. Орлов А.І. Asimptotika reshenij jekstremal"них statisticheskich zadach // Analyz nechislovych dannych v sistemnych issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyy науко-issledovatel"skij institut sistemnys issledova2.

20. Орлов А.І. Організаційно-економічне моделювання: учнебник: в 3 ч. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Автоматизований системно-когнітивний аналіз в управлінні активними об#ектами (системна теорія інформації і її застосування в дослідженнях jekonomicheskih, соціально-психологіческіх, технологічно-організаційних 605 s. http://elibrary.ru/item.asp?id=18632909

Зниження розмірності (Data reduction)

У аналітичних технологіях під зниженням розмірності даних розуміється процес їх перетворення на форму, найбільш зручну для аналізу та інтерпретації. Зазвичай воно досягається рахунок зменшення їх обсягу, скорочення кількості використовуваних ознак і різноманітності їх значень.

Часто аналізовані дані є неповними, коли вони погано відображають залежності та закономірності досліджуваних бізнес-процесів. Причинами цього може бути недостатня кількість спостережень, відсутність ознак, які відбивають суттєві властивості об'єктів. У цьому випадку застосовується збагачення даних.

Зниження розмірності застосовується у протилежному випадку, коли дані надмірні. Надмірність виникає тоді, коли завдання аналізу можна вирішити з тим самим рівнем ефективності та точності, але використовуючи меншу розмірність даних. Це дозволяє скоротити час та обчислювальні витрати на розв'язання задачі, зробити дані та результати їх аналізу більш інтерпретованими та зрозумілими для користувача.

Скорочення числа спостережень даних застосовується, якщо рішення порівнянної якості можна отримати на вибірці меншого обсягу, скоротивши тим самим обчислювальні та тимчасові витрати. Особливо це актуально для алгоритмів, що не масштабуються, коли навіть невелике скорочення числа записів призводить до суттєвого виграшу в обчислювальних часових витратах.

Скорочення числа ознак має сенс проводити тоді, коли інформація, необхідна для якісного вирішення задачі, міститься в деякому підмножині ознак і необов'язково використовувати їх усі. Особливо це актуально для корелюючих ознак. Наприклад, ознаки "Вік" і "Стаж роботи", по суті, несуть ту саму інформацію, тому один з них можна виключити.

Найбільш ефективним засобом скорочення числа ознак є факторний аналіз та метод основних компонентів.

Скорочення різноманітності значень ознак має сенс, наприклад, якщо точність уявлення даних надмірна і замість речових значень можна використовувати цілі без погіршення якості моделі. Але при цьому зменшиться обсяг пам'яті і обчислювальні витрати.

Підмножина даних, отримане в результаті скорочення розмірності, має успадкувати від вихідної множини стільки інформації, скільки необхідно для вирішення задачі із заданою точністю, а обчислювальні та часові витрати на скорочення даних не повинні знецінювати отримані від нього переваги.

Аналітична модель, побудована на основі скороченої множини даних, має стати простіше для обробки, реалізації та розуміння, ніж модель, побудована на вихідній множині.

Рішення про вибір методу скорочення розмірності ґрунтується на апріорному знанні про особливості вирішуваного завдання та очікувані результати, а також обмеженість часових та обчислювальних ресурсів.



Завантаження...
Top