Факторна матрица. Основни теоретични понятия на факторния анализ

Следващият пример се основава на фиктивни данни, свързани с проучвания за удовлетвореност от живота. Да предположим, че въпросникът е изпратен на 100 произволно избрани възрастни. Въпросникът съдържа 10 елемента, предназначени да измерват удовлетворението от работата, удовлетворението от хобито, удовлетворението от домашния живот и общото удовлетворение в други области на живота. Отговорите на въпросите бяха въведени в компютъра и мащабирани, така че средната стойност на всички елементи беше приблизително 100.

Резултатите бяха поставени във файла с данни Factor.sta. Можете да отворите този файл с помощта на опцията File - Open; най-вероятно този файл с данни се намира в директорията /Examples/Datasets. По-долу е даден списък на променливите в този файл (изберете Всички спецификации на променливите от менюто Данни за списък).

Цел на анализа . Целта на анализа е да се проучи връзката между удовлетвореността в различни области на дейност. По-специално, желателно е да се проучи въпросът за броя на факторите, "скрити" зад различни сфери на дейност и тяхното значение.

Избор на анализ. Изберете Факторен анализ от менюто Анализ - Многовариантен проучвателен анализ, за ​​да се покаже панелът за стартиране на модула Факторен анализ. Щракнете върху бутона Променливи на панела за стартиране (вижте по-долу) и изберете всичките 10 променливи в този файл.



Други възможности . За да извършите стандартен факторен анализ, този диалогов прозорец има всичко необходимо. За получаване прегледдруги команди, налични от панела за стартиране, можете да изберете входен файлкорелационна матрица (с помощта на полето Data file). В полето Премахване на PD можете да изберете изключване ред по ред или по двойки или средно заместване за липсващи данни.

Посочете метода за извличане на фактора. Сега натискаме бутона OK, за да продължим към следващия диалогов прозорец, наречен Указване на метода за извличане на фактор. С помощта на този диалогов прозорец можете да видите описателна статистика, да извършите множествен регресионен анализ, да изберете метод за извличане на фактор, да изберете максимален брой фактори, минимални собствени стойности и други действия, свързани със спецификата на методите за извличане на фактор. Сега нека отидем в раздела Описателен.



Вижте описателна статистика. Сега щракнете върху View Corr./Average/Std. в този прозорец, за да отворите прозореца Преглед на описателна статистика.



Вече можете да видите описателната статистика графично или с таблици с резултати.

Изчисляване на корелационната матрица. Щракнете върху бутона Корелации в раздела Разширени, за да се покаже таблица с резултати с корелации.



Всички корелации в тази таблица с резултати са положителни, а някои корелации са значими. Например променливите Hobby_1 и Miscel_1 са корелирани на ниво 0,90. Някои корелации (например корелации между удовлетворението на работа и удовлетворението у дома) изглеждат относително малки. Изглежда, че матрицата има някаква различна структура.

Метод на избор. Сега щракнете върху бутона Отказ в диалоговия прозорец Преглед на описателна статистика, за да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Можете да избирате от няколко метода за избор в раздела Разширени (вижте раздела Разширени на диалоговия прозорец Указване на метода за извличане на фактор за описание на всеки метод и Уводен преглед за описание на метода на главния компонент и метода на главния фактор). В този пример по подразбиране е Основни компоненти, макс. броят на факторите съдържа стойността 10 (максималния брой фактори в този пример) и полето Min. собствен стойността съдържа 0 (минималната стойност за тази команда).



Щракнете върху OK, за да продължите анализа.

Вижте резултатите. Можете да видите резултатите от факторния анализ в диалоговия прозорец Резултати от факторния анализ. Първо изберете раздела Explained Variance.



Показване на собствени стойности . Присвояването на собствените стойности и тяхната полезност за потребителя при вземането на решение колко фактора да остави (интерпретира) са описани във въвеждащия преглед. Сега щракнете върху бутона Собствени стойности, за да получите таблица със собствени стойности, общ процент на дисперсия, натрупани собствени стойности и натрупани проценти.


Както може да се види от таблицата, собствената стойност за първия фактор е 6.118369; тези. пропорцията на дисперсията, обяснена от първия фактор, е приблизително 61,2%. Обърнете внимание, че тези стойности се оказаха лесно сравними тук, тъй като се анализират 10 променливи и следователно сумата от всички собствени стойности се оказва 10. Вторият фактор включва около 18% от дисперсията. Други фактори съдържат не повече от 5%обща дисперсия.Избор на брой фактори. Разделът Уводен преглед накратко описва как получените собствени стойности могат да се използват, за да се реши колко фактора да се запазят в модела. Според теста на Кайзер (Kaiser, 1960), трябва да оставите фактори със собствени стойности, по-големи от 1. От таблицата по-горе следва, че тестът води до избор на два фактора.

Сипеен критерий . Сега щракнете върху бутона Scree Plot, за да получите диаграма на собствените стойности за прилагане на теста за сипеи на Cattell (Cattell, 1966). Графиката по-долу е допълнена със сегменти, свързващи съседни собствени стойности, за да направи критерия по-визуален. Кател заявява, въз основа на метода Монте Карло, че точката, в която непрекъснатото падане на собствените стойности се забавя и отвъд която нивото на останалите собствени стойности отразява само произволен „шум“. В графиката по-долу тази точка може да съответства на коефициент 2 или 3 (както е показано със стрелките). Затова опитайте и двете решения и вижте кое дава по-адекватна картина.



Сега разгледайте факторните натоварвания.

Факторни натоварвания . Както е описано в раздела Уводен преглед, факторните натоварвания могат да се интерпретират като корелации между фактори и променливи. Следователно те представляват най важна информацияна които се базира интерпретацията на факторите. Първо, нека да разгледаме (ненаклонените) факторни зареждания за всичките десет фактора. В раздела Натоварвания на диалоговия прозорец Резултати от анализа на факторите, в полето Ротация на факторите, задайте стойността без ротация и щракнете върху бутона Факторни натоварвания, за да се покаже таблицата с натоварванията.



Спомнете си, че изборът на фактори се извършва по такъв начин, че последващите фактори включват все по-малко и по-малко отклонение (вижте раздел Уводен преглед). Ето защо не е изненадващо, че първият фактор е с най-голямо натоварване. Обърнете внимание, че знаците за факторни натоварвания са важни само за да покажат, че променливи с противоположни натоварвания на един и същ фактор взаимодействат с този фактор по противоположен начин. Можете обаче да умножите всички товари в колона по -1 и да обърнете знаците. Във всички останали аспекти резултатите ще останат непроменени.

Ротация на факторното решение. Както е описано в раздела Уводен преглед, действителната ориентация на факторите във факторното пространство е произволна и всяка факторна ротация възпроизвежда корелации също толкова добре, колкото и други ротации. Следователно изглежда естествено факторите да се въртят по такъв начин, че да се избере факторната структура, която е най-лесна за тълкуване. Всъщност терминът проста структура е въведен и дефиниран от Thurstone (1947) главно за описание на условия, при които факторите са белязани от високи натоварвания на някои променливи и ниски натоварвания на други, а също и когато има няколко големи кръстосани натоварвания, т.е. има няколко променливи със значителни натоварвания върху повече от един фактор. Най-стандартният изчислителен ротационен метод за получаване на проста структура е методът на варимакс ротация, предложен от Кайзер (Kaiser, 1958). Други методи, предложени от Харман (Harman, 1967), са методите на квартимакс, биквартимакс и еквимакс (виж Харман, 1967).

Избор на ротация . Първо помислете за броя на факторите, които искате да оставите за ротация и тълкуване. Преди това беше решено, че най-правдоподобният и приемлив брой фактори са два, но въз основа на критерия за сипеи беше решено да се вземе предвид и решение с три фактора. Щракнете върху бутона Отказ, за ​​да се върнете към диалоговия прозорец Задаване на метод за извличане на фактор и променете полето Максимален брой фактори в раздела Бързо от 10 на 3, след което щракнете върху бутона OK, за да продължите анализа.

Сега нека завъртим с помощта на метода varimax. В раздела Натоварвания на диалоговия прозорец Резултати от факторния анализ, в полето Ротация на факторите, задайте първоначалната стойност на Varimax.



Натиснете бутона Факторни натоварвания, за да покажете резултатите от получените факторни натоварвания в таблицата.


Показване на решението при завъртане на три фактора. Таблицата показва значимите натоварвания на първия фактор за всички променливи, с изключение на тези, свързани с къщата. Фактор 2 има доста значителни натоварвания за всички променливи, с изключение на тези, свързани с удовлетворението от работата. Фактор 3 има само едно значително натоварване на променливата Home_1. Фактът, че третият фактор е силно натоварен само от една променлива, кара човек да се чуди дали същият добър резултат може да се получи без третия фактор?

Преглед на решението при въртене на два фактора . Щракнете отново върху бутона Отказ в диалоговия прозорец Резултати от факторен анализ, за ​​да се върнете към диалоговия прозорец Указване на метода за извличане на фактор. Променете полето Максимален брой фактори в раздела Бързо от 3 на 2 и щракнете върху OK, за да отидете в диалоговия прозорец Резултати от факторния анализ. В раздела Натоварвания, в полето Коефициенти на ротация, задайте началната стойност на Varimax и щракнете върху бутона Коефициент на натоварване.


Фактор 1, както се вижда от таблицата, има най-високи натоварвания за променливи, свързани с удовлетворението от работата. Той има най-малко натоварване върху променливите, свързани с удовлетворението от дома. Други натоварвания приемат междинни стойности. Фактор 2 има най-високите натоварвания за променливите, свързани с удовлетворението у дома, най-ниските натоварвания за удовлетворението на работа, средните натоварвания за останалите променливи.

Интерпретация на решението за двуфакторна ротация . Възможно ли е да се тълкува този модел? Изглежда, че двата фактора са най-добре идентифицирани като удовлетворение от работата (фактор 1) и удовлетворение от домашния живот (фактор 2). Удовлетворението от хобитата и различни други аспекти на живота изглежда са свързани и с двете. Този модел предполага, в известен смисъл, че удовлетвореността от работата и домашния живот в тази извадка може да са независими едно от друго, но и двете допринасят за удовлетворението от хобита и други аспекти на живота.

Диаграма на решение, базирано на ротацията на два фактора . За да получите диаграма на разсейване на два фактора, щракнете върху бутона 2M Load Plot в раздела Loads на диалоговия прозорец Резултати от факторния анализ. Диаграмата по-долу просто показва две натоварвания за всяка променлива. Обърнете внимание, че диаграмата на разсейване илюстрира добре два независими фактора и 4 променливи (Hobby_1, Hobby_2, Miscel_1, Miscel_2) с кръстосано натоварване.



Сега нека видим колко добре наблюдаваната ковариационна матрица може да бъде възпроизведена от двуфакторно решение.

Възпроизведена и остатъчна корелационна матрица. Щракнете върху бутона Възпроизведени и остатъчни корелации в раздела Обяснена вариация, за да получите две таблици с репликирана корелационна матрица и матрица на остатъчни корелации (наблюдавани минус репликирани корелации).



Записите в таблицата с остатъчни корелации могат да се тълкуват като „сума“ от корелации, които не могат да бъдат отчетени от двата резултатни фактора. Разбира се, диагоналните елементи на матрицата съдържат стандартно отклонение, за което тези фактори не могат да бъдат отговорни, което е равно на квадратен корен от едно минус съответните общи черти за двата фактора (припомнете си, че общността на променливата е дисперсията, което може да се обясни с избрания брой фактори). Ако внимателно разгледате тази матрица, можете да видите, че всъщност няма остатъчни корелации, по-големи от 0,1 или по-малки от -0,1 (всъщност само малък брой от тях са близки до тази стойност). Добавете към това, че първите два фактора включват около 79% от общата дисперсия (вижте кумулативния % от собствените стойности в таблицата с резултати).

„Тайната“ на добрия пример . Примерът, който току-що проучихте, всъщност дава почти перфектно решение на двуфакторния проблем. Той определя по-голямата част от дисперсията, има разумна интерпретация и възпроизвежда корелационна матрица с умерени отклонения (остатъчни корелации). Всъщност реалните данни рядко позволяват да се получи такова просто решение и всъщност този фиктивен набор от данни е получен с помощта на генератор на произволни числа с нормално разпределение, налично в системата. По специален начин в данните бяха „въведени“ два ортогонални (независими) фактора, според които се генерираха корелации между променливите. Този пример за факторен анализ възпроизвежда двата фактора такива, каквито са били (т.е. фактор за удовлетворение от работата и фактор за удовлетворение от домашния живот). По този начин, ако едно явление (а не изкуствени, както в примера, данни) съдържа тези два фактора, тогава като ги изолирате, можете да научите нещо за скритата или латентна структура на феномена.

Други резултати . Преди да направим окончателно заключение, даваме кратки коментари за други резултати.

общности . За да получите обобщенията на решението, щракнете върху бутона Общи положения в раздела Обяснена вариация на диалоговия прозорец Резултати от факторен анализ. Спомнете си, че сходството на една променлива е частта от дисперсията, която може да бъде възпроизведена за даден брой фактори. Ротацията на факторното пространство не влияе на степента на общост. Много ниските общи черти за една или две променливи (от многото в анализа) може да показват, че тези променливи не са добре обяснени от модела.

Стойностни коефициенти. Факторните коефициенти могат да се използват за изчисляване на факторни стойности за всяко наблюдение. Самите коефициенти обикновено не представляват голям интерес, но стойностите на факторите са полезни при по-нататъшен анализ. За да покажете коефициентите, щракнете върху бутона Коефициенти на факторна стойност в раздела Стойности на диалоговия прозорец Резултати от факторен анализ.

Факторни стойности. Факторните стойности могат да се считат за текущи стойности за всеки анкетиран респондент (т.е. за всяко наблюдение на оригиналната таблица с данни). Бутонът Стойности на фактора в раздела Стойности на диалоговия прозорец Резултати от факторния анализ ви позволява да изчислявате стойности на фактора. Тези стойности могат да бъдат запазени за по-късно, като щракнете върху бутона Запазване на стойностите.

Последен коментар. Факторният анализ не е лесна процедура. Всеки, който постоянно използва факторен анализс много (напр. 50 или повече) променливи може да види много примери за "патологично поведение" като: отрицателни собствени стойности и неинтерпретируеми решения, специални матрици и др. Ако се интересувате от използването на факторен анализ за определяне на значими фактори за голям брой променливи, трябва внимателно да проучите всички подробно ръководство(например книгата на Харман (Harman, 1968)). По този начин, тъй като много от критичните решения във факторния анализ са по своята същност субективни (брой фактори, метод на ротация, тълкуване на натоварванията), бъдете готови, че е необходим известен опит, преди да се почувствате уверени в него. Модулът за анализ на факторите е проектиран специално, за да улесни потребителя да превключва интерактивно между различен брой фактори, ротации и т.н., така че да тества и сравнява различни решения.

Този пример е взет от помощна система RFP СТАТИСТИКАот StatSoft

STATISTICA ФАКТОРЕН АНАЛИЗ

Корелации (factor.sta) Отстраняване ред по ред на PD n=100

Променлива

РАБОТА_1

РАБОТА_2

РАБОТА_3

КЪЩА НОМЕР 1

КЪЩА 2

КЪЩАТА 3

Както може да се види от корелационната матрица, променливите, свързани с удовлетворението от работата, са по-корелирани една с друга, а променливите, свързани с удовлетворението у дома, също са по-корелирани една с друга. Корелациите между тези два вида променливи (променливи, свързани с удовлетворението от работата и променливи, свързани с удовлетворението у дома) са относително малки. Следователно изглежда правдоподобно, че има два относително независими фактора (два вида фактори), отразени в корелационната матрица: единият е свързан с удовлетворението от работата, а другият с удовлетворението от домашния живот.

    Факторни натоварвания

Вторият етап на факторния анализ е първоначалният подбор на фактори или по метода на главните компоненти, или по метода на главните фактори. Резултатът за нашия пример е двуфакторно решение. Помислете за корелациите между променливите и два фактора (или „нови“ променливи). Тези корелации се наричат ​​факторни корелации.

Таблица 3.16

Таблица на факторните натоварвания (метод на главния компонент)

STATISTICA ФАКТОРЕН АНАЛИЗ

Факторни натоварвания (без ротация) Основни компоненти

Променлива

Фактор 1

Фактор 2

Обща дисперсия

Дял от общия разп.

Както може да се види от таблица 3.16, първият фактор е по-корелиран с променливите от втория (тъй като стойностите на тегловните натоварвания за всяка променлива на първия фактор са по-големи от втория). Това е очевидно, тъй като, както бе споменато по-горе, факторите се извличат последователно и съдържат все по-малко и по-малко обща дисперсия (виж раздел Собствени стойности и броят на разграничените фактори, страница 61).

    Методи за ротация на факторите

Третият етап на факторния анализ е ротацията на факторните натоварвания, произтичащи от предходния етап. Типични методи за ротация са стратегиите varimax, квартимакс, И еквимакс. Целта на тези методи е да се получи разбираема (интерпретируема) матрица на натоварване, тоест фактори, които са ясно маркирани с високи натоварвания (например по-големи от 0,7) за някои променливи и ниски натоварвания за други. Този общ модел понякога се нарича проста структура.

Идеята за ротация по метод varimaxбеше описано по-горе (вижте раздел Метод на главния компонент, страница 60). Този метод може да се приложи и към разглеждания пример. Както преди, нашата задача е да намерим ротация, която максимизира дисперсията по новите оси; или, с други думи, да се получи матрица на натоварванията за всеки фактор по такъв начин, че те да се различават възможно най-много и да има възможност за тяхната проста интерпретация. По-долу е дадена таблица с натоварвания върху ротирани фактори.

Таблица 3.17

Таблица на факторното натоварване (въртене - varimax)

STATISTICA ФАКТОРЕН АНАЛИЗ

Факторни натоварвания (Varimax Normalized) Извличане: Основни компоненти

Променлива

Фактор 1

Фактор 2

Обща дисперсия

Дял от общия разп.

Както може да се види от таблица 3.17, първият фактор се характеризира с високо натоварване на променливите, свързани с удовлетворението от работата, а вторият фактор се характеризира с удовлетворението у дома. От това можем да заключим, че удовлетвореността, измерена чрез въпросника, се състои от две части: удовлетвореност от дома и от работата. По този начин, произведени класификацияизследваните променливи. Въз основа на получената класификация първият фактор може да се нарече фактор за удовлетворение от работата (или фактор за социални ценности) и съответно вторият фактор, фактор за удовлетворение от дома (или фактор за лични ценности).

    Интерпретация на резултатите от факторния анализ

Последният етап на факторния анализ е смислена интерпретация на факторите, получени в резултат на ротация. Тук от изследователя се изисква да има добра теоретична подготовка и познания за вече натрупаните експериментални резултати в тази област на изследване.

На практика интерпретацията на факторите се състои в разпределянето на значими факторни тегла (референтни променливи) за всеки от факторите. Няма точни критерии за разграничаване на значимите факторни тегла (натоварвания) от незначителните. Например, в случай на големи проби (няколкостотин души или повече), натоварвания от 0,3 или повече понякога се считат за значими. Когато извадката се сведе до няколко десетки души, като значими се използват тегла от порядъка на 0,4–0,5.

Тълкуването на факторите не винаги протича гладко; в някои случаи той е само хипотетичен (например в случай на използване на данни, съответстващи на различни видове скали), а понякога авторите напълно го изоставят, тъй като факторът включва тестове, в които е трудно да се види нещо общо.

В идеалния случай (разпределението на променливите не се различава от нормалното), интерпретацията на резултатите от факторния анализ може да започне с анализа на корелационната матрица, след което да премине към факторни натоварвания (избор на референтни променливи). Следващата стъпка е да се сравнят резултатите от корелационната матрица и избраните фактори, съдържащи значими тегла. И накрая, последният етап е анализът на получените обобщения на съдържанието и характера на тези изследвани променливи (характеристики), които имат най-висока корелация с този фактор. Наименуването на факторите се извършва, като се вземат предвид онези референтни променливи, които са получили максимални тегла и имат най-висока корелация с фактора. Например, ако тестовете, оценяващи способността за улавяне на безсмислен материал, имат голямо натоварване на този фактор, тогава последният може да се нарече фактор "въртяща се памет".

Основни уравнения

Преди това почти всички учебници и монографии по факторен анализ предоставяха обяснение как да се извършват основни изчисления "ръчно" или с помощта на просто изчислително устройство (аритмометър или калкулатор). Днес, поради сложността и голямото количество изчисления, необходими за изграждане на матрица от връзки, идентифициране на фактори и тяхното ротиране, вероятно не е останал нито един човек, който да не използва факторен анализ, когато извършва факторен анализ. мощни компютрии свързани програми.

Затова ще се съсредоточим върху това кои са най-значимите матрици (набори от данни), които могат да бъдат получени в хода на факторния анализ, как те са свързани помежду си и как могат да се използват за интерпретиране на данни. Всички необходими изчисления могат да бъдат направени с помощта на всеки компютърна програма(например SPSS или STADIA).

IN раздел. 1даден е списък на най-важните матрици за анализ на главните компоненти и факторен анализ. Този списък съдържа главно матрици на взаимовръзки (между променливи, между фактори, между променливи и фактори), стандартизирани резултати (по променливи и по фактори), регресионни тегла (за изчисляване на факторни резултати с помощта на резултати по променливи) и матрици за картографиране на факторни връзки. и променливи след наклонена ротация. IN раздел. 1също са дадени матрици на собствени стойности и съответните собствени вектори. Собствените стойности (собствените стойности) и собствените вектори са описани с оглед на тяхното значение за избора на фактори, използването на голям брой специални термини в това отношение, а също и тясна връзкасобствени стойности и дисперсия в статистическите изследвания.

маса 1

Матрици, използвани най-често във факторния анализ

Обозначаване Име Размер Описание
Р Матрица на отношенията pxp Връзки между променливи
д Персонализирана матрица на данните Nxp Първични данни - нестандартизирани стойности на наблюдения върху първични променливи
З Стандартизирана матрица на данни Nxp Стандартизирани стойности на наблюденията по първични променливи
Е Матрица на стойността на фактора N x f Стандартизирани стойности на наблюденията по фактори
А Матрица за зареждане на фактор Матрица за картографиране на фактор px f Коефициенти на регресия за общи фактори, при условие че наблюдаваните променливи са линейна комбинация от фактори. В случай на ортогонална ротация - връзки между променливи и фактори
IN Коефициентна матрица на факторните стойности px f Коефициенти на регресия за изчисляване на факторни стойности с помощта на променливи стойности
С Структурна матрица px f Връзки между променливи и фактори
Е Факторна корелационна матрица fх f Корелации между факторите
Л Матрица на собствените стойности (диагонал) fх f Собствени стойности (характерни, латентни корени); всеки фактор съответства на една собствена стойност
V Матрица на собствения вектор fх f Собствени (характерни) вектори; всяка собствена стойност съответства на един собствен вектор

Забележка.При посочване на размера се дава броя на редовете х броя на колоните: Р- брой променливи, н- брой наблюдения, f- броя на факторите или компонентите. Ако матрицата на отношенията Рне е изродено и има ранг равен на R,тогава всъщност се откроява Рсобствени стойности и собствени вектори, не f. Обаче само от интерес fот тях. Следователно, останалите п-фне са показани.

Към матрици СИ Еприлага се само наклонено завъртане, останалите - ортогонално и наклонено завъртане.

Наборът от данни, подготвени за факторен анализ, се състои от резултатите от измервания (проучване) на голям брой субекти (респонденти) по определени скали (променливи). IN раздел. 2даден е масив от данни, който условно може да се приеме, че удовлетворява изискванията на факторния анализ.

На петима респонденти, подали заявка в туристическа агенция за закупуване на билет до морски курорт, бяха зададени въпроси относно значението за тях на четирите условия (променливи) за избор на дестинация за лятна почивка. Тези променливи условия бяха: цената на обиколката, комфортът на комплекса, температурата на въздуха, температурата на водата. Колкото по-важно е от гледна точка на респондента това или онова условие за него, толкова по-голямо значение му придава той. Изследователската задача беше да се проучи моделът на връзката между променливите и да се идентифицират първопричините, които определят избора на курорта. (Примерът, разбира се, е изключително опростен за илюстративни и образователни цели и не трябва да се приема на сериозно в смислен аспект.)

Матрица на отношенията ( раздел. 2) се изчислява като корелация. Обърнете внимание на структурата на връзките в него, подчертана от вертикални и хоризонтални линии. Високите корелации в горния ляв и долния десен квадрант показват, че оценките за цената на обиколката и комфорта на комплекса са взаимно свързани, както и оценките за температурата на въздуха и водата. Другите два квадранта показват, че температурата на въздуха и комфортът на комплекса са свързани, както и комфортът на комплекса и температурата на водата.

Сега нека опитаме да използваме факторен анализ, за ​​да открием тази структура от корелации, лесно видима с невъоръжено око в малка корелационна матрица (в голяма матрица това е много трудно да се направи).

таблица 2

Данни за факторен анализ (казус)

туристи Променливи
Цена на билет Ниво на комфорт Температура на въздуха Температура на водата
T1
Т2
Т3
Т4
Т5

Корелационна матрица

Цена на билет Ниво на комфорт Температура на въздуха Температура на водата
Цена на билет 1,000 -0,953 -0,055 -0,130
Ниво на комфорт -0,953 1,000 -,091 -0,036
Температура на въздуха -0,055 -0,091 1,000 0,990
Температура на водата -0,130 -0,036 0,990 1,000

Факторизация

Важна теорема от алгебрата на матриците гласи, че матрици, които отговарят на определени условия, могат да бъдат диагонализирани, т.е. преобразуван в матрица с числа на главния диагонал и нули на всички останали позиции. Релационните матрици принадлежат конкретно към типа диагонализирани матрици. Трансформацията се извършва по формулата:

тези. матрица R се диагонализира чрез умножаването й първо (отляво) по транспонираната матрица V, означена с V', и след това (отдясно) по самата матрица V.

Колоните в матрицата V се наричат ​​собствени вектори, а стойностите на главния диагонал на матрицата L се наричат ​​собствени стойности. Първият собствен вектор съответства на първата собствена стойност и т.н. (за повече подробности вижте Приложение 1).

Поради факта, че в горния пример се разглеждат четири променливи, ние получаваме четири собствени стойности със съответните им собствени вектори. Но тъй като целта на факторния анализ е да се обобщи матрицата на връзката чрез възможно най-малко фактори и всяка собствена стойност съответства на различни потенциални фактори, обикновено се вземат предвид само фактори с големи собствени стойности. С "добро" факторно решение, матрицата от изчислени връзки, получени с помощта на това ограничен наборфактори, на практика дублира матрицата на взаимоотношенията.

В нашия пример, когато няма ограничения за броя на факторите, собствените стойности 2.02, 1.94, .04 и .00 се изчисляват за всеки от четирите възможни фактора. Само за първите два фактора собствените стойности са достатъчно големи, за да бъдат обект на по-нататъшно разглеждане. Следователно само първите два фактора се извличат повторно. Те имат собствени стойности съответно 2,00 и 1,91, както е показано в таблица 1. 3. Използвайки уравнение (6) и вмъквайки стойностите от горния пример, получаваме:

(Всички компютърно изчислени стойности са еднакви; „ръчните“ изчисления може да се различават поради неточности в закръгляването.)

Лявото умножение на матрицата от собствени вектори по транспонираната към нея единица дава матрицата на идентичност E (с единици на главния диагонал и други нули). Следователно можем да кажем, че преобразуването на матрицата на връзката по формула (6) не променя самата нея, а само я трансформира в по-удобна за анализ форма:

Например:

Таблица 3

Собствени вектори и съответните собствени стойности за разглеждания казус

Собствен вектор 1 Собствен вектор 2
-.283 .651
.177 -.685
.658 .252
.675 .207
Собствена стойност 1 Собствена стойност 2
2.00 1.91

Тъй като корелационната матрица може да се диагонализира, алгебрата на матрицата на собствените вектори и собствените стойности може да се приложи към нея, за да се получат резултатите от факторния анализ (вижте Приложение 1). Ако една матрица може да се диагонализира, тогава цялата съществена информация за факторната структура се съдържа в нейната диагонална форма. При факторния анализ собствените стойности съответстват на дисперсията, обяснена от факторите. Факторът с най-голяма собствена стойност обяснява най-голямата дисперсия и така нататък, докато се стигне до фактори с малки или отрицателни собствени стойности, които обикновено се оставят извън анализа. Изчисленията на собствените стойности и собствените вектори са много трудоемки и способността да ги изчислявате не е абсолютна необходимост за психолог, който владее факторния анализ за собствените си практически цели. Запознаването с тази процедура обаче не боли, така че в Приложение 1 даваме като пример изчисляването на собствените стойности и собствените вектори на малка матрица.

За намиране на собствени стойности квадратна матрица p x p е необходимо да се намерят корените на полином от степен p, а за да се намерят собствените вектори, е необходимо да се решат p уравнения с p неизвестни с допълнителни странични ограничения, което за p>3 рядко се прави ръчно. След като се намерят собствените вектори и собствените стойности, останалата част от факторния анализ (или анализа на главните компоненти) става повече или по-малко ясна (вижте уравнения 8-11).

Уравнение (6) може да бъде представено като: R=V'LV, (8)

тези. матрицата на връзката може да се разглежда като продукт на три матрици - матрицата на собствените стойности, матрицата на съответните собствени вектори и матрицата, транспонирана към нея.

След трансформацията матрицата на собствените стойности L може да бъде представена, както следва:

и следователно: R=VÖLÖL V’ (10)

или (което е същото): R=(VÖL)(ÖL V’)

Означаваме: A=(VÖL) и A’=(ÖL V’), тогава R=AA’ (11)

тези. матрицата на връзката може също да бъде представена като продукт на две матрици, всяка от които е комбинация от собствени вектори и квадратни корени от собствени стойности.

Уравнение (11) често се нарича основно уравнение на факторния анализ. Той изразява твърдението, че матрицата на връзката е продукт на матрицата на факторно натоварване (A) и нейното транспониране.

Уравнения (10) и (11) също показват, че значителна част от изчисленията в методите на факторния анализ и главните компоненти е за определяне на собствените стойности и собствените вектори. След като те са известни, матрицата на фактора преди ротация се получава чрез директно умножение на матрицата:

В нашия пример:

Матрицата на факторното натоварване е матрица от връзки (интерпретирани като коефициенти на корелация) между фактори и променливи. Първата колона е корелациите между първия фактор и всяка променлива на свой ред: цената на обиколката (-.400), комфорта на комплекса (.251), температурата на въздуха (.932), температурата на водата (. 956). Втората колона е корелациите между втория фактор и всяка променлива: цена на обиколката (.900), комфорт на комплекса (-.947), температура на въздуха (.348), температура на водата (.286). Факторът се тълкува въз основа на променливи, тясно свързани с него (т.е. имащи големи натоварвания върху него). И така, първият фактор е предимно „климатичен“ (температура на въздуха и водата), докато вторият е „икономически“ (цената на обиколката и комфорта на комплекса).

Когато се интерпретират тези фактори, трябва да се обърне внимание на факта, че променливите, които имат високи натоварвания върху първия фактор (температура на въздуха и температура на водата), са положително корелирани, докато променливите, които имат високи натоварвания върху втория фактор (разходите за обиколка и комфортът на комплекса) са отрицателно свързани (не можете да очаквате голям комфорт от евтин курорт). Първият фактор се нарича униполярен (всички променливи са групирани на един полюс), а вторият се нарича биполярен (променливите се разделят на две противоположни групи - два полюса). Променливите с факторни натоварвания със знак плюс образуват положителен полюс, а тези със знак минус образуват отрицателен полюс. В същото време наименованията на полюсите "положителен" и "отрицателен" при интерпретация на фактора нямат оценъчно значение на "лош" и "добър". Изборът на знак става по време на изчисленията на случаен принцип. Замяната на всички знаци с противоположните им (всички плюсове с минуси и всички минуси с плюсове) не променя решението. Анализът на знаците е необходим само за идентифициране на групи (какво е противопоставено на какво). Със същия успех единият полюс може да се нарече десен, другият ляв. В нашия пример променливата цена на ваучера се оказа на положителния (десния) полюс, тя се противопоставя на променливия комфорт на комплекса на отрицателния (ляв) полюс. И този фактор може да се тълкува (наименува) като "Икономичност и Комфорт". Анкетираните, за които проблемът със спестяването е значителен, се оказаха отдясно - те получиха факторни стойности със знак плюс. Когато избират курорт, те се фокусират повече върху неговата евтиност и по-малко върху комфорта. Анкетираните, които не пестят пари на почивка (цената на ваучера не ги притеснява много) и които искат да се отпуснат преди всичко в комфортни условия, се оказаха отляво - те получиха факторни стойности с знак "минус".

Все пак трябва да се има предвид, че всички променливи са силно свързани с двата фактора. В рамките на това прост примертълкуването е очевидно, но в случай на реални данни не всичко е толкова просто. Обикновено даден фактор е по-лесен за тълкуване, ако само малка част от променливите са силно свързани с него, а останалите не са.

Ортогонално въртене

Ротацията обикновено се прилага след извличане на фактор, за да се максимизират високите корелации и да се минимизират ниските. Има многобройни методи за ротация, но най-често използваният е варимакс ротация, която е процедура за максимизиране на дисперсията. Тази ротация максимизира вариациите на факторното натоварване, като прави високите натоварвания по-високи и ниските натоварвания по-ниски от деня на всеки фактор. Тази цел се постига чрез трансформационни матрици L:

A преди завоя L=A след завоя,

тези. матрицата на факторните натоварвания преди завоя се умножава по матрицата на трансформация и резултатът е матрицата на факторните натоварвания след завоя. В нашия пример:

Сравнете матриците преди и след ротация. Имайте предвид, че матрицата след завъртане има ниски факторни тегла по-ниски и високи факторни тегла по-високи от матрицата преди завъртане. Подчертаната разлика в натоварванията улеснява интерпретацията на фактора и дава възможност за недвусмислен избор на променливи, които са тясно свързани с него.

Елементите на трансформационната матрица имат специална геометрична интерпретация:

Трансформационната матрица е матрицата на синусите и косинусите на ъгъла ψ, през който се извършва въртенето. (Оттук и името на трансформацията е ротация, тъй като от геометрична гледна точка осите се въртят около началото на факторното пространство.) В нашия пример този ъгъл е приблизително 19 градуса: cos19°= .946 и sin19° =.325. Геометрично това съответства на завъртане на факторните оси с 19 градуса около началото. (Вижте по-долу за повече относно геометричните аспекти на въртенето.)

ЕТАПИ НА ФАКТОРНИЯ АНАЛИЗ

Има девет етапа на факторния анализ. За по-голяма яснота представяме тези етапи в диаграмата и след това ги описваме накратко.

Етапите на факторния анализ са показани на фиг.

Ориз.

ФОРМУЛИРАНЕ НА ПРОБЛЕМА И КОНСТРУКЦИЯ НА КОРЕЛАЦИОННАТА МАТРИЦА

Формулиране на проблема.Необходимо е ясно да се дефинират целите на факторния анализ. Променливите, подложени на факторен анализ, се задават на базата на минали изследвания, теоретични изчисления или по преценка на изследователя. Променливите трябва да се измерват в интервалили роднинамащаб. Опитът показва, че размерът на извадката трябва да бъде четири до пет пъти по-голям от броя на променливите.

Построяване на корелационната матрица.Анализът се основава на корелационната матрица между променливите. Целесъобразността на извършването на факторен анализ се определя от наличието на корелации между променливите. Ако корелациите между всички променливи са малки, тогава факторният анализ е безполезен. Променливите, които са тясно свързани една с друга, обикновено са силно свързани с един и същи фактор или фактори.

За да тествате осъществимостта на използването на факторен модел, има няколко статистики. Тестът за сферичност на Бартлет тества нулевата хипотеза, че няма корелация между променливите в популацията. Това означава, че разглеждаме твърдението, че корелационната матрица на населението е матрица на идентичност, в която всички диагонални елементи са равни на единица, а всички останали са равни на нула. Тестът за сферичност се основава на преобразуване на детерминантата на корелационната матрица в хи-квадрат статистика. Ако статистиката е голяма, нулевата хипотеза се отхвърля. Ако нулевата хипотеза не е отхвърлена, тогава факторният анализ е неподходящ. Друга полезна статистика е тестът за адекватност на пробата на Кайзер-Майер-Олкин (KMO). Този коефициент сравнява стойностите на наблюдаваните коефициенти на корелация със стойностите на частичните коефициенти на корелация. Малките стойности на KMO - статистиката показват, че корелациите между двойки променливи не могат да бъдат обяснени с други променливи, което означава, че използването на факторен анализ е неподходящо.

След като се запознахме с концепциите за факторно натоварване и областта на ставните промени, можем да отидем по-далеч, като отново използваме апарата на матриците за представяне, чиито елементи този път ще бъдат коефициенти на корелация.

Матрицата на коефициентите на корелация, получена като правило експериментално, се нарича корелационна матрица или корелационна матрица.

Елементите на тази матрица са коефициентите на корелация между всички променливи на дадената съвкупност.

Ако имаме, например, набор, състоящ се от тестове, тогава броят на корелационните коефициенти, получени експериментално, ще бъде

Тези коефициенти запълват половината от матрицата, разположена от едната страна на нейния главен диагонал. От другата страна очевидно са същите коефициенти, тъй като и т.н. Следователно корелационната матрица е симетрична.

Схема 3.2. Пълна корелационна матрица

Има такива по диагонала на тази матрица, защото всяка променлива има +1 корелация със себе си.

Корелационна матрица, чиито основни диагонални елементи са равни на 1, се нарича „пълна матрица“ на корелация (схема 3.2) и се обозначава

Трябва да се отбележи, че чрез поставяне на единици или корелации на всяка променлива със самата нея на главния диагонал, ние вземаме предвид общата дисперсия на всяка променлива, представена в матрицата. По този начин се отчита влиянието не само на общи, но и на специфични фактори.

Напротив, ако на главния диагонал на корелационната матрица има елементи, съответстващи на общите неща и свързани само с общата вариация на променливите, тогава се взема предвид само влиянието на общите фактори, влиянието на специфичните фактори и грешките е елиминирани, т.е. спецификата и вариацията на грешките се отхвърлят.

Корелационната матрица, в която елементите на главния диагонал съответстват на общите, се нарича редуцирана и се означава с R (схема 3.3).

Схема 3.3. Редуцирана корелационна матрица

Вече говорихме за факторно зареждане или запълване на дадена променлива със специфичен фактор. В същото време беше подчертано, че факторното натоварване има формата на корелационен коефициент между дадена променлива и даден фактор.

Матрица, чиито колони се състоят от натоварванията на даден фактор по отношение на всички променливи на дадена популация и редовете на факторните натоварвания на дадена променлива, се нарича матрица от фактори или факторна матрица. Тук можете също да говорите за пълната и намалената факторна матрица. Елементите на пълната факторна матрица съответстват на общата единица дисперсия на всяка променлива от дадената съвкупност. Ако натоварванията върху общите фактори са означени с c, а натоварванията на специфичните фактори са означени с и, тогава пълната факторна матрица може да бъде представена по следния начин:

Схема 3.4. Пълна факторна матрица за четири променливи

Факторната матрица, показана тук, се състои от две части.Първата част съдържа елементи, свързани с четири променливи и три общи фактора, за които се предполага, че се прилагат за всички променливи. То не яде необходимо условие, тъй като някои елементи от първата част на матрицата може да са равни на нула, което означава, че някои фактори не се прилагат за всички променливи. Елементите на първата част на матрицата са натоварванията на общите множители (например елементът показва натоварването на втория общ множител с първата променлива).

Във втората част на матрицата виждаме 4 зареждания на характерни фактори, по един на всеки ред, което отговаря на тяхната специфика. Всеки от тези фактори се отнася само за една променлива. Всички останали елементи от тази част на матрицата са равни на нула. Характерните фактори очевидно могат да бъдат разделени на специфични и свързани с грешки.

Колоната на факторната матрица характеризира фактора и неговото влияние върху всички променливи. Линията характеризира променливата и нейното съдържание с различни фактори, с други думи факторната структура на променливата.

Когато анализираме само първата част от матрицата, имаме работа с факторна матрица, показваща общата дисперсия на всяка променлива. Тази част от матрицата се нарича редуцирана част и се обозначава с F. Тази матрица не отчита натоварването на характерните фактори и не отчита специфичната дисперсия. Спомнете си, че в съответствие с казаното по-горе за общите дисперсии и факторните натоварвания, които са квадратни корени от общите дисперсии, сумата от квадратите на елементите на всеки ред на редуцираната факторна матрица F е равна на общата на дадената променлива

Съответно сумата от квадратите на всички елементи от реда на пълната матрица от фактори е равна на , или общата дисперсия на тази променлива.

Тъй като факторният анализ се фокусира върху общи фактори, ние ще използваме главно намалената корелация и намалената факторна матрица в това, което следва.




Зареждане...
Връх