Matricea factorilor. Concepte teoretice de bază ale analizei factoriale

Următorul exemplu se bazează pe date fictive legate de studiile privind satisfacția în viață. Să presupunem că chestionarul a fost trimis la 100 de adulți selectați aleatoriu. Chestionarul a conținut 10 itemi menționați pentru a măsura satisfacția în muncă, satisfacția hobby-ului, satisfacția vieții acasă și satisfacția generală în alte domenii ale vieții. Răspunsurile la întrebări au fost introduse în computer și scalate astfel încât media tuturor itemilor să fie de aproximativ 100.

Rezultatele au fost plasate în fișierul de date Factor.sta. Puteți deschide acest fișier folosind opțiunea File - Open; cel mai probabil, acest fișier de date se află în directorul /Examples/Datasets. Mai jos este o listă a variabilelor din acest fișier (selectați Toate specificațiile variabilelor din meniul Date pentru o listă).

Scopul analizei . Scopul analizei este de a studia relația dintre satisfacția în diverse domenii de activitate. În special, este de dorit să se studieze problema numărului de factori „ascunși” în spatele diferitelor domenii de activitate și semnificația acestora.

Alegerea analizei. Selectați Analiza factorială din meniul Analiză - Analiză exploratorie multivariată pentru a afișa panoul de lansare al modulului Analiză factorială. Faceți clic pe butonul Variabile de pe Launchpad (vezi mai jos) și selectați toate cele 10 variabile din acest fișier.



Alte optiuni . Pentru a efectua analiza factorilor standard, această casetă de dialog are tot ce aveți nevoie. Pentru obtinerea Prezentare generală alte comenzi disponibile din platforma de lansare, puteți alege ca fișier de intrare matricea de corelație (folosind câmpul Fișier de date). În câmpul Eliminare PD, puteți selecta excluderea rând cu linie sau perechi sau înlocuirea medie a datelor lipsă.

Specificați metoda de extracție a factorilor. Acum apăsăm butonul OK pentru a trece la următoarea casetă de dialog numită Specificați metoda de extracție a factorului. Folosind această casetă de dialog, puteți vizualiza statistici descriptive, efectua analize de regresie multiplă, selectați o metodă de extracție a factorilor, selectați numărul maxim de factori, valorile proprii minime și alte acțiuni legate de specificul metodelor de extracție a factorilor. Acum să mergem la fila Descriptive.



Vedeți statistici descriptive. Acum faceți clic pe View Corr./Average/Std. în această fereastră pentru a deschide fereastra Vizualizare statistici descriptive.



Acum puteți vizualiza statisticile descriptive grafic sau cu tabelele de rezultate.

Calculul matricei de corelație. Faceți clic pe butonul Corelații din fila Avansat pentru a afișa un tabel cu rezultate cu corelații.



Toate corelațiile din acest tabel de rezultate sunt pozitive, iar unele corelații sunt semnificative. De exemplu, variabilele Hobby_1 și Miscel_1 sunt corelate la nivelul 0,90. Unele corelații (de exemplu, corelațiile dintre satisfacția la locul de muncă și satisfacția acasă) par relativ mici. Se pare că matricea are o structură distinctă.

Metoda de selecție. Acum faceți clic pe butonul Anulare din caseta de dialog Vizualizare statistici descriptive pentru a reveni la caseta de dialog Specificați metoda de extragere a factorilor. Puteți alege dintre mai multe metode de selecție din fila Avansat (consultați fila Avansat din caseta de dialog Specificați metoda de extragere a factorilor pentru o descriere a fiecărei metode și o Prezentare generală introductivă pentru o descriere a metodei componentei principale și a metodei factorului principal). În acest exemplu, valoarea implicită este Componente principale, Max. numărul de factori conține valoarea 10 (numărul maxim de factori din acest exemplu) și câmpul Min. proprii valoarea conține 0 (valoarea minimă pentru această comandă).



Faceți clic pe OK pentru a continua analiza.

Vezi rezultate. Puteți vizualiza rezultatele analizei factoriale în caseta de dialog Rezultate analiză factorială. Mai întâi selectați fila Varianta explicată.



Afișarea valorilor proprii . Atribuirea valorilor proprii și utilitatea acestora pentru utilizator pentru a decide câți factori să părăsească (interpretați) au fost descrise în revizuirea introductivă. Acum faceți clic pe butonul Valori proprii pentru a obține un tabel cu valori proprii, procentaj de variație totală, valori proprii acumulate și procente acumulate.


După cum se poate vedea din tabel, valoarea proprie pentru primul factor este 6,118369; acestea. proporția de varianță explicată de primul factor este de aproximativ 61,2%. Rețineți că aceste valori s-au întâmplat să fie ușor comparabile aici, deoarece sunt analizate 10 variabile și, prin urmare, suma tuturor valorilor proprii se dovedește a fi 10. Al doilea factor include aproximativ 18% din varianță. Alți factori nu conțin mai mult de 5%varianta totala.Alegerea numărului de factori. Secțiunea Prezentare generală introductivă descrie pe scurt modul în care valorile proprii rezultate pot fi utilizate pentru a decide câți factori să păstrați în model. Conform testului lui Kaiser (Kaiser, 1960), ar trebui să lăsați factori cu valori proprii mai mari decât 1. Din tabelul de mai sus rezultă că testul are ca rezultat selectarea a doi factori.

Criteriul Scree . Acum faceți clic pe butonul Scree Plot pentru a obține o diagramă de valori proprii pentru aplicarea testului scree al lui Cattell (Cattell, 1966). Graficul de mai jos a fost completat cu segmente care conectează valorile proprii adiacente pentru a face criteriul mai vizual. Cattell afirmă, pe baza metodei Monte Carlo, că punctul în care scăderea continuă a valorilor proprii încetinește și dincolo de care nivelul valorilor proprii rămase reflectă doar „zgomot” aleatoriu. În graficul de mai jos, acest punct poate corespunde unui factor de 2 sau 3 (după cum este indicat de săgeți). Prin urmare, încercați ambele soluții și vedeți care oferă o imagine mai adecvată.



Acum luați în considerare încărcările factorilor.

Factorizarea sarcinilor . După cum este descris în secțiunea Prezentare generală introductivă, încărcările factorilor pot fi interpretate ca corelații între factori și variabile. Prin urmare, ele reprezintă cel mai mult Informații importante pe care se bazează interpretarea factorilor. Mai întâi, să ne uităm la încărcările de factori (fără înclinare) pentru toți cei zece factori. În fila Încărcări din caseta de dialog Rezultatele analizei factorilor, în câmpul Rotație a factorilor, setați valoarea fără rotație și faceți clic pe butonul Încărcări factori pentru a afișa tabelul de încărcări.



Amintiți-vă că selecția factorilor a avut loc în așa fel încât factorii ulterioare au inclus din ce în ce mai puțină variație (vezi secțiunea Revizuire introductivă). Prin urmare, nu este surprinzător că primul factor are cea mai mare sarcină. Rețineți că semnele încărcărilor factorilor sunt importante doar pentru a arăta că variabilele cu încărcări opuse asupra aceluiași factor interacționează cu acest factor în mod opus. Cu toate acestea, puteți înmulți toate sarcinile dintr-o coloană cu -1 și inversați semnele. În toate celelalte privințe, rezultatele vor rămâne neschimbate.

Rotația soluției factorilor. După cum este descris în secțiunea Prezentare generală introductivă, orientarea reală a factorilor într-un spațiu de factori este arbitrară și orice rotație a factorilor reproduce corelațiile la fel de bine ca și alte rotații. Prin urmare, pare natural să se rotească factorii în așa fel încât să se selecteze structura factorilor care este cel mai ușor de interpretat. De fapt, termenul de structură simplă a fost inventat și definit de Thurstone (1947) în principal pentru a descrie condițiile în care factorii sunt marcați de încărcări mari asupra unor variabile și încărcări scăzute pe altele și, de asemenea, atunci când există mai multe încărcări încrucișate mari, i.e. există mai multe variabile cu încărcări semnificative pe mai mult de un factor. Cea mai standard metodă de rotație computațională pentru obținerea unei structuri simple este metoda de rotație varimax propusă de Kaiser (Kaiser, 1958). Alte metode propuse de Harman (Harman, 1967) sunt metodele quartimax, biquartimax și equimax (vezi Harman, 1967).

Selectarea rotației . În primul rând, luați în considerare numărul de factori pe care doriți să-i lăsați pentru a roti și interpreta. Anterior, s-a decis ca cel mai plauzibil si acceptabil numar de factori este doi, dar pe baza criteriului scree s-a decis sa se ia in considerare si o decizie cu trei factori. Faceți clic pe butonul Anulare pentru a reveni la caseta de dialog Set Factor Extraction Method și modificați câmpul Număr maxim de factori din fila Rapid de la 10 la 3, apoi faceți clic pe butonul OK pentru a continua analiza.

Acum să rotim folosind metoda varimax. În fila Încărcări a casetei de dialog Rezultate analiză factorială, în câmpul Rotație factori, setați valoarea Varimax a inițiale.



Apăsați butonul Factor loads pentru a afișa rezultatele încărcărilor de factori rezultate în tabel.


Afișarea soluției la rotirea a trei factori. Tabelul arată încărcările semnificative pe primul factor pentru toate variabilele, cu excepția celor legate de casă. Factorul 2 are încărcări destul de semnificative pentru toate variabilele, cu excepția celor legate de satisfacția în muncă. Factorul 3 are o singură încărcare semnificativă pentru variabila Home_1. Faptul că al treilea factor este puternic încărcat de o singură variabilă face să ne întrebăm dacă același rezultat bun poate fi obținut fără al treilea factor?

Revizuirea soluției sub rotația a doi factori . Faceți clic din nou pe butonul Anulare din caseta de dialog Rezultate analiză factorială pentru a reveni la caseta de dialog Specificați metoda de extracție a factorilor. Modificați câmpul Număr maxim de factori din fila Rapidă de la 3 la 2 și faceți clic pe OK pentru a accesa caseta de dialog Rezultate analiză factorială. În fila Încărcări, în câmpul Factori de rotație, setați valoarea inițială la Varimax și faceți clic pe butonul Factor loads.


Factorul 1, după cum se poate observa din tabel, are cele mai mari încărcări pentru variabilele legate de satisfacția în muncă. Are cele mai mici sarcini asupra variabilelor legate de satisfacția acasă. Alte sarcini iau valori intermediare. Factorul 2 are cele mai mari încărcări pentru variabilele asociate cu satisfacția la domiciliu, cele mai mici încărcări pentru satisfacția la locul de muncă, încărcările medii pentru variabilele rămase.

Interpretarea soluției pentru rotația cu doi factori . Este posibil să se interpreteze acest model? Se pare că cei doi factori sunt cel mai bine identificați ca satisfacție în muncă (factorul 1) și satisfacția cu viața de acasă (factorul 2). Satisfacția față de hobby-urile cuiva și diverse alte aspecte ale vieții par să fie legate de ambele. Acest model sugerează, într-un anumit sens, că satisfacția vieții de acasă și de la locul de muncă din acest eșantion pot fi independente una de cealaltă, dar ambele contribuie la satisfacția față de hobby-uri și alte aspecte ale vieții.

Diagrama unei decizii bazate pe rotația a doi factori . Pentru a obține un grafic de dispersie a doi factori, faceți clic pe butonul 2M Load Plot din fila Loads din caseta de dialog Factor Analysis Results. Diagrama de mai jos arată pur și simplu două sarcini pentru fiecare variabilă. Rețineți că graficul de dispersie ilustrează bine doi factori independenți și 4 variabile (Hobby_1, Hobby_2, Miscel_1, Miscel_2) cu încărcări încrucișate.



Acum să vedem cât de bine poate fi reprodusă matricea de covarianță observată printr-o soluție cu doi factori.

Matrice de corelație reprodusă și reziduală. Faceți clic pe butonul Corelații reproduse și reziduale din fila Varianta explicată pentru a obține două tabele cu o matrice de corelație replicată și o matrice de corelații reziduale (corelații observate minus replicate).



Intrările din tabelul de corelații reziduale pot fi interpretate ca „suma” corelațiilor care nu pot fi explicate de cei doi factori rezultați. Desigur, elementele diagonale ale matricei conțin o abatere standard pentru care acești factori nu pot fi responsabili, care este egală cu rădăcina pătrată a unu minus comunitățile respective pentru cei doi factori (reamintim că comunitatea variabilei este varianța, ceea ce poate fi explicat prin numărul de factori ales). Dacă examinați cu atenție această matrice, puteți vedea că de fapt nu există corelații reziduale mai mari de 0,1 sau mai mici de -0,1 (de fapt, doar un număr mic dintre ele sunt aproape de această valoare). Adăugați la aceasta că primii doi factori includ aproximativ 79% din varianța totală (vezi % cumulat de valori proprii în tabelul cu rezultate).

„Secretul” unui exemplu bun . Exemplul pe care tocmai l-ați studiat oferă de fapt o soluție aproape perfectă pentru problema cu doi factori. Determină cea mai mare parte a varianței, are o interpretare rezonabilă și reproduce o matrice de corelație cu abateri moderate (corelații reziduale). De fapt, datele reale rareori permit obținerea unei astfel de soluții simple și, de fapt, acest set de date fictiv a fost obținut folosind un generator de numere aleatorii cu o distribuție normală disponibilă în sistem. În mod special, în date au fost „introduși” doi factori ortogonali (independenți), conform cărora s-au generat corelații între variabile. Acest exemplu de analiză factorială reproduce cei doi factori așa cum au fost (adică factorul de satisfacție la locul de muncă și factorul de satisfacție cu viața de acasă). Astfel, dacă un fenomen (și nu artificial, ca în exemplu, date) conținea acești doi factori, atunci izolându-i, puteai afla ceva despre structura ascunsă sau latentă a fenomenului.

Alte rezultate . Înainte de a face o concluzie finală, facem comentarii scurte asupra altor rezultate.

comunitățile . Pentru a obține generalitățile soluției, faceți clic pe butonul Generalități din fila Varianta explicată din caseta de dialog Rezultate analiză factorială. Reamintim că comunitatea unei variabile este fracțiunea varianței care poate fi reprodusă pentru un număr dat de factori. Rotirea spațiului factorilor nu afectează gradul de generalitate. Caracteristicile comune foarte scăzute pentru una sau două variabile (din multe din analiză) pot indica faptul că aceste variabile nu sunt bine explicate de model.

Coeficienți de valoare. Coeficienții factorilor pot fi utilizați pentru a calcula valorile factorilor pentru fiecare observație. Coeficienții înșiși sunt de obicei de puțin interes, dar valorile factorilor sunt utile în analize ulterioare. Pentru a afișa coeficienții, faceți clic pe butonul Coeficienți valorii factorilor din fila Valori din caseta de dialog Rezultate analiză factorială.

Valorile factorilor. Valorile factoriale pot fi considerate ca fiind valorile curente pentru fiecare respondent chestionat (adică pentru fiecare observație a tabelului de date original). Butonul Valori factorilor din fila Valori din caseta de dialog Rezultate analiză factorială vă permite să calculați valorile factorilor. Aceste valori pot fi salvate pentru mai târziu făcând clic pe butonul Salvare valori.

Comentariu final. Analiza factorială nu este o procedură ușoară. Oricine folosește în mod constant analiza factorilor cu multe (de ex. 50 sau mai multe) variabile s-ar putea vedea multe exemple de „comportament patologic” precum: valori proprii negative și soluții neinterpretabile, matrici speciale etc. Dacă sunteți interesat să utilizați analiza factorială pentru a determina sau factori semnificativi pentru un număr mare de variabile, ar trebui să studiați cu atenție orice ghid detaliat(de exemplu, cartea lui Harman (Harman, 1968)). Astfel, deoarece multe dintre deciziile critice în analiza factorilor sunt în mod inerent subiective (numărul de factori, metoda de rotație, interpretarea încărcărilor), fiți pregătiți că este necesară o anumită experiență înainte de a vă simți încrezător în ea. Modulul de analiză factorială a fost conceput special pentru a facilita utilizatorului comutarea interactivă între diferite numere de factori, rotații etc., astfel încât să testeze și să compare diferite soluții.

Acest exemplu este preluat din sistem de ajutor RFP STATISTICI de StatSoft

ANALIZA FACTORIALĂ STATISTICA

Corelații (factor.sta) Îndepărtarea linie cu linie a PD n=100

Variabil

LUCRU_1

LUCRU_2

LUCRU_3

CASA NUMĂR 1

CASA 2

CASA 3

După cum se poate observa din matricea de corelație, variabilele legate de satisfacția la locul de muncă sunt mai corelate între ele, iar variabilele legate de satisfacția la domiciliu sunt, de asemenea, mai corelate între ele. Corelațiile dintre aceste două tipuri de variabile (variabile legate de satisfacția la locul de muncă și variabile legate de satisfacția la domiciliu) sunt relativ mici. Prin urmare, pare plauzibil că există doi factori relativ independenți (două tipuri de factori) reflectați în matricea de corelație: unul se referă la satisfacția în muncă și celălalt la satisfacția vieții de acasă.

    Factorizarea sarcinilor

A doua etapă a analizei factorilor este selecția inițială a factorilor fie prin metoda componentelor principale, fie prin metoda factorilor principali. Rezultatul pentru exemplul nostru este o soluție cu doi factori. Luați în considerare corelațiile dintre variabile și doi factori (sau variabile „noi”). Aceste corelații sunt numite corelații factori.

Tabelul 3.16

Tabel de sarcini factoriale (metoda componentelor principale)

ANALIZA FACTORIALĂ STATISTICA

Încărcări factori (fără rotație) Componente principale

Variabil

Factorul 1

Factorul 2

Varianta totala

Ponderea disp. totală

După cum se poate observa din Tabelul 3.16, primul factor este mai corelat cu variabilele decât al doilea (deoarece valorile sarcinilor de greutate pentru fiecare variabilă a primului factor sunt mai mari decât al doilea). Acest lucru este evident deoarece, așa cum sa menționat mai sus, factorii sunt extrași secvenţial și conțin din ce în ce mai puțină varianță totală (vezi secțiunea Valorile proprii și numărul de factori distinși, pagina 61).

    Metode de rotație a factorilor

A treia etapă a analizei factorilor este rotația sarcinilor factoriale rezultate din etapa anterioară. Metodele tipice de rotație sunt strategiile varimax, quartimax, Și echimax. Scopul acestor metode este de a obține o matrice de încărcare ușor de înțeles (interpretabilă), adică factori care sunt marcați clar de încărcări mari (de exemplu, mai mari de 0,7) pentru unele variabile și încărcări scăzute pentru altele. Acest model general este uneori numit structură simplă.

Ideea de rotație prin metodă varimax a fost descris mai sus (vezi secțiunea Metoda componentei principale, pagina 60). Această metodă poate fi aplicată și la exemplul luat în considerare. Ca și înainte, sarcina noastră este să găsim o rotație care să maximizeze dispersia de-a lungul noilor axe; sau, cu alte cuvinte, să se obțină o matrice de încărcări pentru fiecare factor în așa fel încât acestea să difere cât mai mult posibil și să existe posibilitatea interpretării lor simple. Mai jos este un tabel cu sarcinile pe factori rotați.

Tabelul 3.17

Tabel de sarcină factorială (rotație - varimax)

ANALIZA FACTORIALĂ STATISTICA

Încărcări factori (Varimax normalizate) Extracție: Componente principale

Variabil

Factorul 1

Factorul 2

Varianta totala

Ponderea disp. totală

După cum se poate observa din Tabelul 3.17, primul factor este marcat de încărcări mari asupra variabilelor asociate cu satisfacția la locul de muncă, iar al doilea factor este marcat de satisfacția la domiciliu. Din aceasta putem concluziona că satisfacția măsurată prin chestionar este compusă din două părți: satisfacția față de casă și serviciu. Astfel, produs clasificare variabilele studiate. Pe baza clasificării obținute, primul factor poate fi numit factor de satisfacție în muncă (sau factor de valori sociale) și, în consecință, al doilea factor, factor de satisfacție acasă (sau factor de valori personale).

    Interpretarea rezultatelor analizei factoriale

Etapa finală a analizei factorilor este o interpretare semnificativă a factorilor obținuți ca rezultat al rotației. Aici, cercetătorului i se cere să aibă un fundal teoretic bun și cunoaștere a rezultatelor experimentale deja acumulate în acest domeniu de cercetare.

În practică, interpretarea factorilor constă în alocarea unor ponderi semnificative ale factorilor (variabile de referință) pentru fiecare dintre factori. Nu există criterii exacte pentru a diferenția între ponderile factorilor semnificative (încărcări) și cele nesemnificative. De exemplu, în cazul eșantioanelor mari (câteva sute de persoane sau mai mult), încărcările de 0,3 sau mai mult sunt uneori considerate semnificative. Atunci când eșantionul este redus la câteva zeci de persoane, ponderi de ordinul 0,4–0,5 sunt folosite ca fiind semnificative.

Interpretarea factorilor nu decurge întotdeauna fără probleme; în unele cazuri este doar ipotetic (de exemplu, în cazul utilizării datelor corespunzătoare diferitelor tipuri de scale), iar uneori autorii îl abandonează complet, deoarece factorul include teste în care este greu să vedem ceva în comun.

În mod ideal (distribuția variabilelor nu diferă de cea normală), interpretarea rezultatelor analizei factoriale poate începe cu analiza matricei de corelație, apoi se trece la încărcările factorilor (selectarea variabilelor de referință). Următorul pas este compararea rezultatelor matricei de corelație și a factorilor selectați care conțin ponderi semnificative. Și, în sfârșit, ultima etapă este analiza generalităților obținute ale conținutului și naturii acelor variabile (trăsături) studiate care au cea mai mare corelație cu acest factor. Denumirea factorilor se realizează ținând cont de acele variabile de referință care au primit ponderi maxime și au cea mai mare corelație cu factorul. De exemplu, dacă testele care evaluează capacitatea de a capta material fără sens au sarcini mari asupra acestui factor, atunci acesta din urmă poate fi numit factor de „memorie de rotație”.

Ecuații de bază

Anterior, aproape toate manualele și monografiile de analiză factorială ofereau o explicație despre modul de efectuare a calculelor de bază „manual” sau folosind un simplu dispozitiv de calcul (aritmometru sau calculator). Astăzi, datorită complexității și cantității mari de calcule necesare pentru a construi o matrice de relații, a identifica factorii și a le roti, probabil că nu a mai rămas o singură persoană care să nu folosească analiza factorială atunci când efectuează analiza factorială. calculatoare puterniceși programe aferente.

Prin urmare, ne vom concentra pe care sunt cele mai semnificative matrice (seturi de date) care pot fi obținute în cursul analizei factoriale, modul în care acestea sunt legate între ele și cum pot fi utilizate pentru interpretarea datelor. Toate calculele necesare pot fi făcute folosind oricare program de calculator(de exemplu, SPSS sau STADIA).

ÎN fila. 1 este prezentată o listă a celor mai importante matrice pentru analiza componentelor principale și analiza factorială. Această listă conține în principal matrici de relații (între variabile, între factori, între variabile și factori), scoruri standardizate (pe variabile și pe factori), ponderi de regresie (pentru calcularea scorurilor factorilor folosind scorurile pe variabile) și matrice de cartografiere a relațiilor factorilor între factori. şi variabile după rotaţia oblică. ÎN fila. 1 De asemenea, sunt date matrice de valori proprii și vectori proprii corespunzători. Valorile proprii (valorile proprii) și vectorii proprii sunt descrise având în vedere importanța lor pentru selecția factorilor, utilizarea unui număr mare de termeni speciali în acest sens și, de asemenea, legătură strânsă valori proprii și varianță în cercetarea statistică.

tabelul 1

Matricele utilizate cel mai frecvent în analiza factorială

Desemnare Nume mărimea Descriere
R Matricea relațiilor pxp Relații între variabile
D Matrice de date personalizată Nxp Date primare - valori nestandardizate ale observațiilor asupra variabilelor primare
Z Matricea de date standardizată Nxp Valori standardizate ale observațiilor pe variabile primare
F Matricea valorilor factorilor N x f Valori standardizate ale observațiilor pe factori
A Matricea de încărcare a factorilor Matricea de cartografiere a factorilor px f Coeficienți de regresie pentru factori comuni, cu condiția ca variabilele observate să fie o combinație liniară de factori. În cazul rotaţiei ortogonale – relaţii dintre variabile şi factori
ÎN Matricea coeficienților valorilor factorilor px f Coeficienți de regresie pentru a calcula valorile factorilor utilizând valori variabile
S Matricea structurală px f Relații dintre variabile și factori
F Matricea de corelare a factorilor f X f Corelații între factori
L Matrice de valori proprii (diagonală) f X f Valori proprii (rădăcini caracteristice, latente); fiecărui factor îi corespunde o singură valoare
V Matricea vectorului propriu f X f Vectori proprii (caracteristici); fiecărei valori proprii îi corespunde un vector propriu

Notă. Când se specifică dimensiunea, este dat numărul de rânduri x numărul de coloane: R- numărul de variabile, N- numărul de observații, f- numărul de factori sau componente. Dacă matricea relaţiilor R nu este degenerat și are rang egal cu R, atunci chiar iese în evidență R valori proprii și vectori proprii, nu f. Cu toate acestea, doar de interes f dintre ei. Prin urmare, restul p-f nu sunt prezentate.

La matrice SȘi F se aplică doar rotația oblică, restul - rotația ortogonală și oblică.

Setul de date pregătit pentru analiza factorială este alcătuit din rezultatele măsurătorilor (sondajului) unui număr mare de subiecți (respondenți) pe anumite scale (variabile). ÎN fila. 2 este dat o serie de date, care pot fi considerate condițional satisfăcând cerințele analizei factoriale.

Cinci respondenți care au aplicat la o agenție de turism pentru achiziționarea unui bilet la o stațiune de pe litoral au fost întrebați despre semnificația pentru ei a celor patru condiții (variabile) pentru alegerea unei destinații de vacanță de vară. Aceste condiții variabile au fost: costul turului, confortul complexului, temperatura aerului, temperatura apei. Cu cât mai importantă, din punctul de vedere al intimatului, aceasta sau cutare condiție avea pentru el, cu atât îi atribuia mai multă importanță. Sarcina cercetării a fost studierea modelului relației dintre variabile și identificarea cauzelor fundamentale care determină alegerea stațiunii. (Desigur, exemplul este extrem de simplificat în scopuri ilustrative și educaționale și nu trebuie luat în serios într-un aspect semnificativ.)

Matricea relatiilor ( fila. 2) a fost calculată ca o corelație. Acordați atenție structurii relațiilor din ea, evidențiate prin verticală și linii orizontale. Corelațiile ridicate din cadranele din stânga sus și din dreapta jos arată că evaluările pentru costul turului și confortul complexului sunt interdependente, precum și evaluările pentru temperatura aerului și temperatura apei. Celelalte două cadrane arată că temperatura aerului și confortul complexului sunt legate, precum și confortul complexului și temperatura apei.

Acum să încercăm să folosim analiza factorială pentru a detecta această structură de corelații, ușor vizibilă cu ochiul liber într-o matrice de corelație mică (într-o matrice mare, acest lucru este foarte greu de realizat).

masa 2

Date pentru analiza factorială (studiu de caz)

Turiştii Variabile
Prețul biletului Nivel de confort Temperatura aerului Temperatura apei
T1
T2
T3
T4
T5

Matricea de corelație

Prețul biletului Nivel de confort Temperatura aerului Temperatura apei
Prețul biletului 1,000 -0,953 -0,055 -0,130
Nivel de confort -0,953 1,000 -,091 -0,036
Temperatura aerului -0,055 -0,091 1,000 0,990
Temperatura apei -0,130 -0,036 0,990 1,000

Factorizarea

O teoremă importantă din algebra matriceală afirmă că matricele care îndeplinesc anumite condiții pot fi diagonalizate, i.e. convertită într-o matrice cu numere pe diagonala principală și zerouri pe toate celelalte poziții. Matricele de relații aparțin în mod specific tipului de matrici diagonalizabile. Transformarea se realizează după formula:

acestea. matricea R este diagonalizată prin înmulțirea ei mai întâi (din stânga) cu matricea transpusă V, notată cu V', și apoi (din dreapta) cu matricea V însăși.

Coloanele din matricea V sunt numite vectori proprii, iar valorile de pe diagonala principală a matricei L sunt numite valori proprii. Primul vector propriu corespunde primei valori proprii și așa mai departe. (pentru mai multe detalii vezi Anexa 1).

Datorită faptului că în exemplul de mai sus sunt luate în considerare patru variabile, obținem patru valori proprii cu vectorii proprii corespunzători. Dar, deoarece scopul analizei factorilor este de a generaliza matricea relațiilor prin cât mai puțini factori posibil, iar fiecare valoare proprie corespunde diferiților factori potențiali, de obicei sunt luați în considerare doar factorii cu valori proprii mari. Cu o soluție factorială „bună”, matricea relațiilor calculate se obține folosind aceasta set limitat factori, practic duplică matricea relațiilor.

În exemplul nostru, atunci când nu există restricții privind numărul de factori, valorile proprii 2.02, 1.94, .04 și .00 sunt calculate pentru fiecare dintre cei patru factori posibili. Numai pentru primii doi factori, valorile proprii sunt suficient de mari pentru a face obiectul unei analize suplimentare. Prin urmare, doar primii doi factori sunt reextrași. Au valori proprii de 2,00 și, respectiv, 1,91, așa cum se arată în tabelul 1. 3. Folosind ecuația (6) și inserând valorile din exemplul de mai sus, obținem:

(Toate valorile calculate de computer sunt aceleași; calculele „manuale” pot diferi din cauza inexactităților de rotunjire.)

Înmulțirea la stânga a matricei de vectori proprii cu cea transpusă acesteia dă matricea de identitate E (cu unii pe diagonala principală și alte zerouri). Prin urmare, putem spune că transformarea matricei de relații conform formulei (6) nu o schimbă în sine, ci doar o transformă într-o formă mai convenabilă pentru analiză:

De exemplu:

Tabelul 3

Vectori proprii și valorile proprii corespunzătoare pentru studiul de caz luat în considerare

Vectorul propriu 1 Vectorul propriu 2
-.283 .651
.177 -.685
.658 .252
.675 .207
Valoare proprie 1 Valoare proprie 2
2.00 1.91

Deoarece matricea de corelație este diagonalizabilă, i se poate aplica algebra matriceală a vectorilor proprii și a valorilor proprii pentru a obține rezultatele analizei factoriale (vezi Anexa 1). Dacă o matrice este diagonalizabilă, atunci toate informațiile esențiale despre structura factorilor sunt conținute în forma sa diagonală. În analiza factorială, valorile proprii corespund varianței explicate de factori. Factorul cu cea mai mare valoare proprie explică cea mai mare variație și așa mai departe, până când se reduce la factori cu valori proprii mici sau negative, care sunt de obicei lăsați în afara analizei. Calculele valorilor proprii și vectorilor proprii sunt foarte laborioase, iar capacitatea de a le calcula nu este o necesitate absolută pentru un psiholog care stăpânește analiza factorială în propriile sale scopuri practice. Cu toate acestea, familiaritatea cu această procedură nu strica, așa că în Anexa 1 dăm ca exemplu calculul valorilor proprii și al vectorilor proprii pe o matrice mică.

Pentru a găsi valori proprii matrice pătrată p x p este necesar să se găsească rădăcinile unui polinom de gradul p, iar pentru a găsi vectorii proprii este necesar să se rezolve p ecuații cu p necunoscute cu restricții laturi suplimentare, ceea ce pentru p>3 se face rar manual. Odată ce vectorii proprii și valorile proprii sunt găsite, restul analizei factoriale (sau analiza componentelor principale) devine mai mult sau mai puțin clară (vezi ecuațiile 8-11).

Ecuația (6) poate fi reprezentată ca: R=V'LV, (8)

acestea. matricea de relații poate fi considerată ca un produs a trei matrice - matricea valorilor proprii, matricea vectorilor proprii corespunzători și matricea transpusă acesteia.

După transformare, matricea valorilor proprii L poate fi reprezentată după cum urmează:

și prin urmare: R=VÖLÖL V’ (10)

sau (care este același): R=(VÖL)(ÖL V’)

Notați: A=(VÖL) și A’=(ÖL V’), apoi R=AA’ (11)

acestea. matricea de relații poate fi reprezentată și ca un produs a două matrice, fiecare dintre acestea fiind o combinație de vectori proprii și rădăcini pătrate ale valorilor proprii.

Ecuația (11) este adesea numită ecuația fundamentală a analizei factoriale. Exprimă afirmația că matricea de relații este produsul dintre matricea de încărcare a factorilor (A) și transpunerea acesteia.

Ecuațiile (10) și (11) arată, de asemenea, că o proporție semnificativă a calculelor din metodele de analiză factorială și componente principale este de a determina valorile proprii și vectorii proprii. Odată ce acestea sunt cunoscute, matricea factorului de pre-rotație este obținută prin multiplicare directă a matricei:

În exemplul nostru:

Matricea de încărcare a factorilor este o matrice de relații (interpretate ca coeficienți de corelație) între factori și variabile. Prima coloană reprezintă corelațiile dintre primul factor și fiecare variabilă pe rând: costul turului (-.400), confortul complexului (.251), temperatura aerului (.932), temperatura apei (. 956). A doua coloană reprezintă corelațiile dintre al doilea factor și fiecare variabilă: costul turului (.900), confortul complexului (-.947), temperatura aerului (.348), temperatura apei (.286). Factorul este interpretat pe baza variabilelor puternic asociate cu acesta (adică având sarcini mari asupra acestuia). Deci, primul factor este în principal „climatic” (temperatura aerului și a apei), în timp ce al doilea este „economic” (costul turului și confortul complexului).

Atunci când interpretăm acești factori, trebuie să acordăm atenție faptului că variabilele care au sarcini mari asupra primului factor (temperatura aerului și temperatura apei) sunt corelate pozitiv, în timp ce variabilele care au sarcini mari asupra celui de-al doilea factor (costul unui tur și confortul complexului) sunt corelate negativ.(nu te poti astepta la mare confort de la o statiune ieftina). Primul factor se numește unipolar (toate variabilele sunt grupate la un pol), iar al doilea se numește bipolar (variabilele se împart în două grupuri opuse - doi poli). Variabilele cu încărcări de factori cu semnul plus formează un pol pozitiv, iar cele cu semnul minus formează un pol negativ. În același timp, denumirile polilor „pozitiv” și „negativ” la interpretarea factorului nu au sensul evaluativ de „rău” și „bun”. Alegerea semnului are loc în timpul calculelor la întâmplare. Înlocuirea tuturor semnelor cu contrariile lor (toate plusurile cu minusuri și toate minusurile cu plusuri) nu schimbă soluția. Analiza semnelor este necesară doar pentru identificarea grupurilor (ceea ce se opune ce). Cu același succes, un pol poate fi numit dreapta, celălalt stânga. În exemplul nostru, costul variabil al voucherului s-a dovedit a fi pe polul pozitiv (dreapta), acesta este opus confortului variabil al complexului de pe polul negativ (stânga). Și acest factor poate fi interpretat (numit) ca „Economie și confort”. Respondenții pentru care problema economisirii este semnificativă s-au dovedit a fi din dreapta - au primit valori factoriale cu semnul plus. Atunci când aleg o stațiune, se concentrează mai mult pe ieftinitatea acesteia și mai puțin pe confort. Respondenții care nu economisesc bani în vacanță (prețul unui voucher nu îi deranjează prea mult) și care doresc să se relaxeze, în primul rând, în condiții confortabile, s-au dovedit a fi din stânga - au primit valori ale factorilor cu o "semnul minus.

Cu toate acestea, trebuie reținut că toate variabilele sunt foarte corelate cu ambii factori. În cadrul acesteia un exemplu simplu interpretarea este evidentă, dar în cazul datelor reale, nu totul este atât de simplu. De obicei, un factor este mai ușor de interpretat dacă doar o mică parte a variabilelor sunt foarte corelate cu acesta, iar restul nu.

Rotație ortogonală

Rotația se aplică de obicei după extracția factorilor pentru a maximiza corelațiile ridicate și pentru a le minimiza pe cele scăzute. Există numeroase metode de rotație, dar cea mai frecvent utilizată este rotația varimax, care este o procedură de maximizare a varianței. Această rotație maximizează variațiile de încărcare a factorilor făcând încărcările mari mai mari și încărcările scăzute mai mici decât ziua fiecărui factor. Acest obiectiv este atins prin matrice de transformare L:

A înainte de viraj L=A după viraj,

acestea. matricea sarcinilor factorilor înainte de viraj este înmulțită cu matricea de transformare și rezultatul este matricea sarcinilor factorilor după viraj. În exemplul nostru:

Comparați matrice înainte și după rotație. Rețineți că matricea după rotație are ponderi scăzute ale factorilor mai mici și ponderi ale factorilor mari mai mari decât matricea înainte de rotație. Diferența accentuată a sarcinilor facilitează interpretarea factorului și face posibilă selectarea fără ambiguitate a variabilelor care sunt puternic interconectate cu acesta.

Elementele matricei de transformare au o interpretare geometrică specială:

Matricea de transformare este matricea sinusurilor și cosinusurilor unghiului ψ prin care se efectuează rotația. (De aici numele transformării este rotație, deoarece din punct de vedere geometric, axele sunt rotite în jurul originii spațiului factor.) În exemplul nostru, acest unghi este de aproximativ 19 grade: cos19°= .946 și sin19° =.325. Din punct de vedere geometric, aceasta corespunde unei rotații a axelor factoriale cu 19 grade în jurul originii. (Vezi mai jos pentru mai multe despre aspectele geometrice ale rotației.)

ETAPELE ANALIZEI FACTORIALE

Există nouă etape de analiză factorială. Pentru claritate, prezentăm aceste etape în diagramă și apoi le oferim o scurtă descriere.

Etapele analizei factoriale sunt prezentate în fig.

Orez.

FORMULAREA PROBLEMEI SI CONSTRUIREA MATRIEI DE CORELATIE

Formularea problemei. Este necesar să se definească clar obiectivele analizei factoriale. Variabilele supuse analizei factoriale sunt stabilite pe baza cercetărilor anterioare, calculelor teoretice sau la discreția cercetătorului. Variabilele trebuie măsurate în interval sau relativ scară. Experiența arată că dimensiunea eșantionului ar trebui să fie de patru până la cinci ori mai mare decât numărul de variabile.

Construirea matricei de corelație. Analiza se bazează pe matricea de corelație între variabile. Actualitatea efectuării analizei factoriale este determinată de prezența corelațiilor între variabile. Dacă corelațiile dintre toate variabilele sunt mici, atunci analiza factorială este inutilă. Variabilele care sunt strâns legate între ele tind să fie foarte corelate cu același factor sau factori.

Pentru a testa fezabilitatea utilizării unui model factorial, există mai multe statistici. Testul de sfericitate al lui Bartlett testează ipoteza nulă că nu există o corelație între variabilele din populație. Aceasta înseamnă că luăm în considerare afirmația că matricea de corelație a populației este o matrice de identitate în care toate elementele diagonale sunt egale cu unul, iar toate celelalte sunt egale cu zero. Testul de sfericitate se bazează pe conversia determinantului matricei de corelație într-o statistică chi-pătrat. Dacă statistica este mare, ipoteza nulă este respinsă. Dacă ipoteza nulă nu este respinsă, atunci analiza factorială este inadecvată. O altă statistică utilă este testul de adecvare a eșantionului Kaiser-Meyer-Olkin (KMO). Acest coeficient compară valorile coeficienților de corelație observați cu valorile coeficienților de corelație parțială. Valori mici ale KMO - statisticile indică faptul că corelațiile dintre perechile de variabile nu pot fi explicate prin alte variabile, ceea ce înseamnă că utilizarea analizei factorilor este inadecvată.

După ce ne-am familiarizat cu conceptele de încărcare a factorilor și zona modificărilor articulare, putem merge mai departe, folosind din nou aparatul de matrice pentru prezentare, elementele cărora de data aceasta vor fi coeficienți de corelație.

Matricea coeficienților de corelație obținută, de regulă, experimental, se numește matrice de corelație, sau matrice de corelație.

Elementele acestei matrice sunt coeficienții de corelație între toate variabilele populației date.

Daca avem, de exemplu, o multime formata din teste, atunci numarul de coeficienti de corelatie obtinuti experimental va fi

Acești coeficienți umplu jumătatea matricei situată pe o parte a diagonalei sale principale. Pe de altă parte sunt, evident, aceiași coeficienți, deoarece, etc. Prin urmare, matricea de corelație este simetrică.

Schema 3.2. Matrice de corelație completă

Sunt unele pe diagonala acestei matrice deoarece fiecare variabilă are o corelație +1 cu ea însăși.

O matrice de corelație ale cărei elemente diagonale principale sunt egale cu 1 se numește „matrice completă” de corelație (Schema 3.2) și se notează

Trebuie remarcat faptul că plasând unități, sau corelații ale fiecărei variabile cu ea însăși, pe diagonala principală, luăm în considerare varianța totală a fiecărei variabile reprezentate în matrice. Astfel, se ia în considerare influența nu numai a factorilor generali, ci și specifici.

Dimpotrivă, dacă pe diagonala principală a matricei de corelație există elemente corespunzătoare generalităților și legate doar de varianța generală a variabilelor, atunci se ia în considerare doar influența factorilor generali, influența factorilor specifici și a erorilor este eliminate, adică specificitatea și varianța erorilor sunt eliminate.

Matricea de corelație, în care elementele diagonalei principale corespund generalităților, se numește redusă și se notează cu R (Schema 3.3).

Schema 3.3. Matrice de corelație redusă

Am vorbit deja despre încărcarea factorilor sau despre completarea unei variabile date cu un factor specific. În același timp, s-a subliniat faptul că încărcarea factorială are forma unui coeficient de corelație între o variabilă dată și un factor dat.

O matrice ale cărei coloane constau din încărcările unui factor dat în raport cu toate variabilele unei populații date și rândurile de încărcări ale factorilor unei variabile date, se numește matrice de factori sau matrice de factori. Aici puteți vorbi și despre matricea factorilor completă și redusă. Elementele matricei factoriale complete corespund varianței unitare totale a fiecărei variabile din populația dată. Dacă sarcinile asupra factorilor generali sunt notate cu c, iar sarcinile factorilor specifici sunt notate cu și, atunci matricea factorilor completă poate fi reprezentată după cum urmează:

Schema 3.4. Matrice completă a factorilor pentru patru variabile

Matricea factorilor prezentată aici constă din două părți: prima parte conține elemente legate de patru variabile și trei factori comuni, care se presupune că se aplică tuturor variabilelor. Nu mănâncă conditie necesara, deoarece unele elemente din prima parte a matricei pot fi egale cu zero, ceea ce înseamnă că unii factori nu se aplică tuturor variabilelor. Elementele primei părți a matricei sunt încărcările factorilor comuni (de exemplu, elementul arată încărcarea celui de-al doilea factor comun cu prima variabilă).

În a doua parte a matricei, vedem 4 încărcări de factori caracteristici, câte unul pe fiecare rând, care corespund specificității acestora. Fiecare dintre acești factori se referă la o singură variabilă. Toate celelalte elemente ale acestei părți a matricei sunt egale cu zero. Factorii caracteristici pot fi, evident, împărțiți în specifici și legați de erori.

Coloana matricei factorilor caracterizează factorul și influența acestuia asupra tuturor variabilelor. Linia caracterizează variabila și conținutul acesteia cu diverși factori, cu alte cuvinte, structura factorială a variabilei.

Când analizăm doar prima parte a matricei, avem de-a face cu o matrice factorială care arată varianța totală a fiecărei variabile. Această parte a matricei se numește partea redusă și se notează F. Această matrice nu ia în considerare încărcarea factorilor caracteristici și nu ia în considerare varianța specifică. Reamintim că, în conformitate cu ceea ce s-a spus mai sus despre variațiile generale și încărcările factorilor, care sunt rădăcinile pătrate ale variațiilor generale, suma pătratelor elementelor fiecărui rând din matricea factorilor redusi F este egală cu generalitatea a variabilei date

În consecință, suma pătratelor tuturor elementelor rândului matricei complete de factori este egală cu , sau varianța totală a acestei variabile.

Deoarece analiza factorială se concentrează pe factori comuni, vom folosi în principal corelația redusă și matricea factorilor redusi în cele ce urmează.




Se încarcă...
Top