Dimensionsreduktion. Bewertung von Methoden zur Reduzierung der Dimensionalität von Daten, die verwendet werden, um einen Videostream zur Personenidentifizierung umzuwandeln. Das Wesentliche des Problems der Reduzierung der Dimensionalität und verschiedene Methoden zu seiner Lösung

  • In der Statistik, dem maschinellen Lernen und der Informationstheorie ist die Dimensionsreduktion eine Datentransformation, die darin besteht, die Anzahl der Variablen zu reduzieren, indem man Hauptvariablen erhält. Die Transformation kann in Merkmalsauswahl und Merkmalsextraktion unterteilt werden.

Verwandte konzepte

Verweise in der Literatur

– Laden und Vorverarbeiten von Eingabedaten, – manuelles und automatisches Labeln von Stimulusmaterialien (Auswahl von Interessensgebieten), – Algorithmus zur Berechnung der Nachfolger-Repräsentationsmatrix, – Aufbau einer erweiterten Datentabelle mit den Werten von Eingabevariablen, die für nachfolgende benötigt werden Analyse Methode Dimensionsreduzierung Merkmalsräume (Hauptkomponentenmethode), – Visualisierung von Komponentenlasten für die Auswahl interpretierter Komponenten, – Entscheidungsbaum-Lernalgorithmus, – Baumvorhersagefähigkeits-Schätzalgorithmus, – Entscheidungsbaum-Visualisierung.

Verwandte Konzepte (Fortsetzung)

Spektrale Clustering-Techniken verwenden das Spektrum (Eigenwerte) der Ähnlichkeitsmatrix der Daten, um eine Dimensionsreduktion vor dem Clustering in niederdimensionalen Räumen durchzuführen. Die Ähnlichkeitsmatrix wird als Eingabe angegeben und besteht aus quantitativen Schätzungen der relativen Ähnlichkeit jedes Punktpaares in den Daten.

Spektralmethoden sind eine Klasse von Techniken, die in der angewandten Mathematik verwendet werden, um einige Differentialgleichungen numerisch zu lösen, möglicherweise unter Einbeziehung der schnellen Fourier-Transformation. Die Idee ist, die Lösung von Differentialgleichungen als Summe einiger "Basisfunktionen" umzuschreiben (so wie Fourier-Reihen die Summe von Sinuskurven sind) und dann die Koeffizienten in der Summe auszuwählen, um die Differentialgleichung so gut wie möglich zu erfüllen.

Mathematische Analyse (klassische mathematische Analyse) - eine Reihe von Abschnitten der Mathematik, die dem historischen Abschnitt unter dem Namen "Analyse der Infinitesimalzahlen" entsprechen, kombiniert Differential- und Integralrechnung.

Die differentielle Evolution ist eine mehrdimensionale mathematische Optimierungsmethode, die zur Klasse der stochastischen Optimierungsalgorithmen gehört (d. h. sie arbeitet mit Zufallszahlen) und einige Ideen genetischer Algorithmen verwendet, aber im Gegensatz zu diesen nicht mit Variablen im Binärcode arbeiten muss.

Die Diskrete-Elemente-Methode (DEM) ist eine Familie numerischer Methoden zur Berechnung der Bewegung einer großen Anzahl von Partikeln wie Molekülen, Sandkörnern, Kies, Kieselsteinen und anderen körnigen Medien. Die Methode wurde ursprünglich 1971 von Cundall angewendet, um Probleme in der Felsmechanik zu lösen.

Als Ergebnis des Studiums des Materials von Kapitel 5 sollte der Student:

wissen

  • Grundbegriffe und Probleme der Dimensionsreduktion:
  • Ansätze zur Lösung des Problems der Transformation des Merkmalsraums;

in der Lage sein

  • Verwenden Sie die Hauptkomponentenmethode, um zu standardisierten orthogonalen Merkmalen zu gelangen.
  • Bewertung der Abnahme des Informationsgehalts von Daten bei Abnahme der Dimension des Merkmalsraums;
  • das Problem der Konstruktion optimaler multidimensionaler Skalen für die Untersuchung von Objekten zu lösen;

eigen

  • Dimensionsreduktionsmethoden zur Lösung angewandter Probleme statistische Analyse;
  • Fähigkeiten zum Interpretieren von Variablen im transformierten Merkmalsraum.

Grundbegriffe und Probleme der Dimensionsreduktion

Auf den ersten Blick gilt: Je mehr Informationen über die Untersuchungsobjekte in Form einer Reihe von sie charakterisierenden Merkmalen zur Erstellung eines Modells herangezogen werden, desto besser. Zu viele Informationen können jedoch die Effektivität der Datenanalyse verringern. Es gibt sogar einen Begriff "Fluch der Dimensionalität" (Fluch der Dimension), die die Problematik der Arbeit mit hochdimensionalen Daten charakterisiert. Die Notwendigkeit, die Dimension in der einen oder anderen Form zu reduzieren, hängt mit der Lösung verschiedener statistischer Probleme zusammen.

Nicht informative Merkmale sind eine Quelle für zusätzliches Rauschen und beeinträchtigen die Genauigkeit der Modellparameterschätzung. Außerdem Datensätze mit eine große Anzahl Merkmale können Gruppen korrelierter Variablen enthalten. Das Vorhandensein solcher Gruppen von Merkmalen bedeutet eine Duplizierung von Informationen, was die Spezifikation des Modells verfälschen und die Qualität der Schätzung seiner Parameter beeinträchtigen kann. Je höher die Datendimension, desto höher der Rechenaufwand während ihrer algorithmischen Verarbeitung.

Bei der Reduktion der Dimension des Merkmalsraums nach dem Prinzip der dafür verwendeten Variablen lassen sich zwei Richtungen unterscheiden: die Selektion von Merkmalen aus der bestehenden Ausgangsmenge und die Bildung neuer Merkmale durch Transformation der Ausgangsdaten. Idealerweise sollte eine reduzierte Darstellung der Daten eine Dimension aufweisen, die der den Daten innewohnenden Dimension entspricht. (Eigenmaß).

Die Suche nach den informativsten Merkmalen, die das untersuchte Phänomen charakterisieren, ist ein offensichtlicher Weg, um die Dimension des Problems zu reduzieren, was keine Transformation der ursprünglichen Variablen erfordert. Dies ermöglicht es, das Modell kompakter zu machen und Verluste zu vermeiden, die mit der störenden Wirkung nicht informativer Merkmale verbunden sind. Die Auswahl informativer Merkmale besteht darin, die beste Teilmenge der Menge aller Ausgangsvariablen zu finden. Die Kriterien für das Konzept "Beste" können entweder die meisten sein hohe Qualität Modellierung für eine gegebene Dimension des Merkmalsraums oder die kleinste Datendimension, bei der es möglich ist, ein Modell einer gegebenen Qualität zu erstellen.

Die direkte Lösung des Problems, das beste Modell zu erstellen, ist mit dem Aufzählen aller möglichen Kombinationen von Merkmalen verbunden, was normalerweise als übermäßig mühsam erscheint. Greifen Sie daher in der Regel auf eine direkte oder umgekehrte Auswahl von Merkmalen zurück. Bei Direktauswahlverfahren werden Variablen aus der Anfangsmenge sequentiell hinzugefügt, bis die erforderliche Qualität des Modells erreicht ist. Bei den Algorithmen der sukzessiven Reduktion des ursprünglichen Merkmalsraums (Reverse Selection) werden die am wenigsten informativen Variablen Schritt für Schritt entfernt, bis der Informationsgehalt des Modells auf ein akzeptables Niveau reduziert ist.

Zu beachten ist, dass der Informationsgehalt von Zeichen relativ ist. Die Auswahl sollte einen hohen Informationsgehalt einer Reihe von Merkmalen liefern und nicht den gesamten Informationsgehalt seiner konstituierenden Variablen. Somit verringert das Vorhandensein einer Korrelation zwischen Merkmalen ihren Gesamtinformationsgehalt aufgrund der Duplizierung von Informationen, die ihnen gemeinsam sind. Daher bietet das Hinzufügen eines neuen Merkmals zu den bereits ausgewählten eine Erhöhung des Informationsgehalts in dem Umfang, den es enthält nützliche Informationen, die in den zuvor ausgewählten Variablen fehlt. Die einfachste Situation ist die Auswahl von zueinander orthogonalen Merkmalen, bei der der Auswahlalgorithmus äußerst einfach implementiert ist: Die Variablen werden nach ihrer Aussagekraft gereiht, und es wird eine solche Zusammensetzung der ersten Merkmale in dieser Rangfolge verwendet, die die gegebene Aussagekraft liefert.

Die Beschränkung von Merkmalsauswahlverfahren auf die Reduzierung der Raumdimension ist mit der Annahme des direkten Vorhandenseins der notwendigen Merkmale in den Ausgangsdaten verbunden, was sich meist als falsch herausstellt. Ein alternativer Ansatz zur Reduzierung der Dimensionalität besteht darin, die Merkmale in einen reduzierten Satz neuer Variablen umzuwandeln. Im Gegensatz zur Auswahl von Anfangsmerkmalen beinhaltet die Bildung eines neuen Merkmalsraums die Schaffung neuer Variablen, die normalerweise Funktionen der ursprünglichen Merkmale sind. Diese nicht direkt beobachtbaren Variablen werden oft als latent oder bezeichnet latent. Während des Erstellungsprozesses können diese Variablen mit verschiedenen nützlichen Eigenschaften ausgestattet werden, wie z. B. Orthogonalität. In der Praxis sind die anfänglichen Merkmale normalerweise miteinander verbunden, sodass die Transformation ihres Raums in einen orthogonalen Raum neue Merkmalskoordinaten erzeugt, die nicht den Effekt haben, Informationen über die untersuchten Objekte zu duplizieren.

Das Anzeigen von Objekten in einem neuen orthogonalen Merkmalsraum macht es möglich, die Nützlichkeit jedes der Merkmale hinsichtlich der Unterschiede zwischen diesen Objekten zu visualisieren. Wenn die Koordinaten der neuen Basis nach der Varianz geordnet werden, die die Streuung der Werte für sie für die betrachteten Beobachtungen charakterisiert, wird deutlich, dass aus praktischer Sicht einige Merkmale mit kleinen Varianzwerten vorhanden sind sind nutzlos, da Objekte durch diese Merkmale im Vergleich zu ihren Unterschieden in informativeren Variablen praktisch nicht unterscheidbar sind. In einer solchen Situation kann man von der sogenannten Degeneration des ursprünglichen Merkmalsraums sprechen k Variablen und die reale Dimension dieses Raums T kann kleiner sein als das Original (m< k).

Die Reduzierung des Merkmalsraums geht mit einer gewissen Verringerung des Informationsgehalts der Daten einher, aber das Maß der akzeptablen Reduzierung kann im Voraus bestimmt werden. Die Merkmalsextraktion projiziert einen Satz anfänglicher Variablen in einen Raum niedrigerer Dimension. Das Komprimieren des Merkmalsraums auf 2-3D kann für die Datenvisualisierung nützlich sein. Somit führt der Prozess der Bildung eines neuen Merkmalsraums normalerweise zu einem kleineren Satz wirklich informativer Variablen. Basierend auf ihnen kann ein besseres Modell erstellt werden als basierend auf einer kleineren Anzahl der informativsten Merkmale.

Die Bildung neuer Variablen auf Basis der ursprünglichen dient der latenten semantischen Analyse, Datenkomprimierung, Klassifikation und Mustererkennung und erhöht die Geschwindigkeit und Effizienz von Lernprozessen. Komprimierte Daten werden normalerweise für die weitere Analyse und Modellierung verwendet.

Eine der wichtigen Anwendungen der Merkmalsraumtransformation und Dimensionsreduktion ist die Konstruktion synthetischer latenter Kategorien basierend auf gemessenen Merkmalswerten. Diese latenten Zeichen können die allgemeinen bestimmten Merkmale des untersuchten Phänomens charakterisieren, indem sie die besonderen Eigenschaften der beobachteten Objekte integrieren, was es ermöglicht, integrale Indikatoren für verschiedene Ebenen der Informationsverallgemeinerung zu erstellen.

Die Rolle der Verfahren zur Reduzierung des Merkmalsraums bei der Untersuchung des Problems der Duplizierung von Informationen in den Anfangsmerkmalen, die zum "Anschwellen" der Varianz der Schätzungen der Koeffizienten von Regressionsmodellen führen, ist wesentlich. Der Übergang zu neuen Variablen, idealerweise orthogonal und sinnvoll interpretiert, ist ein effektives Modellierungswerkzeug unter Bedingungen der Multikollinearität der Ausgangsdaten.

Die Transformation des anfänglichen Merkmalsraums in einen orthogonalen Raum ist praktisch zum Lösen von Klassifizierungsproblemen, da es einem erlaubt, bestimmte Maße der Nähe oder Unterschiede von Objekten vernünftig anzuwenden, wie etwa die euklidische Distanz oder das Quadrat der euklidischen Distanz. In der Regressionsanalyse ermöglicht die Konstruktion der Regressionsgleichung auf den Hauptkomponenten die Lösung des Problems der Multikollinearität.

Bei der multivariaten statistischen Analyse wird jedes Objekt durch einen Vektor beschrieben, dessen Dimension willkürlich (aber für alle Objekte gleich) ist. Eine Person kann jedoch nur numerische Daten oder Punkte auf einer Ebene direkt wahrnehmen. Es ist schon viel schwieriger, Punktcluster im dreidimensionalen Raum zu analysieren. Eine direkte Wahrnehmung von höherdimensionalen Daten ist unmöglich. Daher ist es ganz natürlich, von einer multivariaten Stichprobe zu niedrigdimensionalen Daten übergehen zu wollen, damit „man sie sich ansehen kann“.

Neben dem Wunsch nach Sichtbarkeit gibt es weitere Motive für die Reduzierung der Dimension. Jene Faktoren, von denen die für den Forscher interessante Variable nicht abhängt, behindern nur die statistische Analyse. Erstens verbraucht das Sammeln von Informationen über sie Ressourcen. Zweitens verschlechtert ihre Einbeziehung in die Analyse nachweislich die Eigenschaften statistischer Verfahren (insbesondere erhöht sie die Varianz der Schätzungen von Parametern und Verteilungsmerkmalen). Daher ist es wünschenswert, solche Faktoren loszuwerden.

Betrachten wir vom Standpunkt der Dimensionsreduktion aus das Beispiel der Verwendung der Regressionsanalyse zur Umsatzprognose, das in Unterabschnitt 3.2.3 besprochen wird. Erstens war es in diesem Beispiel möglich, die Anzahl der unabhängigen Variablen von 17 auf 12 zu reduzieren. Zweitens war es möglich, einen neuen Faktor zu konstruieren – eine lineare Funktion der 12 genannten Faktoren, die das Verkaufsvolumen besser vorhersagt als alle anderen linearen Kombinationen von Faktoren. Daher können wir sagen, dass sich die Dimension des Problems im Ergebnis von 18 auf 2 verringert hat. Es gab nämlich einen unabhängigen Faktor (die in Unterabschnitt 3.2.3 angegebene lineare Kombination) und einen abhängigen Faktor - das Verkaufsvolumen.

Bei der Analyse multivariater Daten wird normalerweise nicht ein, sondern viele Probleme berücksichtigt, insbesondere die unterschiedliche Auswahl unabhängiger und abhängiger Variablen. Betrachten Sie daher das Problem der Dimensionsreduktion in der folgenden Formulierung. Bei einer multivariaten Stichprobe. Es ist erforderlich, von dort zu einem Satz von Vektoren kleinerer Dimension zu wechseln, wobei die Struktur der Ausgangsdaten so weit wie möglich erhalten bleibt, ohne die in den Daten enthaltenen Informationen möglichst zu verlieren. Die Aufgabenstellung wird im Rahmen des jeweiligen Dimensionsreduktionsverfahrens spezifiziert.

Hauptkomponentenmethode ist eine der am häufigsten verwendeten Methoden zur Dimensionsreduktion. Seine Hauptidee ist es, sequentiell die Richtungen zu identifizieren, in denen die Daten die größte Streuung haben. Lassen Sie die Stichprobe aus Vektoren bestehen, die mit dem Vektor gleichverteilt sind X = (X(1), X(2), … , X(N)). Betrachten Sie lineare Kombinationen

Y(λ(1), λ(2), …, λ( N)) = λ(1) X(1) +λ(2) X(2) + … + λ( N)X(N),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( N) = 1.

Hier ist der Vektor λ = (λ(1), λ(2), …, λ( N)) liegt auf der Einheitskugel in N-dimensionaler Raum.

Bei der Hauptkomponentenmethode wird zunächst die Richtung der maximalen Streuung gefunden, d.h. solches λ, bei dem die Varianz der Zufallsvariablen ihr Maximum erreicht Y(λ) = Y(λ(1), λ(2), …, λ( N)). Dann definiert der Vektor λ die erste Hauptkomponente und die Größe Y(λ) ist eine Projektion eines Zufallsvektors X auf der Achse der ersten Hauptkomponente.

Dann betrachtet man im Sinne der linearen Algebra eine Hyperebene in N-dimensionalen Raum, senkrecht zur ersten Hauptkomponente, und projizieren alle Elemente der Probe auf diese Hyperebene. Die Dimension der Hyperebene ist um 1 kleiner als die Dimension des ursprünglichen Raums.

In der betrachteten Hyperebene wird der Vorgang wiederholt. Darin findet sich die Richtung der größten Streuung, d.h. zweite Hauptkomponente. Weisen Sie dann eine Hyperebene senkrecht zu den ersten beiden Hauptkomponenten zu. Seine Dimension ist 2 kleiner als die Dimension des ursprünglichen Raums. Als nächstes kommt die nächste Iteration.

Aus Sicht der linearen Algebra sprechen wir von der Konstruktion einer neuen Basis in N-dimensionaler Raum, dessen Orte Hauptkomponenten sind.

Die Varianz, die jeder neuen Hauptkomponente entspricht, ist kleiner als für die vorherige. Normalerweise hören sie auf, wenn es unter einem bestimmten Schwellenwert liegt. Falls ausgewählt k Hauptkomponenten, das bedeutet, dass N-dimensionalen Raum geschafft zu gehen k- dimensional, d.h. reduzieren Sie die Dimension von N-Vor k, praktisch ohne die Struktur der Quelldaten zu verfälschen .

Zur visuellen Datenanalyse werden häufig die Projektionen der Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. Üblicherweise ist die Datenstruktur klar ersichtlich, es werden kompakte Cluster von Objekten und separat zugeordnete Vektoren unterschieden.

Die Hauptkomponentenmethode ist eine der Methoden Faktorenanalyse. Verschiedene Faktorenanalysealgorithmen eint die Tatsache, dass bei allen ein Übergang zu einer neuen Basis im Original stattfindet N-dimensionaler Raum. Wichtig ist das Konzept der „Faktorlast“, mit dem die Rolle des Anfangsfaktors (Variable) bei der Bildung eines bestimmten Vektors aus einer neuen Basis beschrieben wird.

Neu gegenüber der Hauptkomponentenmethode ist, dass die Faktoren anhand der Lasten in Gruppen eingeteilt werden. Eine Gruppe kombiniert Faktoren, die sich ähnlich auf die Elemente der neuen Basis auswirken. Dann empfiehlt es sich, aus jeder Gruppe einen Vertreter zu lassen. Anstatt einen Repräsentanten rechnerisch auszuwählen, wird manchmal ein neuer Faktor gebildet, der für die betreffende Gruppe zentral ist. Die Dimensionsreduktion erfolgt beim Übergang zu einem System von Faktoren, die repräsentativ für Gruppen sind. Die restlichen Faktoren werden verworfen.

Das beschriebene Vorgehen kann nicht nur mit Hilfe der Faktorenanalyse durchgeführt werden. Die Rede ist von der Clusteranalyse von Merkmalen (Faktoren, Variablen). Verschiedene Clusteranalysealgorithmen können verwendet werden, um Merkmale in Gruppen zu unterteilen. Es reicht aus, den Abstand (Näherungsmaß, Differenzindikator) zwischen Merkmalen einzugeben. Lassen X Und Bei- zwei Zeichen. Unterschied D(X, Y) zwischen ihnen kann anhand von Sticgemessen werden:

D 1 (X, Y) = 1 – rn(X, Y), D 2 (X, Y) = 1 – ρ N(X, Y),

Wo rn(X, Y) ist der lineare Pearson-Korrelationskoeffizient der Stichprobe, ρ N(X, Y) ist der Stichproben-Rangkorrelationskoeffizient nach Spearman.

Mehrdimensionale Skalierung. Zur Verwendung von Distanzen (Nähemaße, Differenzindikatoren) D(X, Y) zwischen Funktionen X Und Bei eine umfangreiche Klasse mehrdimensionaler Skalierungsverfahren wurde gegründet. Die Hauptidee dieser Methodenklasse besteht darin, jedes Objekt durch einen Punkt im geometrischen Raum (normalerweise der Dimension 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren zusammen sind Objekt angemessen beschreiben. In diesem Fall werden Beziehungen zwischen Objekten durch Beziehungen zwischen Punkten - ihren Repräsentanten - ersetzt. Also Daten zur Ähnlichkeit von Objekten - durch die Abstände zwischen Punkten, Daten zur Überlegenheit - durch die gegenseitige Anordnung von Punkten.

In der Praxis eine Reihe von verschiedene Modelle mehrdimensionale Skalierung. Alle stehen vor dem Problem, die wahre Dimension des Faktorraums abzuschätzen. Betrachten wir dieses Problem am Beispiel der Verarbeitung von Daten zur Ähnlichkeit von Objekten mit metrischer Skalierung.

Lass es sein N Objekte UM(1), UM(2), …, Ö(N), für jedes Objektpaar UM(ich), Ö(J) ist das Maß ihrer Ähnlichkeit angegeben S(ich, J). Das denken wir immer S(ich, J) = S(J, ich). Herkunft der Zahlen S(ich, J) ist für die Beschreibung der Funktionsweise des Algorithmus irrelevant. Sie könnten entweder durch direkte Messung oder unter Hinzuziehung von Experten oder durch Berechnung anhand einer Reihe beschreibender Merkmale oder auf andere Weise ermittelt werden.

Im euklidischen Raum wird das betrachtet N Objekte müssen durch eine Konfiguration dargestellt werden N Punkte und die euklidische Distanz D(ich, J) zwischen den entsprechenden Punkten. Der Übereinstimmungsgrad zwischen einer Menge von Objekten und einer Menge von Punkten, die sie darstellen, wird durch Vergleich der Ähnlichkeitsmatrizen || bestimmt S(ich, J)|| und Distanzen || D(ich, J)||. Das metrische Ähnlichkeitsfunktional hat die Form

Die geometrische Konfiguration muss so gewählt werden, dass das Funktional S seinen Minimalwert erreicht.

Kommentar. Bei der nichtmetrischen Skalierung wird anstelle der Nähe der Näherungsmaße und Entfernungen selbst die Nähe von Ordnungen auf dem Satz von Näherungsmaßen und dem Satz von entsprechenden Entfernungen berücksichtigt. Statt Funktionalität S Es werden Analoga der Rangkorrelationskoeffizienten von Spearman und Kendall verwendet. Mit anderen Worten, die nichtmetrische Skalierung geht davon aus, dass Näherungsmaße auf einer ordinalen Skala gemessen werden.

Der euklidische Raum habe die Dimension M. Betrachten Sie den minimalen mittleren quadratischen Fehler

,

wobei das Minimum über alle möglichen Konfigurationen übernommen wird N Punkte hinein M-dimensionaler euklidischer Raum. Es kann gezeigt werden, dass das betrachtete Minimum bei einigen Konfigurationen erreicht wird. Es ist klar, dass mit Wachstum M die Größe α m nimmt monoton ab (genauer gesagt steigt sie nicht an). Es kann gezeigt werden, wann M > N– 1 ist gleich 0 (wenn S(ich, J) ist eine Metrik). Um die Möglichkeiten sinnvoller Interpretation zu erhöhen, ist es wünschenswert, in einem Raum möglichst kleiner Dimension zu agieren. In diesem Fall muss die Dimension jedoch so gewählt werden, dass die Punkte Objekte ohne große Verzerrungen darstellen. Es stellt sich die Frage, wie man die Dimension rational wählt, d.h. natürliche Zahl M?

Im Rahmen deterministische Analyse Auf diese Frage scheint es keine vernünftige Antwort zu geben. Daher ist es notwendig, das Verhalten von α m in bestimmten probabilistischen Modellen zu untersuchen. Wenn Nähe misst S(ich, J) sind Zufallsvariablen, deren Verteilung von der „wahren Dimension“ abhängt M 0 (und möglicherweise auf einigen anderen Parametern), dann können wir im klassischen mathematischen und statistischen Stil das Problem der Schätzung stellen M 0 , suchen Sie nach konsistenten Ergebnissen und so weiter.

Beginnen wir mit dem Erstellen probabilistischer Modelle. Wir nehmen an, dass die Objekte Punkte im euklidischen Dimensionsraum sind k, Wo k groß genug. Dass die „wahre Dimension“ ist M 0 bedeutet, dass alle diese Punkte auf einer Dimensionshyperebene liegen M 0 . Nehmen wir zur Eindeutigkeit an, dass die betrachtete Punktmenge eine Stichprobe aus einer kreisförmigen Normalverteilung mit der Varianz σ 2 (0) ist. Das bedeutet, dass die Objekte UM(1), UM(2), …, Ö(N) sind kollektiv unabhängige Zufallsvektoren, von denen jeder als ζ(1) konstruiert ist e(1) + ζ(2) e(2) + … + ζ( M 0)e(M 0), wo e(1), e(2), … , e(M 0) ist eine orthonormale Basis im Unterraum der Dimension M 0 , wo die betrachteten Punkte liegen, und ζ(1), ζ(2), … , ζ( M 0) sind kollektiv unabhängige eindimensionale normale Zufallsvariablen mit mathematischem Erwartungswert) und Varianz σ 2 (0).

Betrachten Sie zwei Modelle zum Erhalten von Näherungsmaßen S(ich, J). Im ersten von ihnen S(ich, J) unterscheiden sich von der euklidischen Distanz zwischen den entsprechenden Punkten aufgrund der Tatsache, dass die Punkte mit Verzerrungen bekannt sind. Lassen Mit(1),Mit(2), … , Mit(N) gelten als Punkte. Dann

S(ich, J) = D(C(ich) + ε( ich), C(J) + ε( J)), ich, J = 1, 2, … , N,

Wo D ist der euklidische Abstand zwischen Punkten in k-dimensionaler Raum, Vektoren ε(1), ε(2), … , ε( N) stellen eine Stichprobe aus einer kreisförmigen Normalverteilung in dar k-dimensionaler Raum mit mathematischer Erwartung Null und Kovarianzmatrix σ 2 (1) ICH, Wo ICH ist die Identitätsmatrix. Mit anderen Worten, ε( ich) = η(1) e(1) + η(2) e(2) + … + η( k)e(k), Wo e(1), e(2), …, e(k) ist eine orthonormale Basis in k-dimensionaler Raum und (η( ich, T), ich= 1, 2, …, n, T= 1, 2, … , k) ist die Menge der Unabhängigen in der Menge eindimensional zufällige Variablen mit mathematischer Erwartung Null und Varianz σ 2 (1).

Im zweiten Modell werden die Verzerrungen direkt den Entfernungen selbst auferlegt:

S(ich, j) = D(C(ich), C(J)) + ε( ich, j), ich, j = 1, 2, … , N, ichJ,

wo (ε( ich, J), ich, J = 1, 2, … , N) sind kollektiv unabhängige normale Zufallsvariablen mit mathematischem Erwartungswert) und Varianz σ 2 (1).

Die Arbeit zeigt, dass für beide formulierten Modelle das Minimum des mittleren quadratischen Fehlers α m für N→ ∞ konvergiert mit Wahrscheinlichkeit gegen

F(M) = F 1 (M) + σ2 (1)( kM), M = 1, 2, …, k,

Also die Funktion F(M) ist in den Intervallen und linear und nimmt im ersten Intervall schneller ab als im zweiten. Daraus folgt, dass die Statistik

ist eine konsistente Schätzung der wahren Dimension M 0 .

Aus der Wahrscheinlichkeitstheorie folgt also eine Empfehlung – als Abschätzung der Dimension des Faktors Raum zu verwenden M*. Beachten Sie, dass eine solche Empfehlung von einem der Begründer der multidimensionalen Skalierung, J. Kraskal, als heuristisch formuliert wurde. Er ging von den Erfahrungen der praktischen Anwendung von mehrdimensionaler Skalierung und Computerexperimenten aus. Die Wahrscheinlichkeitstheorie ermöglichte es, diese heuristische Empfehlung zu untermauern.

Vorherige

Stichworte

MATHEMATIK / ANGEWENDETE STATISTIKEN / MATH-STATISTIK/ WACHSTUMSPUNKTE / HAUPTKOMPONENTENMETHODE / FAKTORENANALYSE / MEHRDIMENSIONALE SKALIERUNG / DIMENSIONALE SCHÄTZUNG DER DATEN / MODELLDIMENSIONALE SCHÄTZUNG/ MATHEMATIK / ANGEWANDTE STATISTIK / MATHEMATISCHE STATISTIK / WACHSTUMSPUNKTE / ANALYSE DER HAUPTKOMPONENTEN / FAKTORANALYSE / MEHRDIMENSIONALE SKALIERUNG / SCHÄTZUNG DER DATENDIMENSION / SCHÄTZUNG DER MODELLDIMENSION

Anmerkung wissenschaftlicher Artikel in Mathematik, Autor des wissenschaftlichen Artikels - Alexander I. Orlov, Evgeny Veniaminovich Lutsenko

Einer der "Wachstumspunkte" angewendete Statistiken sind Methoden zur Reduzierung der Dimension des Raums statistischer Daten. Sie werden zunehmend bei der Analyse von Daten in der spezifischen angewandten Forschung verwendet, beispielsweise in der Soziologie. Betrachten wir die vielversprechendsten Methoden der Dimensionsreduktion. Hauptkomponentenmethode ist eine der am häufigsten verwendeten Methoden zur Dimensionsreduktion. Zur visuellen Datenanalyse werden häufig die Projektionen der Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. Üblicherweise ist die Datenstruktur klar ersichtlich, es werden kompakte Cluster von Objekten und separat zugeordnete Vektoren unterschieden. Hauptkomponentenmethode ist eine der Methoden Faktorenanalyse. Neue Idee im Vergleich zu Hauptkomponentenmethode besteht darin, dass die Faktoren aufgrund der Belastungen in Gruppen eingeteilt werden. Eine Gruppe kombiniert Faktoren, die sich ähnlich auf die Elemente der neuen Basis auswirken. Dann empfiehlt es sich, aus jeder Gruppe einen Vertreter zu lassen. Anstatt einen Repräsentanten rechnerisch auszuwählen, wird manchmal ein neuer Faktor gebildet, der für die betreffende Gruppe zentral ist. Die Dimensionsreduktion erfolgt beim Übergang zu einem System von Faktoren, die repräsentativ für Gruppen sind. Die restlichen Faktoren werden verworfen. Eine umfangreiche Methodenklasse basiert auf der Verwendung von Distanzen (Näherungsmaße, Differenzindikatoren) zwischen Merkmalen. mehrdimensionale Skalierung. Die Hauptidee dieser Methodenklasse besteht darin, jedes Objekt durch einen Punkt im geometrischen Raum (normalerweise der Dimension 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren zusammen sind Objekt angemessen beschreiben. Als Beispiel für die Anwendung der probabilistisch-statistischen Modellierung und der Ergebnisse der Statistik nicht-numerischer Daten begründen wir die Gültigkeit der Schätzung der Dimension des Datenraums in mehrdimensionale Skalierung, zuvor von Kruskal aus heuristischen Gründen vorgeschlagen. Eine Reihe von Arbeiten an Schätzen der Abmessungen von Modellen(in der Regressionsanalyse und in der Klassifikationstheorie). Informationen über Dimensionsreduktionsalgorithmen in der automatisierten systemkognitiven Analyse werden gegeben.

Verwandte Themen wissenschaftliche Arbeiten in Mathematik, Autor wissenschaftlicher Arbeiten - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Mathematische Methoden in der Soziologie seit 45 Jahren

  • Vielzahl von Objekten nicht-numerischer Natur

  • Parameterschätzung: One-Step-Schätzer sind Maximum-Likelihood-Schätzern vorzuziehen

  • Angewandte Statistik - Stand und Perspektiven

    2016 / Alexander Orlow
  • Stand und Perspektiven der Entwicklung der angewandten und theoretischen Statistik

    2016 / Alexander Orlow
  • Zusammenhang zwischen Grenzwertsätzen und der Monte-Carlo-Methode

    2015 / Alexander Orlow
  • Zur Entwicklung der Statistik von Objekten nichtnumerischer Natur

    2013 / Alexander Orlow
  • Wachstumspunkte statistischer Methoden

    2014 / Alexander Orlow
  • Über neue vielversprechende mathematische Werkzeuge des Controllings

    2015 / Alexander Orlow
  • Distanzen in statistischen Datenräumen

    2014 / Alexander Orlow

Einer der "Wachstumspunkte" der angewandten Statistik sind Methoden zur Reduzierung der Dimension statistischer Daten. Sie werden zunehmend bei der Analyse von Daten in der spezifischen angewandten Forschung, wie der Soziologie, verwendet. Wir untersuchen die vielversprechendsten Methoden, um die Dimensionalität zu reduzieren. Die Hauptkomponenten sind eine der am häufigsten verwendeten Methoden, um die Dimensionalität zu reduzieren. Zur visuellen Analyse von Daten werden häufig die Projektionen von Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. In der Regel ist die Datenstruktur gut sichtbar, hervorgehobene kompakte Cluster von Objekten und separat zugeordnete Vektoren. Die Hauptkomponenten sind eine Methode der Faktorenanalyse. Die neue Idee der Faktorenanalyse im Vergleich zur Methode der Hauptkomponenten besteht darin, dass die Faktoren auf der Grundlage von Lasten in Gruppen zerlegt werden. In einer Gruppe von Faktoren wird ein neuer Faktor mit einer ähnlichen Auswirkung auf die Elemente der neuen Basis kombiniert. Dann wird jeder Gruppe empfohlen, einen Vertreter zu verlassen. Manchmal wird anstelle der Wahl des Vertreters durch Berechnung ein neuer Faktor verwendet, der für die betreffende Gruppe von zentraler Bedeutung ist. Die reduzierte Dimension tritt beim Übergang zu den Systemfaktoren auf, die Repräsentanten von Gruppen sind. Andere Faktoren werden verworfen. Auf der Verwendung von Distanzen (Näherungsmaße, Differenzindikatoren) zwischen Merkmalen und Umfangsklassen beruhen Methoden der multidimensionalen Skalierung. Die Grundidee dieser Methodenklasse besteht darin, jedes Objekt als Punkt des geometrischen Raums (normalerweise der Dimension 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren sind, die sich angemessen kombinieren lassen das Objekt beschreiben. Als Beispiel für die Anwendung probabilistischer und statistischer Modellierung und die Ergebnisse der Statistik nicht-numerischer Daten begründen wir die Konsistenz von Schätzern der Dimension der Daten in multidimensionaler Skalierung, die zuvor von Kruskal aus heuristischen Überlegungen vorgeschlagen wurden. Wir haben eine Reihe konsistenter Schätzungen der Dimension von Modellen (in der Regressionsanalyse und in der Klassifikationstheorie) betrachtet. Wir geben auch einige Informationen über die Algorithmen zur Reduzierung der Dimensionalität in der automatisierten systemkognitiven Analyse

Der Text der wissenschaftlichen Arbeit zum Thema "Methoden zur Reduzierung der Dimension des statistischen Datenraums"

UDC 519.2: 005.521:633.1:004.8

01.00.00 Physikalische und mathematische Wissenschaften

METHODEN ZUR DIMENSIONALEN REDUZIERUNG DES STATISTISCHEN DATENRAUMS

Orlow Alexander Iwanowitsch

Doktor der Wirtschaftswissenschaften, Doktor der technischen Wissenschaften, Ph.D., Professor

RSCI-BRSH-Code: 4342-4994

Moskauer Staatliche Technik

Universität. N.E. Bauman, Russland, 105005,

Moskau, 2. Baumanskaja Str., 5, [E-Mail geschützt] T

Lutsenko Evgeny Veniaminovich Doktor der Wirtschaftswissenschaften, Ph.D., Professor RSCI BRSH-Code: 9523-7101 Kuban State Agrarian University, Krasnodar, Russland [E-Mail geschützt] com

Einer der "Wachstumspunkte" der angewandten Statistik sind die Methoden zur Verringerung der Dimension des Raums statistischer Daten. Sie werden zunehmend bei der Analyse von Daten in der spezifischen angewandten Forschung verwendet, beispielsweise in der Soziologie. Betrachten wir die vielversprechendsten Methoden der Dimensionsreduktion. Die Hauptkomponentenanalyse ist eine der am häufigsten verwendeten Methoden zur Dimensionsreduktion. Zur visuellen Datenanalyse werden häufig die Projektionen der Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. Üblicherweise ist die Datenstruktur klar ersichtlich, es werden kompakte Cluster von Objekten und separat zugeordnete Vektoren unterschieden. Die Hauptkomponentenanalyse ist eine der Methoden der Faktorenanalyse. Neu gegenüber der Hauptkomponentenmethode ist, dass die Faktoren anhand der Lasten in Gruppen eingeteilt werden. Eine Gruppe kombiniert Faktoren, die sich ähnlich auf die Elemente der neuen Basis auswirken. Dann empfiehlt es sich, aus jeder Gruppe einen Vertreter zu lassen. Anstatt einen Repräsentanten rechnerisch auszuwählen, wird manchmal ein neuer Faktor gebildet, der für die betreffende Gruppe zentral ist. Die Dimensionsreduktion erfolgt beim Übergang zu einem System von Faktoren, die repräsentativ für Gruppen sind. Die restlichen Faktoren werden verworfen. Eine umfangreiche Klasse mehrdimensionaler Skalierungsverfahren basiert auf der Verwendung von Abständen (Näherungsmaße, Differenzindikatoren) zwischen Merkmalen. Die Hauptidee dieser Methodenklasse besteht darin, jedes Objekt als Punkt im geometrischen Raum (normalerweise mit den Dimensionen 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren zusammen sind angemessen beschreiben

UDC 519.2:005.521:633.1:004.8

Physik und mathematische Wissenschaften

METHODEN ZUR REDUZIERUNG DER RAUMDIMENSION VON STATISTISCHEN DATEN

Alexander Orlow

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Staatliche Technische Universität Bauman Moskau, Moskau, Russland

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., Professor RSCI SPIN-Code: 9523-7101

Staatliche Agraruniversität Kuban, Krasnodar, Russland

[E-Mail geschützt] com

Einer der "Wachstumspunkte" der angewandten Statistik sind Methoden zur Reduzierung der Dimension statistischer Daten. Sie werden zunehmend bei der Analyse von Daten in der spezifischen angewandten Forschung, wie der Soziologie, verwendet. Wir untersuchen die vielversprechendsten Methoden, um die Dimensionalität zu reduzieren. Die Hauptkomponenten sind eine der am häufigsten verwendeten Methoden, um die Dimensionalität zu reduzieren. Zur visuellen Analyse von Daten werden häufig die Projektionen von Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. In der Regel ist die Datenstruktur gut sichtbar, hervorgehobene kompakte Cluster von Objekten und separat zugeordnete Vektoren. Die Hauptkomponenten sind eine Methode der Faktorenanalyse. Die neue Idee der Faktorenanalyse im Vergleich zur Methode der Hauptkomponenten besteht darin, dass die Faktoren auf der Grundlage von Lasten in Gruppen zerlegt werden. In einer Gruppe von Faktoren wird ein neuer Faktor mit einer ähnlichen Auswirkung auf die Elemente der neuen Basis kombiniert. Dann wird jeder Gruppe empfohlen, einen Vertreter zu verlassen. Manchmal wird anstelle der Wahl des Vertreters durch Berechnung ein neuer Faktor verwendet, der für die betreffende Gruppe von zentraler Bedeutung ist. Die reduzierte Dimension tritt beim Übergang zu den Systemfaktoren auf, die Repräsentanten von Gruppen sind. Andere Faktoren werden verworfen. Auf der Verwendung von Distanzen (Näherungsmaße, Differenzindikatoren) zwischen Merkmalen und Umfangsklassen beruhen Methoden der multidimensionalen Skalierung. Die Grundidee dieser Methodenklasse besteht darin, jedes Objekt als Punkt des geometrischen Raums (normalerweise der Dimension 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren sind, die sich angemessen kombinieren lassen das Objekt beschreiben. Als Beispiel für die Anwendung der probabilistischen und statistischen Modellierung und die Ergebnisse der Statistik nicht numerischer Daten begründen wir die Konsistenz der Schätzer der

ein Objekt. Als Beispiel für die Anwendung der probabilistisch-statistischen Modellierung und der Ergebnisse der Statistik nicht-numerischer Daten begründen wir die Konsistenz der Schätzung der Dimension des Datenraums in der multidimensionalen Skalierung, die zuvor von Kruskal aus heuristischen Überlegungen vorgeschlagen wurde. Eine Reihe von Arbeiten zur Schätzung der Dimensionen von Modellen (in der Regressionsanalyse und in der Klassifikationstheorie) werden berücksichtigt. Informationen über Dimensionsreduktionsalgorithmen in der automatisierten systemkognitiven Analyse werden gegeben.

Schlüsselwörter: MATHEMATIK, ANGEWANDTE STATISTIK, MATHEMATISCHE STATISTIK, WACHSTUMSPUNKTE, HAUPTKOMPONENTENMETHODE, FAKTORANALYSE, MEHRDIMENSIONALE SKALIERUNG, DIMENSIONALE SCHÄTZUNG VON DATEN, MODELLDIMENSIONALE SCHÄTZUNG

Dimension der Daten in mehrdimensionaler Skalierung, die zuvor von Kruskal aus heuristischen Überlegungen vorgeschlagen wurden. Wir haben eine Reihe konsistenter Schätzungen der Dimension von Modellen (in der Regressionsanalyse und in der Klassifikationstheorie) betrachtet. Wir geben auch einige Informationen über die Algorithmen zur Reduzierung der Dimensionalität in der automatisierten systemkognitiven Analyse

Schlüsselwörter: MATHEMATIK ANGEWANDTE STATISTIK MATHEMATISCHE STATISTIK WACHSTUMSPUNKTE DIE HAUPTKOMPONENTENANALYSE FAKTORANALYSE MULTIDIMENSIONALE SKALIERUNG SCHÄTZUNG DER DATENDIMENSION SCHÄTZUNG DER MODELLDIMENSION

1. Einleitung

Wie bereits erwähnt, ist einer der „Wachstumspunkte“ der angewandten Statistik die Methoden zur Reduzierung der Dimension des statistischen Datenraums. Sie werden zunehmend bei der Analyse von Daten in der spezifischen angewandten Forschung verwendet, beispielsweise in der Soziologie. Betrachten wir die vielversprechendsten Methoden der Dimensionsreduktion. Als Beispiel für die Anwendung der probabilistisch-statistischen Modellierung und der Ergebnisse der Statistik nicht-numerischer Daten begründen wir die Konsistenz der Schätzung der Raumdimension, die zuvor von Kruskal aus heuristischen Überlegungen vorgeschlagen wurde.

Bei der multivariaten statistischen Analyse wird jedes Objekt durch einen Vektor beschrieben, dessen Dimension willkürlich (aber für alle Objekte gleich) ist. Eine Person kann jedoch nur numerische Daten oder Punkte auf einer Ebene direkt wahrnehmen. Es ist schon viel schwieriger, Punktcluster im dreidimensionalen Raum zu analysieren. Eine direkte Wahrnehmung von höherdimensionalen Daten ist unmöglich. Daher ist es ganz natürlich, von einer multivariaten Stichprobe zu niedrigdimensionalen Daten übergehen zu wollen, damit „es sich daran gewöhnen kann

sehen". Beispielsweise kann ein Vermarkter visuell sehen, wie viele verschiedene Arten Verbraucherverhalten (also wie viele Marktsegmente sinnvoll sind) und welche Verbraucher (mit welchen Eigenschaften) dazu gehören.

Neben dem Wunsch nach Sichtbarkeit gibt es weitere Motive für die Reduzierung der Dimension. Jene Faktoren, von denen die für den Forscher interessante Variable nicht abhängt, behindern nur die statistische Analyse. Erstens werden finanzielle, zeitliche und personelle Ressourcen aufgewendet, um Informationen über sie zu sammeln. Zweitens verschlechtert ihre Einbeziehung in die Analyse nachweislich die Eigenschaften statistischer Verfahren (insbesondere erhöht sie die Varianz der Schätzungen von Parametern und Verteilungsmerkmalen). Daher ist es wünschenswert, solche Faktoren loszuwerden.

Bei der Analyse multivariater Daten wird normalerweise nicht ein, sondern viele Probleme berücksichtigt, insbesondere die unterschiedliche Auswahl unabhängiger und abhängiger Variablen. Betrachten Sie daher das Problem der Dimensionsreduktion in der folgenden Formulierung. Bei einer multivariaten Stichprobe. Es ist erforderlich, von dort zu einem Satz von Vektoren kleinerer Dimension zu wechseln, wobei die Struktur der Ausgangsdaten so weit wie möglich erhalten bleibt, ohne die in den Daten enthaltenen Informationen möglichst zu verlieren. Die Aufgabenstellung wird im Rahmen des jeweiligen Dimensionsreduktionsverfahrens spezifiziert.

2. Hauptkomponentenmethode

Es ist eines der am häufigsten verwendeten Verfahren zur Dimensionsreduktion. Seine Hauptidee ist es, sequentiell die Richtungen zu identifizieren, in denen die Daten die größte Streuung haben. Die Stichprobe soll aus gleichverteilten Vektoren mit dem Vektor X = (x(1), x(2), ... , x(n)) bestehen. Betrachten Sie lineare Kombinationen

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Hier liegt der Vektor X = (X(1), X(2), ..., X(n)) auf der Einheit Kugel im n-dimensionalen Raum.

Bei der Hauptkomponentenmethode wird zunächst die Richtung der maximalen Streuung gefunden, d.h. ein solches X, bei dem die Varianz der Zufallsvariablen 7(X) = 7(X(1), X(2), ..., X(n)) ihr Maximum erreicht. Dann gibt der Vektor X die erste Hauptkomponente an und der Wert 7(X) ist die Projektion des Zufallsvektors X auf die Achse der ersten Hauptkomponente.

Dann wird im Sinne der linearen Algebra eine Hyperebene im n-dimensionalen Raum betrachtet, senkrecht zur ersten Hauptkomponente, und alle Elemente der Probe werden auf diese Hyperebene projiziert. Die Dimension der Hyperebene ist um 1 kleiner als die Dimension des ursprünglichen Raums.

In der betrachteten Hyperebene wird der Vorgang wiederholt. Darin findet sich die Richtung der größten Streuung, d.h. zweite Hauptkomponente. Weisen Sie dann eine Hyperebene senkrecht zu den ersten beiden Hauptkomponenten zu. Seine Dimension ist 2 kleiner als die Dimension des ursprünglichen Raums. Als nächstes kommt die nächste Iteration.

Aus Sicht der linearen Algebra sprechen wir über die Konstruktion einer neuen Basis in einem n-dimensionalen Raum, dessen Orte die Hauptkomponenten sind.

Die Varianz, die jeder neuen Hauptkomponente entspricht, ist kleiner als für die vorherige. Normalerweise hören sie auf, wenn es unter einem bestimmten Schwellenwert liegt. Wählt man k Hauptkomponenten, so bedeutet dies, dass vom n-dimensionalen Raum in den k-dimensionalen übergegangen werden konnte, d.h. die Dimension von p bis k reduzieren, praktisch ohne die Struktur der Quelldaten zu verzerren.

Zur visuellen Datenanalyse werden häufig die Projektionen der Originalvektoren auf die Ebene der ersten beiden Hauptkomponenten verwendet. Gewöhnlich

die Datenstruktur ist deutlich sichtbar, kompakte Cluster von Objekten und separat ausgezeichnete Vektoren werden unterschieden.

3. Faktorenanalyse

Die Hauptkomponentenanalyse ist eine der Methoden der Faktorenanalyse. Verschiedene Faktorenanalysealgorithmen eint die Tatsache, dass bei allen ein Übergang zu einer neuen Basis im ursprünglichen n-dimensionalen Raum stattfindet. Wichtig ist das Konzept der „Faktorlast“, mit dem die Rolle des Anfangsfaktors (Variable) bei der Bildung eines bestimmten Vektors aus einer neuen Basis beschrieben wird.

Neu gegenüber der Hauptkomponentenmethode ist, dass die Faktoren anhand der Lasten in Gruppen eingeteilt werden. Eine Gruppe kombiniert Faktoren, die sich ähnlich auf die Elemente der neuen Basis auswirken. Dann empfiehlt es sich, aus jeder Gruppe einen Vertreter zu lassen. Anstatt einen Repräsentanten rechnerisch auszuwählen, wird manchmal ein neuer Faktor gebildet, der für die betreffende Gruppe zentral ist. Die Dimensionsreduktion erfolgt beim Übergang zu einem System von Faktoren, die repräsentativ für Gruppen sind. Die restlichen Faktoren werden verworfen.

Das beschriebene Vorgehen kann nicht nur mit Hilfe der Faktorenanalyse durchgeführt werden. Die Rede ist von der Clusteranalyse von Merkmalen (Faktoren, Variablen). Um Merkmale in Gruppen einzuteilen, können verschiedene Clusteranalysealgorithmen verwendet werden. Es reicht aus, den Abstand (Näherungsmaß, Differenzindikator) zwischen Merkmalen einzugeben. Seien X und Y zwei Merkmale. Die Differenz d(X,Y) zwischen ihnen kann mit Bgemessen werden:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, wobei rn(X,Y) der lineare Korrelationskoeffizient der Stichprobe nach Pearson ist, pn(X, Y) – Spearmans Stichproben-Rangkorrelationskoeffizient.

4. Mehrdimensionale Skalierung.

Eine umfangreiche Klasse mehrdimensionaler Skalierungsverfahren basiert auf der Verwendung von Abständen (Näherungsmaße, Differenzindikatoren) d (X, Y) zwischen Merkmalen X und Y. Die Hauptidee dieser Methodenklasse besteht darin, jedes Objekt durch einen Punkt im geometrischen Raum (normalerweise der Dimension 1, 2 oder 3) darzustellen, dessen Koordinaten die Werte der verborgenen (latenten) Faktoren zusammen sind Objekt angemessen beschreiben. In diesem Fall werden Beziehungen zwischen Objekten durch Beziehungen zwischen Punkten - ihren Repräsentanten - ersetzt. Also Daten zur Ähnlichkeit von Objekten - durch die Abstände zwischen Punkten, Daten zur Überlegenheit - durch die gegenseitige Anordnung von Punkten.

5. Das Problem der Abschätzung der wahren Dimension des Faktorraums

In der Praxis der soziologischen Datenanalyse werden verschiedene mehrdimensionale Skalierungsmodelle verwendet. Alle stehen vor dem Problem, die wahre Dimension des Faktorraums abzuschätzen. Betrachten wir dieses Problem am Beispiel der Verarbeitung von Daten zur Ähnlichkeit von Objekten mit metrischer Skalierung.

Seien n Objekte 0(1), O(2), ..., O(n), für jedes Paar von Objekten 0(/), O(j) sei ein Maß ihrer Ähnlichkeit s(ij) gegeben. Wir nehmen an, dass immer s(i,j) = s(j,i). Die Herkunft der Zahlen s(ij) spielt für die Beschreibung der Funktionsweise des Algorithmus keine Rolle. Sie könnten entweder durch direkte Messung oder unter Hinzuziehung von Experten oder durch Berechnung anhand einer Reihe beschreibender Merkmale oder auf andere Weise ermittelt werden.

Im euklidischen Raum müssen die n betrachteten Objekte durch eine Konfiguration von n Punkten dargestellt werden, und der euklidische Abstand d(i,j)

zwischen entsprechenden Punkten. Der Übereinstimmungsgrad zwischen einer Menge von Objekten und einer sie repräsentierenden Menge von Punkten wird durch Vergleich der Ähnlichkeitsmatrizen ||i(,)|| bestimmt und Abstände Das CMM-metrische Ähnlichkeitsfunktional hat die Form

i = t|*(/, ]) - d(/, M

Die geometrische Konfiguration muss so gewählt werden, dass das Funktional S seinen Minimalwert erreicht.

Kommentar. Bei der nichtmetrischen Skalierung wird anstelle der Nähe der Näherungsmaße und Entfernungen selbst die Nähe von Ordnungen auf dem Satz von Näherungsmaßen und dem Satz von entsprechenden Entfernungen berücksichtigt. Anstelle des funktionalen S werden Analoga der Spearman- und Kendall-Rangkorrelationskoeffizienten verwendet. Mit anderen Worten, die nichtmetrische Skalierung geht davon aus, dass Näherungsmaße auf einer ordinalen Skala gemessen werden.

Der euklidische Raum habe die Dimension m. Betrachten Sie das Minimum des mittleren quadratischen Fehlers

wobei das Minimum über alle möglichen Konfigurationen von n Punkten im m-dimensionalen euklidischen Raum genommen wird. Es kann gezeigt werden, dass das betrachtete Minimum bei einigen Konfigurationen erreicht wird. Es ist klar, dass mit zunehmendem m der Wert von am monoton abnimmt (genauer gesagt nicht zunimmt). Es kann gezeigt werden, dass es für m > n - 1 gleich 0 ist (wenn es sich um eine Metrik handelt). Um die Möglichkeiten sinnvoller Interpretation zu erhöhen, ist es wünschenswert, in einem Raum möglichst kleiner Dimension zu agieren. In diesem Fall muss die Dimension jedoch so gewählt werden, dass die Punkte Objekte ohne große Verzerrungen darstellen. Es stellt sich die Frage: Wie wählt man rational die Dimension des Raumes, d.h. natürliche Zahl t?

6. Modelle und Methoden zur Abschätzung der Dimension des Datenraums

Im Rahmen der deterministischen Datenanalyse scheint es auf diese Frage keine vernünftige Antwort zu geben. Daher ist es notwendig, das Verhalten von am in bestimmten probabilistischen Modellen zu untersuchen. Wenn die Näherungsmaße s(ij) Zufallsvariablen sind, deren Verteilung von der „wahren Dimension“ m0 (und möglicherweise von einigen anderen Parametern) abhängt, dann können wir uns das Problem der Schätzung von m0 im klassischen mathematisch-statistischen Stil stellen für konsistente Schätzungen usw.

Beginnen wir mit dem Erstellen probabilistischer Modelle. Wir nehmen an, dass die Objekte Punkte in einem euklidischen Raum der Dimension k sind, wobei k groß genug ist. Die Tatsache, dass die "wahre Dimension" gleich m0 ist, bedeutet, dass alle diese Punkte auf einer Hyperebene der Dimension m0 liegen. Nehmen wir zur Sicherheit an, dass es sich bei der betrachteten Punktemenge um eine Stichprobe aus einer zirkulären Normalverteilung mit einer Varianz o(0) handelt. Das bedeutet, dass die Objekte 0(1), 0(2), ..., O(n) voneinander unabhängige Zufallsvektoren sind, die jeweils konstruiert sind als

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), wobei e(1), e(2), ... , e(m0) eine Orthonormalbasis im Unterraum der Dimension m0 ist, in der die betrachteten Punkte liegen, und Z(1), Z(2), , Z(m0) voneinander unabhängige eindimensionale normale Zufallsvariablen mit mathematischem Erwartungswert 0 und Varianz o sind (0).

Betrachten Sie zwei Modelle zum Erhalten von Näherungsmaßen s(ij). In der ersten unterscheiden sich s(ij) von der euklidischen Distanz zwischen den entsprechenden Punkten aufgrund der Tatsache, dass die Punkte mit Verzerrungen bekannt sind. Seien c(1), c(2), ... , c(n) die betrachteten Punkte. Dann

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

wobei d der euklidische Abstand zwischen Punkten im d-dimensionalen Raum ist, die Vektoren e(1), e(2), ... , e(n) ein Muster aus der kreisförmigen Normalverteilung im d-dimensionalen Raum mit sind Null mathematische Erwartung und die Kovarianzmatrix o (1)/, wobei I die Identitätsmatrix ist. Mit anderen Worten,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), wobei e(1), e(2), ..., e(k) ist eine orthonormale Basis im ^-dimensionalen Raum, und [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - eine Menge eindimensionaler Zufallsvariablen, die in der Menge unabhängig sind, mit null mathematischer Erwartung und Varianz o (1).

Im zweiten Modell werden die Verzerrungen direkt den Entfernungen selbst auferlegt:

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

wo und , und im ersten Intervall nimmt es schneller ab als im zweiten. Daraus folgt, dass die Statistik

m* = Arg minam+1 - 2am + an-x)

ist eine konsistente Schätzung der wahren Dimension von m0.

Aus der Wahrscheinlichkeitstheorie folgt also eine Empfehlung, m* als Schätzwert für die Dimension des Faktorraums zu verwenden. Beachten Sie, dass eine solche Empfehlung von einem der Begründer der multidimensionalen Skalierung, J. Kraskal, als heuristisch formuliert wurde. Er ging von den Erfahrungen der praktischen Anwendung von mehrdimensionaler Skalierung und Computerexperimenten aus. Die Wahrscheinlichkeitstheorie ermöglichte es, diese heuristische Empfehlung zu untermauern.

7. Schätzung der Modellabmessungen

Wenn mögliche Teilmengen von Merkmalen eine expandierende Familie bilden, beispielsweise der Grad eines Polynoms geschätzt wird, dann ist es naheliegend, den Begriff „Modelldimension“ einzuführen (dieses Konzept ähnelt in vielerlei Hinsicht dem Konzept der Datenraumdimension, das in verwendet wird mehrdimensionale Skalierung). Der Autor dieses Artikels besitzt eine Reihe von Arbeiten zur Schätzung der Dimension des Modells, die es wert sind, mit den oben diskutierten Arbeiten zur Schätzung der Dimension des Datenraums verglichen zu werden.

Die erste derartige Arbeit wurde vom Autor dieses Artikels während einer Geschäftsreise nach Frankreich im Jahr 1976 durchgeführt. Darin wurde eine Schätzung der Modelldimension in der Regression untersucht, nämlich die Schätzung des Grades eines Polynoms unter der Annahme, dass die Abhängigkeit wird durch ein Polynom beschrieben. Diese Schätzung war in der Literatur bekannt, wurde aber später fälschlicherweise dem Autor dieses Artikels zugeschrieben, der nur seine Eigenschaften untersuchte, insbesondere feststellte, dass sie nicht konsistent ist, und seine einschränkende geometrische Verteilung fand . Andere, bereits konsistente Schätzungen der Dimension des Regressionsmodells wurden vorgeschlagen und in dem Artikel untersucht. Dieser Zyklus wurde durch eine Arbeit abgeschlossen, die eine Reihe von Klarstellungen enthielt.

Die neueste Veröffentlichung zu diesem Thema enthält eine Diskussion der Ergebnisse der Untersuchung der Konvergenzrate in den Grenzwertsätzen, die ich mit der Monte-Carlo-Methode erhalten habe.

Methodisch ähnliche Abschätzungen der Modelldimension in der Problematik der Aufspaltung von Gemischen (Teil der Klassifikationstheorie) werden im Beitrag betrachtet.

Die oben betrachteten Abschätzungen der Modelldimension in multidimensionaler Skalierung werden in den Arbeiten untersucht. In denselben Arbeiten wurde das Grenzverhalten der Merkmale der Hauptkomponentenmethode festgestellt (unter Verwendung der asymptotischen Theorie des Verhaltens von Lösungen extremaler statistischer Probleme).

8. Algorithmen zur Dimensionsreduktion in der automatisierten kognitiven Systemanalyse

In der automatisierten systemkognitiven Analyse (ASC-Analyse) wird ein weiteres Verfahren zur Dimensionsreduktion vorgeschlagen und im "Eidos"-System implementiert. Es ist in der Arbeit in den Abschnitten 4.2 „Beschreibung von Algorithmen für grundlegende kognitive Operationen der Systemanalyse (BCOSA)“ und 4.3 „Detaillierte Algorithmen für BCOSA (ASC-Analyse)“ beschrieben. Lassen Sie uns bringen Kurzbeschreibung zwei Algorithmen - BKOSA-4.1 und BKOSA-4.2.

BKOSA-4.1. "Abstraktion von Faktoren (Reduzierung der Dimension des semantischen Faktorraums)"

Mit der Methode der sukzessiven Approximation (Iterationsalgorithmus) wird unter gegebenen Randbedingungen die Dimension des Merkmalsraums reduziert, ohne dass dessen Volumen wesentlich reduziert wird. Das Kriterium für den Abbruch des iterativen Prozesses ist das Erreichen einer der Randbedingungen.

BKOSA-4.2. "Klassen abstrahieren (Dimension des semantischen Raums von Klassen reduzieren)"

Mit der Methode der sukzessiven Approximation (Iterativer Algorithmus) wird unter gegebenen Randbedingungen die Dimension des Klassenraums reduziert, ohne dass dessen Volumen wesentlich reduziert wird. Das Kriterium für den Abbruch des iterativen Prozesses ist das Erreichen einer der Randbedingungen.

Hier sind alle realen Algorithmen, die im Eidos-System der Version implementiert sind, die zum Zeitpunkt der Vorbereitung der Arbeit (2002) implementiert wurde: http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Das Wesen von Algorithmen ist wie folgt.

1. Die Informationsmenge in den Werten der Faktoren über den Übergang des Objekts in die den Klassen entsprechenden Zustände wird berechnet.

2. Zur Objektunterscheidung nach Klassen wird der Wert des Faktorwertes berechnet. Dieser Wert ist einfach die Variabilität der Informativität der Faktorwerte (es gibt viele quantitative Variabilitätsmaße: die durchschnittliche Abweichung vom Durchschnitt, die Standardabweichung usw.). Mit anderen Worten, wenn der Wert eines Faktors im Durchschnitt wenig Informationen darüber enthält, ob ein Objekt zu einer Klasse gehört oder nicht, dann ist dieser Wert nicht sehr wertvoll, und wenn es viele gibt, dann ist er wertvoll.

3. Der Wert von beschreibenden Skalen zur Unterscheidung von Objekten nach Klassen wird berechnet. In den Werken von E.V. Lutsenko jetzt geschieht dies als Durchschnitt der Werte der Abstufungen dieser Skala.

4. Dann wird die Pareto-Optimierung der Werte von Faktoren und beschreibenden Skalen durchgeführt:

Die Werte der Faktoren (Abstufungen beschreibender Skalen) werden in absteigender Reihenfolge des Wertes geordnet und die am wenigsten wertvollen, die rechts von der Tangente an die 45°-Pareto-Kurve gehen, werden aus dem Modell entfernt;

Faktoren (beschreibende Skalen) werden in absteigender Reihenfolge ihres Wertes geordnet, und die am wenigsten wertvollen Faktoren, die rechts von der Tangente an die 45°-Pareto-Kurve liegen, werden aus dem Modell entfernt.

Dadurch wird die Dimension des auf beschreibenden Maßstäben gebauten Raumes durch das Entfernen miteinander korrelierender Maßstäbe deutlich reduziert, d.h. Tatsächlich ist dies die Orthonormalisierung des Raums in der Informationsmetrik.

Dieser Vorgang kann wiederholt werden, d.h. iterativ sein, während neue Version system "Eidos"-Iterationen werden manuell gestartet.

Der Informationsraum von Klassen wird ähnlich orthonormalisiert.

Skalen und ihre Abstufungen können numerisch sein (in diesem Fall werden Intervallwerte verarbeitet) und sie können auch textuell (ordinal oder sogar nominal) sein.

So wird mit Hilfe von BKOSA (ASK-Analyse) Algorithmen die Raumdimension bei minimalem Informationsverlust so weit wie möglich reduziert.

Für die Analyse statistischer Daten in der angewandten Statistik wurden eine Reihe anderer Algorithmen zur Dimensionsreduktion entwickelt. Die Ziele dieses Artikels beinhalten keine Beschreibung der gesamten Vielfalt solcher Algorithmen.

Literatur

1. Orlow A.I. Wachstumspunkte statistischer Methoden // Elektronische wissenschaftliche Zeitschrift des polythematischen Netzwerks der Kuban State Agrarian University. 2014. Nr. 103. S. 136-162.

2. Kraskal J. Beziehung zwischen multidimensionaler Skalierung und Clusteranalyse // Klassifizierung und Cluster. M.: Mir, 1980. S.20-41.

4. Harman G. Modern Faktorenanalyse. M.: Statistik, 1972. 489 S.

5. Orlow A.I. Anmerkungen zur Klassifikationstheorie. / Soziologie: Methodik, Methoden, mathematische Modelle. 1991. Nr. 2. S.28-50.

6. Orlow A.I. Grundlegende Ergebnisse der mathematischen Theorie der Klassifikation // Polythematisches Netzwerk elektronische wissenschaftliche Zeitschrift der Kuban State Agrarian University. 2015. Nr. 110. S. 219-239.

7. Orlow A.I. Mathematische Methoden der Klassifikationstheorie // Elektronische wissenschaftliche Zeitschrift des polythematischen Netzwerks der Kuban State Agrarian University. 2014. Nr. 95. S. 23 - 45.

8. Terechina A. Yu. Datenanalyse durch multidimensionale Skalierungsmethoden. -M.: Nauka, 1986. 168 S.

9. Perekrest V. T. Nichtlineare typologische Analyse sozioökonomischer Informationen: Mathematische und rechnerische Methoden. - L.: Nauka, 1983. 176 S.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analyse nicht-numerischer Informationen. M.: Wissenschaftlicher Rat der Akademie der Wissenschaften der UdSSR zum komplexen Problem "Kybernetik", 1981. - 80 p.

11. Orlow A.I. Allgemeiner Blick auf die Statistik nicht-numerischer Objekte // Analyse nicht-numerischer Informationen in der soziologischen Forschung. - M.: Nauka, 1985. S.58-92.

12. Orlow A.I. Begrenzende Verteilung einer Schätzung der Anzahl von Basisfunktionen in der Regression // Angewandte multivariate statistische Analyse. Wissenschaftliche Anmerkungen zur Statistik, v.33. - M.: Nauka, 1978. S.380-381.

13. Orlow A.I. Schätzung der Modelldimension in der Regression // Algorithmisch und Software angewandte statistische Analyse. Wissenschaftliche Anmerkungen zur Statistik, v.36. - M.: Nauka, 1980. S. 92-99.

14. Orlow A.I. Asymptotik einiger Modelldimensionsschätzungen in der Regression // Angewandte Statistik. Wissenschaftliche Anmerkungen zur Statistik, v.45. - M.: Nauka, 1983. S.260-265.

15. Orlow A.I. Zur Schätzung des Regressionspolynoms // Labor Zavodskaya. Materialdiagnostik. 1994. V.60. Nr. 5. S.43-47.

16. Orlow A.I. Einige probabilistische Fragen in der Klassifikationstheorie // Angewandte Statistik. Wissenschaftliche Anmerkungen zur Statistik, v.45. - M.: Nauka, 1983. S. 166-179.

17. Orlow A.I. Zur Entwicklung der Statistik nichtnumerischer Objekte // Versuchsplanung und Datenanalyse: Neue Trends und Ergebnisse. - M.: ANTAL, 1993. Р.52-90.

18. Orlow A.I. Dimensionsreduktionsmethoden // Anhang 1 zum Buch: Tolstova Yu.N. Grundlagen der multidimensionalen Skalierung: Lernprogramm für Universitäten. - M.: Verlag KDU, 2006. - 160 S.

19. Orlow A.I. Asymptotik von Lösungen extremaler statistischer Probleme // Analyse nicht-numerischer Daten in der Systemforschung. Sammlung von Werken. Ausgabe. 10. - M.: All-Union Scientific Research Institute for System Research, 1982. S. 412.

20. Orlow A.I. Organisations- und Wirtschaftsmodellierung: Lehrbuch: um 3 Uhr Teil 1: Nicht-numerische Statistik. - M.: Verlag der MSTU im. N.E. Baumann. - 2009. - 541 S.

21. Luzenko E.V. Automatisierte systemkognitive Analyse im Management aktiver Objekte (Systemtheorie der Information und ihre Anwendung in der Untersuchung ökonomischer, soziopsychologischer, technologischer und organisationstechnischer Systeme): Monographie (wissenschaftliche Ausgabe). -Krasnodar: KubGAU. 2002. - 605 S. http://elibrary.ru/item.asp?id=18632909

1. Orlow A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Nr. 103. S. 136-162.

2. Kraska J. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Qualitative applications in the social sciences. 1978. Nr. 11.

4. Harman G. Sovremennyj faktoryj analiz. M.: Statistika, 1972. 489 s.

5. Orlow A.I. Hinweise po theorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. Nr. 2. S.28-50.

6. Orlow A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jeelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. Nr. 110. S. 219-239.

7. Orlow A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jeelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Nr. 95. S. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - M.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - L.: Nauka, 1983. 176 s.

10. Tjurin J. N., Litvak B. G., Orlov A. I., Satarov G. A., Shmerling D. S. Analiz nechislovoj informacii. M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika", 1981. - 80 s.

11. Orlow A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v socialologicheskih issledovanijah. - M.: Nauka, 1985. S.58-92.

12. Orlow A.I. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-381.

13. Orlow A.I. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Uchenye zapiski po statistike, T.36. - M.: Nauka, 1980. S.92-99.

14. Orlow A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike, T.45. - M.: Nauka, 1983. S.260-265.

15. Orlow A.I. Ob ocenivanii regressionnogo polinom // Zavodskaja laboratorija. Diagnostisches Materialov. 1994. T.60. Nr. 5. S.43-47.

16. Orlow A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike, T.45. - M.: Nauka, 1983. S.166-179.

17. Orlow A.I. Zur Entwicklung der Statistik nichtnumerischer Objekte // Versuchsplanung und Datenanalyse: Neue Trends und Ergebnisse. - M.: ANTAL, 1993. R.52-90.

18. Orlow A.I. Metody snizhenija razmernosti // Prilozhenie 1 k Buch: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 s.

19. Orlow A.I. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh issledovanij, 1982. S. 4-12.

20. Orlow A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E. V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih sistem): Monografija (nauchnoe izdandarie). 605 s. http://elibrary .ru/item.asp?id=18632909

Dimensionsreduktion (Datenreduktion)

IN Analytische Technologien Datendimensionsreduktion wird als Prozess der Datentransformation in die bequemste Form für Analyse und Interpretation verstanden. Normalerweise wird dies erreicht, indem ihr Volumen reduziert wird, die Anzahl der verwendeten Funktionen und die Vielfalt ihrer Werte reduziert werden.

Häufig sind die analysierten Daten unvollständig, wenn sie die Abhängigkeiten und Muster der untersuchten Geschäftsprozesse nur unzureichend widerspiegeln. Die Gründe dafür können eine unzureichende Anzahl von Beobachtungen sein, das Fehlen von Zeichen, die die wesentlichen Eigenschaften von Objekten widerspiegeln. In diesem Fall kommt die Datenanreicherung zum Einsatz.

Im umgekehrten Fall, wenn die Daten redundant sind, wird die Dimensionsreduktion angewendet. Redundanz tritt auf, wenn das Analyseproblem mit der gleichen Effizienz und Genauigkeit gelöst werden kann, jedoch mit einer kleineren Datendimension. Dadurch ist es möglich, den Zeit- und Rechenaufwand zur Lösung des Problems zu reduzieren, die Daten und die Ergebnisse ihrer Analyse für den Benutzer interpretierbarer und verständlicher zu machen.

Die Reduzierung der Anzahl der Datenbeobachtungen wird angewendet, wenn eine Lösung vergleichbarer Qualität auf einer Stichprobe geringerer Größe erhalten werden kann, wodurch der Rechen- und Zeitaufwand reduziert wird. Dies gilt insbesondere für nicht skalierbare Algorithmen, bei denen bereits eine geringfügige Reduzierung der Anzahl der Einträge zu einem erheblichen Gewinn an Rechenzeit führt.

Eine Reduzierung der Merkmale ist dann sinnvoll, wenn die für eine qualitative Lösung des Problems notwendigen Informationen in einer bestimmten Teilmenge von Merkmalen enthalten sind und nicht alle genutzt werden müssen. Dies gilt insbesondere für korrelierte Merkmale. Beispielsweise tragen die Merkmale „Alter“ und „Berufserfahrung“ im Wesentlichen die gleichen Informationen, sodass eines davon ausgeschlossen werden kann.

Das effektivste Mittel zur Reduzierung der Anzahl von Merkmalen ist die Faktorenanalyse und die Hauptkomponentenanalyse.

Die Reduzierung der Vielfalt von Merkmalswerten ist beispielsweise dann sinnvoll, wenn die Genauigkeit der Datendarstellung zu hoch ist und anstelle von Realwerten ganzzahlige Werte verwendet werden können, ohne die Qualität des Modells zu beeinträchtigen. Gleichzeitig sinken jedoch der von den Daten belegte Speicherplatz und die Rechenkosten.

Die als Ergebnis der Dimensionsreduktion erhaltene Teilmenge von Daten sollte von der ursprünglichen Menge so viele Informationen erben, wie zur Lösung des Problems mit einer bestimmten Genauigkeit erforderlich sind, und die Rechen- und Zeitkosten der Datenreduktion sollten die daraus resultierenden Vorteile nicht entwerten.

Ein analytisches Modell, das auf einem reduzierten Datensatz basiert, sollte einfacher zu verarbeiten, zu implementieren und zu verstehen sein als ein Modell, das auf dem ursprünglichen Datensatz basiert.

Die Entscheidung für eine Dimensionsreduktionsmethode basiert auf a priori-Wissen über die Merkmale des zu lösenden Problems und die erwarteten Ergebnisse sowie auf der begrenzten Zeit und den begrenzten Rechenressourcen.



Wird geladen...
Spitze