Μείωση διαστάσεων. Αξιολόγηση μεθόδων μείωσης διαστάσεων δεδομένων που χρησιμοποιούνται για τη μετατροπή μιας ροής βίντεο για προσωπική αναγνώριση Η ουσία του προβλήματος της μείωσης διαστάσεων και διάφορες μέθοδοι για την επίλυσή του

  • Στη στατιστική, τη μηχανική μάθηση και τη θεωρία πληροφοριών, η μείωση διαστάσεων είναι ένας μετασχηματισμός δεδομένων που συνίσταται στη μείωση του αριθμού των μεταβλητών με τη λήψη των κύριων μεταβλητών. Ο μετασχηματισμός μπορεί να χωριστεί σε επιλογή χαρακτηριστικών και εξαγωγή χαρακτηριστικών.

Σχετικές έννοιες

Αναφορές στη λογοτεχνία

– φόρτωση και προεπεξεργασία δεδομένων εισόδου, – χειροκίνητη και αυτόματη επισήμανση υλικών διέγερσης (επιλογή περιοχών ενδιαφέροντος), – αλγόριθμος για τον υπολογισμό του πίνακα αναπαράστασης διαδόχου, – κατασκευή εκτεταμένου πίνακα δεδομένων με τις τιμές των μεταβλητών εισόδου που απαιτούνται για τις επόμενες ανάλυση, – μέθοδος μείωση της διάστασηςχώροι χαρακτηριστικών (μέθοδος κύριας συνιστώσας), – οπτικοποίηση φορτίων συστατικών για την επιλογή ερμηνευόμενων στοιχείων, – αλγόριθμος εκμάθησης δένδρων αποφάσεων, – αλγόριθμος εκτίμησης προγνωστικής ικανότητας δέντρων, – οπτικοποίηση δέντρου αποφάσεων.

Σχετικές έννοιες (συνέχεια)

Οι τεχνικές φασματικής ομαδοποίησης χρησιμοποιούν το φάσμα (ιδιοτιμές) του πίνακα ομοιότητας των δεδομένων για να πραγματοποιήσουν μείωση διαστάσεων πριν από την ομαδοποίηση σε χώρους χαμηλότερων διαστάσεων. Ο πίνακας ομοιότητας δίνεται ως είσοδος και αποτελείται από ποσοτικές εκτιμήσεις της σχετικής ομοιότητας κάθε ζεύγους σημείων στα δεδομένα.

Οι φασματικές μέθοδοι είναι μια κατηγορία τεχνικών που χρησιμοποιούνται στα εφαρμοσμένα μαθηματικά για την αριθμητική επίλυση ορισμένων διαφορικών εξισώσεων, που πιθανώς περιλαμβάνουν τον Γρήγορο Μετασχηματισμό Φουριέ. Η ιδέα είναι να ξαναγράψουμε τη λύση των διαφορικών εξισώσεων ως το άθροισμα ορισμένων "συναρτήσεων βάσης" (όπως το πώς οι σειρές Fourier είναι το άθροισμα των ημιτονοειδών) και στη συνέχεια να επιλέξουμε τους συντελεστές στο άθροισμα για να ικανοποιήσουμε τη διαφορική εξίσωση όσο το δυνατόν καλύτερα.

Μαθηματική ανάλυση (κλασική μαθηματική ανάλυση) - ένα σύνολο τμημάτων μαθηματικών που αντιστοιχούν στην ιστορική ενότητα με την ονομασία "ανάλυση απειροελάχιστων", συνδυάζει διαφορικό και ολοκληρωτικό λογισμό.

Η διαφορική εξέλιξη είναι μια πολυδιάστατη μαθηματική μέθοδος βελτιστοποίησης που ανήκει στην κατηγορία των αλγορίθμων στοχαστικής βελτιστοποίησης (δηλαδή, λειτουργεί χρησιμοποιώντας τυχαίους αριθμούς) και χρησιμοποιεί ορισμένες ιδέες γενετικών αλγορίθμων, αλλά, σε αντίθεση με αυτούς, δεν απαιτεί εργασία με μεταβλητές σε δυαδικό κώδικα.

Η Μέθοδος Διακριτών Στοιχείων (DEM) είναι μια οικογένεια αριθμητικών μεθόδων που έχουν σχεδιαστεί για τον υπολογισμό της κίνησης ενός μεγάλου αριθμού σωματιδίων όπως μόρια, κόκκοι άμμου, χαλίκι, βότσαλα και άλλα κοκκώδη μέσα. Η μέθοδος εφαρμόστηκε αρχικά από τον Cundall το 1971 για την επίλυση προβλημάτων στη μηχανική των βράχων.

Ως αποτέλεσμα της μελέτης της ύλης του κεφαλαίου 5, ο μαθητής θα πρέπει:

ξέρω

  • βασικές έννοιες και προβλήματα μείωσης διαστάσεων:
  • προσεγγίσεις για την επίλυση του προβλήματος του μετασχηματισμού του χώρου χαρακτηριστικών.

έχω την δυνατότητα να

  • Χρησιμοποιήστε τη μέθοδο του κύριου στοιχείου για να μετακινηθείτε σε τυποποιημένα ορθογώνια χαρακτηριστικά.
  • να αξιολογήσει τη μείωση του περιεχομένου πληροφοριών των δεδομένων με μείωση της διάστασης του χώρου χαρακτηριστικών.
  • επίλυση του προβλήματος της κατασκευής βέλτιστων πολυδιάστατων κλιμάκων για τη μελέτη αντικειμένων.

τα δικά

  • μέθοδοι μείωσης διαστάσεων για την επίλυση εφαρμοζόμενων προβλημάτων Στατιστική ανάλυση;
  • δεξιότητες ερμηνείας μεταβλητών στον μετασχηματισμένο χώρο χαρακτηριστικών.

Βασικές έννοιες και προβλήματα μείωσης διαστάσεων

Με την πρώτη ματιά, όσο περισσότερες πληροφορίες σχετικά με τα αντικείμενα μελέτης με τη μορφή ενός συνόλου χαρακτηριστικών που τα χαρακτηρίζουν θα χρησιμοποιηθούν για τη δημιουργία ενός μοντέλου, τόσο το καλύτερο. Ωστόσο, πάρα πολλές πληροφορίες μπορούν να μειώσουν την αποτελεσματικότητα της ανάλυσης δεδομένων. Υπάρχει ακόμη και ένας όρος "κατάρα της διάστασης" (κατάρα της διάστασης), χαρακτηρίζοντας τα προβλήματα εργασίας με δεδομένα υψηλών διαστάσεων. Η ανάγκη μείωσης της διάστασης με τη μια ή την άλλη μορφή σχετίζεται με την επίλυση διαφόρων στατιστικών προβλημάτων.

Τα μη πληροφοριακά χαρακτηριστικά αποτελούν πηγή πρόσθετου θορύβου και επηρεάζουν την ακρίβεια της εκτίμησης παραμέτρων του μοντέλου. Επιπλέον, σύνολα δεδομένων με ένας μεγάλος αριθμόςΤα χαρακτηριστικά μπορεί να περιέχουν ομάδες συσχετιζόμενων μεταβλητών. Η παρουσία τέτοιων ομάδων χαρακτηριστικών σημαίνει διπλασιασμό των πληροφοριών, που μπορεί να παραμορφώσουν τις προδιαγραφές του μοντέλου και να επηρεάσουν την ποιότητα της εκτίμησης των παραμέτρων του. Όσο μεγαλύτερη είναι η διάσταση των δεδομένων, τόσο μεγαλύτερος είναι ο αριθμός των υπολογισμών κατά την αλγοριθμική επεξεργασία τους.

Δύο κατευθύνσεις μπορούν να διακριθούν στη μείωση της διάστασης του χώρου χαρακτηριστικών σύμφωνα με την αρχή των μεταβλητών που χρησιμοποιούνται για αυτό: η επιλογή χαρακτηριστικών από το υπάρχον αρχικό σύνολο και ο σχηματισμός νέων χαρακτηριστικών με μετασχηματισμό των αρχικών δεδομένων. Στην ιδανική περίπτωση, μια μειωμένη αναπαράσταση των δεδομένων θα πρέπει να έχει μια διάσταση που αντιστοιχεί στη διάσταση που είναι εγγενής στα δεδομένα. (εγγενής διάσταση).

Η αναζήτηση των πιο κατατοπιστικών χαρακτηριστικών που χαρακτηρίζουν το υπό μελέτη φαινόμενο είναι ένας προφανής τρόπος μείωσης της διάστασης του προβλήματος, που δεν απαιτεί μετασχηματισμό των αρχικών μεταβλητών. Αυτό καθιστά δυνατό να γίνει το μοντέλο πιο συμπαγές και να αποφευχθούν απώλειες που σχετίζονται με την παρεμβολή των μη πληροφοριακών χαρακτηριστικών. Η επιλογή των πληροφοριακών χαρακτηριστικών συνίσταται στην εύρεση του καλύτερου υποσυνόλου του συνόλου όλων των αρχικών μεταβλητών. Τα κριτήρια για την έννοια του «καλύτερου» μπορεί να είναι είτε τα περισσότερα υψηλή ποιότηταμοντελοποίηση για μια δεδομένη διάσταση του χώρου χαρακτηριστικών ή τη μικρότερη διάσταση δεδομένων στην οποία είναι δυνατή η κατασκευή ενός μοντέλου δεδομένης ποιότητας.

Η άμεση λύση του προβλήματος της δημιουργίας του καλύτερου μοντέλου συνδέεται με την απαρίθμηση όλων των πιθανών συνδυασμών χαρακτηριστικών, που συνήθως φαίνεται να είναι υπερβολικά επίπονη. Επομένως, κατά κανόνα, καταφεύγετε σε άμεση ή αντίστροφη επιλογή χαρακτηριστικών. Στις διαδικασίες άμεσης επιλογής, οι μεταβλητές προστίθενται διαδοχικά από το αρχικό σύνολο μέχρι να επιτευχθεί η απαιτούμενη ποιότητα του μοντέλου. Στους αλγόριθμους διαδοχικής μείωσης του αρχικού χώρου χαρακτηριστικών (αντίστροφη επιλογή), οι λιγότερο ενημερωτικές μεταβλητές αφαιρούνται βήμα προς βήμα έως ότου το περιεχόμενο πληροφοριών του μοντέλου μειωθεί σε αποδεκτό επίπεδο.

Θα πρέπει να ληφθεί υπόψη ότι το περιεχόμενο πληροφοριών των ζωδίων είναι σχετικό. Η επιλογή θα πρέπει να παρέχει υψηλό περιεχόμενο πληροφοριών για ένα σύνολο χαρακτηριστικών, και όχι το συνολικό περιεχόμενο πληροφοριών των συστατικών μεταβλητών του. Έτσι, η παρουσία συσχέτισης μεταξύ των χαρακτηριστικών μειώνει το συνολικό πληροφοριακό τους περιεχόμενο λόγω της διπλοτυπίας των κοινών σε αυτά πληροφοριών. Επομένως, η προσθήκη μιας νέας δυνατότητας σε αυτά που έχουν ήδη επιλεγεί παρέχει αύξηση του περιεχομένου πληροφοριών στον βαθμό που περιέχει ΧΡΗΣΙΜΕΣ ΠΛΗΡΟΦΟΡΙΕΣ, το οποίο απουσιάζει στις προηγουμένως επιλεγμένες μεταβλητές. Η απλούστερη κατάσταση είναι η επιλογή αμοιβαία ορθογώνιων χαρακτηριστικών, στην οποία ο αλγόριθμος επιλογής υλοποιείται εξαιρετικά απλά: οι μεταβλητές ταξινομούνται ανάλογα με την κατατοπότητά τους και χρησιμοποιείται μια τέτοια σύνθεση των πρώτων χαρακτηριστικών σε αυτήν την κατάταξη που παρέχει τη δεδομένη πληροφόρηση.

Ο περιορισμός των μεθόδων επιλογής χαρακτηριστικών για τη μείωση της διάστασης του χώρου σχετίζεται με την υπόθεση της άμεσης παρουσίας των απαραίτητων χαρακτηριστικών στα αρχικά δεδομένα, η οποία συνήθως αποδεικνύεται λανθασμένη. Μια εναλλακτική προσέγγιση για τη μείωση των διαστάσεων είναι ο μετασχηματισμός των χαρακτηριστικών σε ένα μειωμένο σύνολο νέων μεταβλητών. Σε αντίθεση με την επιλογή των αρχικών χαρακτηριστικών, ο σχηματισμός ενός νέου χώρου χαρακτηριστικών περιλαμβάνει τη δημιουργία νέων μεταβλητών, οι οποίες είναι συνήθως συναρτήσεις των αρχικών χαρακτηριστικών. Αυτές οι μεταβλητές, που δεν είναι άμεσα παρατηρήσιμες, αναφέρονται συχνά ως λανθάνουσες ή λανθάνων.Κατά τη διαδικασία δημιουργίας, αυτές οι μεταβλητές μπορούν να προικιστούν με διάφορες χρήσιμες ιδιότητες, όπως η ορθογωνικότητα. Στην πράξη, τα αρχικά χαρακτηριστικά είναι συνήθως αλληλένδετα, επομένως η μετατροπή του χώρου τους σε ορθογώνιο δημιουργεί νέες συντεταγμένες χαρακτηριστικών που δεν έχουν ως αποτέλεσμα την αντιγραφή πληροφοριών για τα αντικείμενα που μελετώνται.

Η εμφάνιση αντικειμένων σε έναν νέο ορθογώνιο χώρο χαρακτηριστικών καθιστά δυνατή την οπτικοποίηση της χρησιμότητας καθενός από τα χαρακτηριστικά όσον αφορά τις διαφορές μεταξύ αυτών των αντικειμένων. Εάν οι συντεταγμένες της νέας βάσης ταξινομηθούν σύμφωνα με τη διακύμανση που χαρακτηρίζει τη διασπορά των τιμών για αυτές για τις υπό εξέταση παρατηρήσεις, τότε γίνεται προφανές ότι, από πρακτική άποψη, ορισμένα χαρακτηριστικά με μικρές τιμές διακύμανσης είναι άχρηστα, καθώς τα αντικείμενα με αυτά τα χαρακτηριστικά είναι πρακτικά δυσδιάκριτα σε σύγκριση με τις διαφορές τους σε πιο ενημερωτικές μεταβλητές. Σε μια τέτοια κατάσταση, μπορούμε να μιλήσουμε για τον λεγόμενο εκφυλισμό του αρχικού χώρου χαρακτηριστικών από κμεταβλητές και την πραγματική διάσταση αυτού του χώρου Τμπορεί να είναι μικρότερη από την αρχική (μ< κ).

Η μείωση του χώρου χαρακτηριστικών συνοδεύεται από μια ορισμένη μείωση του περιεχομένου πληροφοριών των δεδομένων, αλλά το επίπεδο αποδεκτής μείωσης μπορεί να καθοριστεί εκ των προτέρων. Η εξαγωγή χαρακτηριστικών προβάλλει ένα σύνολο αρχικών μεταβλητών σε ένα χώρο χαμηλότερης διάστασης. Η συμπίεση του χώρου χαρακτηριστικών σε 2-3D μπορεί να είναι χρήσιμη για την οπτικοποίηση δεδομένων. Έτσι, η διαδικασία σχηματισμού ενός νέου χώρου χαρακτηριστικών συνήθως οδηγεί σε ένα μικρότερο σύνολο πραγματικά πληροφοριακών μεταβλητών. Με βάση αυτά, μπορεί να κατασκευαστεί ένα καλύτερο μοντέλο, καθώς βασίζεται σε μικρότερο αριθμό από τα πιο ενημερωτικά χαρακτηριστικά.

Ο σχηματισμός νέων μεταβλητών με βάση τις αρχικές χρησιμοποιείται για λανθάνουσα σημασιολογική ανάλυση, συμπίεση δεδομένων, ταξινόμηση και αναγνώριση προτύπων, αυξάνοντας την ταχύτητα και την αποτελεσματικότητα των μαθησιακών διαδικασιών. Τα συμπιεσμένα δεδομένα χρησιμοποιούνται συνήθως για περαιτέρω ανάλυση και μοντελοποίηση.

Μία από τις σημαντικές εφαρμογές του μετασχηματισμού του χώρου χαρακτηριστικών και της μείωσης των διαστάσεων είναι η κατασκευή συνθετικών λανθάνον κατηγοριών με βάση τις μετρούμενες τιμές χαρακτηριστικών. Αυτά τα λανθάνοντα σημάδια μπορούν να χαρακτηρίσουν τα γενικά ορισμένα χαρακτηριστικά του υπό μελέτη φαινομένου, ενσωματώνοντας τις ιδιαίτερες ιδιότητες των παρατηρούμενων αντικειμένων, γεγονός που καθιστά δυνατή τη δημιουργία ολοκληρωμένων δεικτών διαφόρων επιπέδων γενίκευσης πληροφοριών.

Ο ρόλος των μεθόδων μείωσης του χώρου χαρακτηριστικών στη μελέτη του προβλήματος του διπλασιασμού των πληροφοριών στα αρχικά χαρακτηριστικά, που οδηγεί στη «διόγκωση» της διακύμανσης των εκτιμήσεων των συντελεστών των μοντέλων παλινδρόμησης, είναι ουσιαστικός. Η μετάβαση σε νέες μεταβλητές, ιδανικά ορθογώνιες και ερμηνευμένες με νόημα, είναι ένα αποτελεσματικό εργαλείο μοντελοποίησης σε συνθήκες πολυσυγγραμμικότητας των αρχικών δεδομένων.

Ο μετασχηματισμός του αρχικού χώρου χαρακτηριστικών σε ορθογώνιο είναι βολικός για την επίλυση προβλημάτων ταξινόμησης, καθώς επιτρέπει σε κάποιον να εφαρμόσει εύλογα ορισμένα μέτρα εγγύτητας ή διαφορών αντικειμένων, όπως η Ευκλείδεια απόσταση ή το τετράγωνο της Ευκλείδειας απόστασης. Στην ανάλυση παλινδρόμησης, η κατασκευή της εξίσωσης παλινδρόμησης στις κύριες συνιστώσες επιτρέπει την επίλυση του προβλήματος της πολυσυγγραμμικότητας.

Στην πολυμεταβλητή στατιστική ανάλυση, κάθε αντικείμενο περιγράφεται από ένα διάνυσμα του οποίου η διάσταση είναι αυθαίρετη (αλλά ίδια για όλα τα αντικείμενα). Ωστόσο, ένα άτομο μπορεί να αντιληφθεί άμεσα μόνο αριθμητικά δεδομένα ή σημεία σε ένα επίπεδο. Είναι ήδη πολύ πιο δύσκολο να αναλυθούν συστάδες σημείων στον τρισδιάστατο χώρο. Η άμεση αντίληψη δεδομένων υψηλότερης διάστασης είναι αδύνατη. Ως εκ τούτου, είναι πολύ φυσικό να θέλετε να μεταβείτε από ένα πολυμεταβλητό δείγμα σε δεδομένα χαμηλών διαστάσεων, ώστε να «μπορείτε να το δείτε».

Εκτός από την επιθυμία για ορατότητα, υπάρχουν και άλλα κίνητρα για τη μείωση της διάστασης. Οι παράγοντες εκείνοι από τους οποίους δεν εξαρτάται η μεταβλητή που ενδιαφέρει τον ερευνητή παρεμποδίζουν μόνο τη στατιστική ανάλυση. Πρώτον, η συλλογή πληροφοριών σχετικά με αυτά καταναλώνει πόρους. Δεύτερον, όπως αποδεικνύεται, η συμπερίληψή τους στην ανάλυση επιδεινώνει τις ιδιότητες των στατιστικών διαδικασιών (ειδικά, αυξάνει τη διακύμανση των εκτιμήσεων των παραμέτρων και των χαρακτηριστικών των κατανομών). Ως εκ τούτου, είναι επιθυμητό να απαλλαγούμε από τέτοιους παράγοντες.

Ας συζητήσουμε από την άποψη της μείωσης διαστάσεων το παράδειγμα της χρήσης ανάλυσης παλινδρόμησης για την πρόβλεψη πωλήσεων, που συζητήθηκε στην υποενότητα 3.2.3. Πρώτον, σε αυτό το παράδειγμα, ήταν δυνατό να μειωθεί ο αριθμός των ανεξάρτητων μεταβλητών από 17 σε 12. Δεύτερον, ήταν δυνατό να κατασκευαστεί ένας νέος παράγοντας - μια γραμμική συνάρτηση των 12 αναφερθέντων παραγόντων, ο οποίος προβλέπει τον όγκο πωλήσεων καλύτερα από όλους τους άλλους γραμμικούς συνδυασμούς παραγόντων. Επομένως, μπορούμε να πούμε ότι ως αποτέλεσμα, η διάσταση του προβλήματος μειώθηκε από 18 σε 2. Δηλαδή, υπήρχε ένας ανεξάρτητος παράγοντας (ο γραμμικός συνδυασμός που δίνεται στην υποενότητα 3.2.3) και ένας εξαρτημένος παράγοντας - όγκος πωλήσεων.

Κατά την ανάλυση πολυμεταβλητών δεδομένων, συνήθως θεωρείται όχι ένα, αλλά πολλά προβλήματα, ιδίως η διαφορετική επιλογή ανεξάρτητων και εξαρτημένων μεταβλητών. Επομένως, εξετάστε το πρόβλημα μείωσης διαστάσεων στην ακόλουθη διατύπωση. Δίνεται ένα πολυμεταβλητό δείγμα. Απαιτείται η μετάβαση από αυτό σε ένα σύνολο διανυσμάτων μικρότερης διάστασης, διατηρώντας τη δομή των αρχικών δεδομένων όσο το δυνατόν περισσότερο, χωρίς να χαθούν οι πληροφορίες που περιέχονται στα δεδομένα, αν είναι δυνατόν. Η εργασία καθορίζεται στο πλαίσιο κάθε συγκεκριμένης μεθόδου μείωσης διαστάσεων.

Μέθοδος κύριου στοιχείουείναι μια από τις πιο συχνά χρησιμοποιούμενες μεθόδους μείωσης διαστάσεων. Η κύρια ιδέα του είναι να προσδιορίσει διαδοχικά τις κατευθύνσεις στις οποίες τα δεδομένα έχουν τη μεγαλύτερη εξάπλωση. Έστω ότι το δείγμα αποτελείται από διανύσματα ίσα κατανεμημένα με το διάνυσμα Χ = (Χ(1), Χ(2), … , Χ(n)). Εξετάστε γραμμικούς συνδυασμούς

Υ(λ(1), λ(2), …, λ( n)) = λ(1) Χ(1) +λ(2) Χ(2) + … + λ( n)Χ(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Εδώ το διάνυσμα λ = (λ(1), λ(2), …, λ( n)) βρίσκεται στη μοναδιαία σφαίρα μέσα n-διαστατικός χώρος.

Στη μέθοδο της κύριας συνιστώσας, καταρχάς, βρίσκεται η κατεύθυνση της μέγιστης διασποράς, δηλ. τέτοιο λ στο οποίο η διακύμανση της τυχαίας μεταβλητής φτάνει στο μέγιστο Υ(λ) = Υ(λ(1), λ(2), …, λ( n)). Τότε το διάνυσμα λ ορίζει την πρώτη κύρια συνιστώσα και την ποσότητα ΥΤο (λ) είναι μια προβολή ενός τυχαίου διανύσματος Χστον άξονα της πρώτης κύριας συνιστώσας.

Στη συνέχεια, όσον αφορά τη γραμμική άλγεβρα, θεωρούμε ένα υπερεπίπεδο μέσα n-διαστατικό χώρο, κάθετο στην πρώτη κύρια συνιστώσα, και προβολή όλων των στοιχείων του δείγματος σε αυτό το υπερεπίπεδο. Η διάσταση του υπερεπίπεδου είναι 1 μικρότερη από τη διάσταση του αρχικού χώρου.

Στο υπό εξέταση υπερπλάνο, η διαδικασία επαναλαμβάνεται. Η κατεύθυνση της μεγαλύτερης εξάπλωσης βρίσκεται σε αυτό, δηλ. δεύτερο κύριο συστατικό. Στη συνέχεια, εκχωρήστε ένα υπερεπίπεδο κάθετο στις δύο πρώτες κύριες συνιστώσες. Η διάστασή του είναι 2 μικρότερη από τη διάσταση του αρχικού χώρου. Ακολουθεί η επόμενη επανάληψη.

Από την άποψη της γραμμικής άλγεβρας, μιλάμε για την κατασκευή μιας νέας βάσης n-διαστατικός χώρος, του οποίου τα όρτια είναι τα κύρια στοιχεία.

Η απόκλιση που αντιστοιχεί σε κάθε νέα κύρια συνιστώσα είναι μικρότερη από την προηγούμενη. Συνήθως σταματούν όταν είναι μικρότερο από ένα δεδομένο όριο. Εάν επιλεγεί κκύρια συστατικά, αυτό σημαίνει ότι n-διαστατικό χώρο κατάφερε να πάει στο κ- διαστάσεων, δηλ. μειώστε τη διάσταση από n-πριν κ, πρακτικά χωρίς να παραμορφώνεται η δομή των δεδομένων πηγής .

Για οπτική ανάλυση δεδομένων, χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως, η δομή δεδομένων είναι σαφώς ορατή, διακρίνονται συμπαγή συμπλέγματα αντικειμένων και χωριστά διανύσματα.

Η μέθοδος του κύριου συστατικού είναι μία από τις μεθόδους παραγοντική ανάλυση. Διάφοροι αλγόριθμοι ανάλυσης παραγόντων ενώνονται από το γεγονός ότι σε όλους υπάρχει μια μετάβαση σε μια νέα βάση στην αρχική n-διαστατικός χώρος. Η έννοια του «συντελεστικού φορτίου» είναι σημαντική, η οποία χρησιμοποιείται για να περιγράψει τον ρόλο του αρχικού παράγοντα (μεταβλητής) στο σχηματισμό ενός συγκεκριμένου διανύσματος από μια νέα βάση.

Μια νέα ιδέα σε σύγκριση με τη μέθοδο του κύριου συστατικού είναι ότι, με βάση τα φορτία, οι συντελεστές χωρίζονται σε ομάδες. Μια ομάδα συνδυάζει παράγοντες που έχουν παρόμοια επίδραση στα στοιχεία της νέας βάσης. Στη συνέχεια, συνιστάται να αφήσετε έναν εκπρόσωπο από κάθε ομάδα. Μερικές φορές, αντί να επιλεγεί ένας εκπρόσωπος με υπολογισμό, σχηματίζεται ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μείωση της διάστασης συμβαίνει κατά τη μετάβαση σε ένα σύστημα παραγόντων που είναι εκπρόσωποι ομάδων. Οι υπόλοιποι παράγοντες απορρίπτονται.

Η περιγραφόμενη διαδικασία μπορεί να πραγματοποιηθεί όχι μόνο με τη βοήθεια της παραγοντικής ανάλυσης. Μιλάμε για ανάλυση συστάδων χαρακτηριστικών (παράγοντες, μεταβλητές). Μπορούν να χρησιμοποιηθούν διάφοροι αλγόριθμοι ανάλυσης συστάδων για τη διαίρεση των χαρακτηριστικών σε ομάδες. Αρκεί να εισάγετε την απόσταση (μέτρηση εγγύτητας, ένδειξη διαφοράς) μεταξύ των χαρακτηριστικών. Αφήνω ΧΚαι Στο- δύο σημάδια. Διαφορά ρε(Χ, Υ) μεταξύ τους μπορεί να μετρηθεί χρησιμοποιώντας συντελεστές συσχέτισης δείγματος:

ρε 1 (Χ, Υ) = 1 – rn(Χ, Υ), ρε 2 (Χ, Υ) = 1 – ρ n(Χ, Υ),

Οπου rn(Χ, Υ) είναι το δείγμα γραμμικού συντελεστή συσχέτισης Pearson, ρ n(Χ, Υ) είναι ο συντελεστής συσχέτισης κατάταξης δείγματος του Spearman.

Πολυδιάστατη κλιμάκωση. Σχετικά με τη χρήση αποστάσεων (μέτρα εγγύτητας, δείκτες διαφοράς) ρε(Χ, Υ) μεταξύ των χαρακτηριστικών ΧΚαι Στοιδρύθηκε μια εκτεταμένη κατηγορία πολυδιάστατων μεθόδων κλιμάκωσης. Η κύρια ιδέα αυτής της κατηγορίας μεθόδων είναι η αναπαράσταση κάθε αντικειμένου με ένα σημείο στον γεωμετρικό χώρο (συνήθως της διάστασης 1, 2 ή 3), οι συντεταγμένες του οποίου είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που μαζί περιγράψτε επαρκώς το αντικείμενο. Σε αυτή την περίπτωση, οι σχέσεις μεταξύ αντικειμένων αντικαθίστανται από σχέσεις μεταξύ σημείων - των εκπροσώπων τους. Έτσι, δεδομένα για την ομοιότητα των αντικειμένων - από τις αποστάσεις μεταξύ των σημείων, δεδομένα για την ανωτερότητα - από την αμοιβαία διάταξη των σημείων.

Στην πράξη, ένας αριθμός από διάφορα μοντέλαπολυδιάστατη κλιμάκωση. Όλοι αντιμετωπίζουν το πρόβλημα της εκτίμησης της πραγματικής διάστασης του χώρου παραγόντων. Ας εξετάσουμε αυτό το πρόβλημα χρησιμοποιώντας το παράδειγμα επεξεργασίας δεδομένων σχετικά με την ομοιότητα των αντικειμένων χρησιμοποιώντας μετρική κλίμακα.

Ας υπάρχει nαντικείμενα ΣΧΕΤΙΚΑ ΜΕ(1), ΣΧΕΤΙΚΑ ΜΕ(2), …, Ο(n), για κάθε ζεύγος αντικειμένων ΣΧΕΤΙΚΑ ΜΕ(Εγώ), Ο(ι) δίνεται το μέτρο της ομοιότητάς τους μικρό(Εγώ, ι). Νομίζουμε ότι πάντα μικρό(Εγώ, ι) = μικρό(ι, Εγώ). Προέλευση αριθμών μικρό(Εγώ, ι) δεν έχει σημασία για την περιγραφή του τρόπου λειτουργίας του αλγόριθμου. Θα μπορούσαν να ληφθούν είτε με άμεση μέτρηση, είτε με τη χρήση ειδικών, είτε με υπολογισμό από ένα σύνολο περιγραφικών χαρακτηριστικών ή με κάποιον άλλο τρόπο.

Στον Ευκλείδειο χώρο το θεωρούμενο nτα αντικείμενα πρέπει να αντιπροσωπεύονται από μια διαμόρφωση nσημεία και την Ευκλείδεια απόσταση ρε(Εγώ, ι) μεταξύ των αντίστοιχων σημείων. Ο βαθμός αντιστοιχίας μεταξύ ενός συνόλου αντικειμένων και ενός συνόλου σημείων που τα αντιπροσωπεύουν καθορίζεται συγκρίνοντας τους πίνακες ομοιότητας || μικρό(Εγώ, ι)|| και αποστάσεις || ρε(Εγώ, ι)||. Η συνάρτηση μετρικής ομοιότητας έχει τη μορφή

Η γεωμετρική διαμόρφωση πρέπει να επιλεγεί έτσι ώστε το λειτουργικό S να φτάσει την ελάχιστη τιμή του.

Σχόλιο.Στη μη μετρική κλιμάκωση, αντί για την εγγύτητα των ίδιων των μέτρων εγγύτητας και των αποστάσεων, λαμβάνεται υπόψη η εγγύτητα των παραγγελιών στο σύνολο των μέτρων εγγύτητας και στο σύνολο των αντίστοιχων αποστάσεων. Αντί για λειτουργικότητα μικρόΧρησιμοποιούνται ανάλογα των συντελεστών συσχέτισης κατάταξης Spearman και Kendall. Με άλλα λόγια, η μη μετρική κλίμακα προϋποθέτει ότι τα μέτρα εγγύτητας μετρώνται σε μια τακτική κλίμακα.

Αφήστε τον Ευκλείδειο χώρο να έχει τη διάσταση Μ. Εξετάστε το ελάχιστο μέσο τετραγωνικό σφάλμα

,

όπου το ελάχιστο λαμβάνεται για όλες τις πιθανές διαμορφώσεις nσημεία μέσα Μ-διαστατικός Ευκλείδειος χώρος. Μπορεί να αποδειχθεί ότι το θεωρούμενο ελάχιστο επιτυγχάνεται σε κάποια διαμόρφωση. Είναι σαφές ότι με την ανάπτυξη Μη ποσότητα α m μειώνεται μονοτονικά (ακριβέστερα δεν αυξάνεται). Μπορεί να αποδειχθεί ότι όταν Μ > n– 1 ισούται με 0 (αν μικρό(Εγώ, ι) είναι μια μέτρηση). Για να αυξηθούν οι δυνατότητες ουσιαστικής ερμηνείας, είναι επιθυμητό να δράσουμε σε έναν χώρο της μικρότερης δυνατής διάστασης. Σε αυτή την περίπτωση, ωστόσο, η διάσταση πρέπει να επιλέγεται έτσι ώστε τα σημεία να αντιπροσωπεύουν αντικείμενα χωρίς μεγάλες παραμορφώσεις. Τίθεται το ερώτημα: πώς να επιλέξετε ορθολογικά τη διάσταση, δηλ. φυσικός αριθμός Μ?

Ως μέρος του ντετερμινιστική ανάλυσηΔεν φαίνεται να υπάρχει λογική απάντηση σε αυτό το ερώτημα. Επομένως, είναι απαραίτητο να μελετηθεί η συμπεριφορά του α m σε ορισμένα πιθανολογικά μοντέλα. Εάν τα μέτρα εγγύτητας μικρό(Εγώ, ι) είναι τυχαίες μεταβλητές των οποίων η κατανομή εξαρτάται από την "αληθινή διάσταση" Μ 0 (και, ενδεχομένως, σε κάποιες άλλες παραμέτρους), τότε στο κλασικό μαθηματικό και στατιστικό στυλ μπορούμε να θέσουμε το πρόβλημα της εκτίμησης Μ 0 , αναζητήστε συνεπείς βαθμολογίες και ούτω καθεξής.

Ας αρχίσουμε να χτίζουμε πιθανολογικά μοντέλα. Υποθέτουμε ότι τα αντικείμενα είναι σημεία στον Ευκλείδειο χώρο διάστασης κ, Οπου καρκετά μεγάλο. Ότι η «αληθινή διάσταση» είναι Μ 0 , σημαίνει ότι όλα αυτά τα σημεία βρίσκονται σε ένα υπερεπίπεδο διαστάσεων Μ 0 . Ας υποθέσουμε για βεβαιότητα ότι το σύνολο των σημείων που εξετάζουμε είναι ένα δείγμα από μια κυκλική κανονική κατανομή με διακύμανση σ 2 (0). Αυτό σημαίνει ότι τα αντικείμενα ΣΧΕΤΙΚΑ ΜΕ(1), ΣΧΕΤΙΚΑ ΜΕ(2), …, Ο(n) είναι συλλογικά ανεξάρτητα τυχαία διανύσματα, καθένα από τα οποία είναι κατασκευασμένο ως ζ(1) μι(1) + ζ(2) μι(2) + … + ζ( Μ 0)μι(Μ 0), όπου μι(1), μι(2), … , μι(Μ 0) είναι μια ορθοκανονική βάση στον υποχώρο της διάστασης Μ 0 , όπου βρίσκονται τα εξεταζόμενα σημεία, και ζ(1), ζ(2), … , ζ( Μ 0) είναι συλλογικά ανεξάρτητες μονοδιάστατες κανονικές τυχαίες μεταβλητές με μαθηματική προσδοκία) και διακύμανση σ 2 (0).

Εξετάστε δύο μοντέλα για τη λήψη μέτρων εγγύτητας μικρό(Εγώ, ι). Στο πρώτο από αυτά μικρό(Εγώ, ι) διαφέρουν από την Ευκλείδεια απόσταση μεταξύ των αντίστοιχων σημείων λόγω του ότι τα σημεία είναι γνωστά με παραμορφώσεις. Αφήνω Με(1),Με(2), … , Με(n) θεωρούνται σημεία. Επειτα

μικρό(Εγώ, ι) = ρε(ντο(Εγώ) + ε( Εγώ), ντο(ι) + ε( ι)), Εγώ, ι = 1, 2, … , n,

Οπου ρεείναι η Ευκλείδεια απόσταση μεταξύ των σημείων κ-διάστατος χώρος, διανύσματα ε(1), ε(2), … , ε( n) αντιπροσωπεύουν ένα δείγμα από μια κυκλική κανονική κατανομή στο κ-διαστατικός χώρος με μηδενική μαθηματική προσδοκία και πίνακα συνδιακύμανσης σ 2 (1) Εγώ, Οπου Εγώείναι η μήτρα ταυτότητας. Με άλλα λόγια, ε( Εγώ) = η(1) μι(1) + η(2) μι(2) + … + η( κ)μι(κ), Οπου μι(1), μι(2), …, μι(κ) είναι μια ορθοκανονική βάση σε κ-διαστατικός χώρος, και (η( Εγώ, t), Εγώ= 1, 2, …, n, t= 1, 2, … , k) είναι το σύνολο των ανεξάρτητων στο σύνολο των μονοδιάστατων τυχαίες μεταβλητέςμε μηδενική μαθηματική προσδοκία και διακύμανση σ 2 (1).

Στο δεύτερο μοντέλο, οι παραμορφώσεις επιβάλλονται απευθείας στις ίδιες τις αποστάσεις:

μικρό(i,j) = ρε(ντο(Εγώ), ντο(ι)) + ε( i,j), i,j = 1, 2, … , n, Εγώι,

που (ε( Εγώ, ι), Εγώ, ι = 1, 2, … , n) είναι συλλογικά ανεξάρτητες κανονικές τυχαίες μεταβλητές με μαθηματική προσδοκία) και διακύμανση σ 2 (1).

Η εργασία δείχνει ότι και για τα δύο διαμορφωμένα μοντέλα, το ελάχιστο του μέσου τετραγώνου σφάλματος α m για n→ ∞ συγκλίνει κατά πιθανότητα σε

φά(Μ) = φά 1 (Μ) + σ 2 (1)( κΜ), Μ = 1, 2, …, κ,

Η συνάρτηση λοιπόν φά(Μ) είναι γραμμικό στα διαστήματα και , και μειώνεται γρηγορότερα στο πρώτο διάστημα παρά στο δεύτερο. Από αυτό προκύπτει ότι τα στατιστικά

είναι μια συνεπής εκτίμηση της πραγματικής διάστασης Μ 0 .

Άρα, μια σύσταση προκύπτει από τη θεωρία πιθανοτήτων - ως εκτίμηση της διάστασης του χώρου παραγόντων, χρησιμοποιήστε Μ*. Σημειώστε ότι μια τέτοια σύσταση διατυπώθηκε ως ευρετική από έναν από τους ιδρυτές της πολυδιάστατης κλιμάκωσης, τον J. Kraskal. Προχώρησε από την εμπειρία της πρακτικής χρήσης πολυδιάστατης κλιμάκωσης και υπολογιστικών πειραμάτων. Η πιθανοτική θεωρία κατέστησε δυνατή την τεκμηρίωση αυτής της ευρετικής σύστασης.

Προηγούμενος

Λέξεις-κλειδιά

ΜΑΘΗΜΑΤΙΚΑ / ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ / ΣΤΑΤΙΣΤΙΚΗ ΜΑΘΗΜΑΤΙΚΩΝ/ ΣΗΜΕΙΑ ΑΝΑΠΤΥΞΗΣ / ΜΕΘΟΔΟΣ ΚΥΡΙΟΥ ΣΤΟΙΧΕΙΟΥ / ΠΑΡΑΓΟΝΤΙΚΗ ΑΝΑΛΥΣΗ / ΠΟΛΥΔΙΑΣΤΑΤΙΚΗ ΚΛΙΜΑΚΩΣΗ / ΔΙΑΣΤΑΣΗ ΕΚΤΙΜΗΣΗ ΔΕΔΟΜΕΝΩΝ / ΥΠΟΔΕΙΓΜΑ ΔΙΑΣΤΑΣΕΩΝ ΕΚΤΙΜΗΣΗ/ ΜΑΘΗΜΑΤΙΚΑ / ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ / ΜΑΘΗΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ / ΣΗΜΕΙΑ ΑΝΑΠΤΥΞΗΣ / ΑΝΑΛΥΣΗ ΚΥΡΙΩΝ ΣΥΣΤΑΤΩΝ / ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ / ΠΟΛΥΔΙΑΣΤΑΤΙΚΗ ΚΛΙΜΑΚΩΣΗ / ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝ / ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΑΣΕΩΝ / ΕΚΤΙΜΗΣΗ

σχόλιο επιστημονικό άρθρο στα μαθηματικά, συγγραφέας επιστημονικού άρθρου - Alexander I. Orlov, Evgeny Veniaminovich Lutsenko

Ένα από τα "σημεία ανάπτυξης" εφαρμοσμένες στατιστικέςείναι μέθοδοι μείωσης της διάστασης του χώρου των στατιστικών δεδομένων. Χρησιμοποιούνται όλο και περισσότερο στην ανάλυση δεδομένων σε συγκεκριμένη εφαρμοσμένη έρευνα, για παράδειγμα, κοινωνιολογική. Ας εξετάσουμε τις πιο υποσχόμενες μεθόδους μείωσης διαστάσεων. Μέθοδος κύριου στοιχείουείναι μια από τις πιο συχνά χρησιμοποιούμενες μεθόδους μείωσης διαστάσεων. Για οπτική ανάλυση δεδομένων, χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως, η δομή δεδομένων είναι σαφώς ορατή, διακρίνονται συμπαγή συμπλέγματα αντικειμένων και χωριστά διανύσματα. Μέθοδος κύριου στοιχείουείναι μια από τις μεθόδους παραγοντική ανάλυση. Νέα ιδέα σε σύγκριση με μέθοδος του κύριου συστατικούσυνίσταται στο γεγονός ότι, με βάση τα φορτία, οι συντελεστές χωρίζονται σε ομάδες. Μια ομάδα συνδυάζει παράγοντες που έχουν παρόμοια επίδραση στα στοιχεία της νέας βάσης. Στη συνέχεια, συνιστάται να αφήσετε έναν εκπρόσωπο από κάθε ομάδα. Μερικές φορές, αντί να επιλεγεί ένας εκπρόσωπος με υπολογισμό, σχηματίζεται ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μείωση της διάστασης συμβαίνει κατά τη μετάβαση σε ένα σύστημα παραγόντων που είναι εκπρόσωποι ομάδων. Οι υπόλοιποι παράγοντες απορρίπτονται. Μια εκτεταμένη κατηγορία μεθόδων βασίζεται στη χρήση αποστάσεων (μέτρα εγγύτητας, δείκτες διαφορών) μεταξύ χαρακτηριστικών. πολυδιάστατη κλιμάκωση. Η κύρια ιδέα αυτής της κατηγορίας μεθόδων είναι η αναπαράσταση κάθε αντικειμένου με ένα σημείο στον γεωμετρικό χώρο (συνήθως της διάστασης 1, 2 ή 3), οι συντεταγμένες του οποίου είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που μαζί περιγράψτε επαρκώς το αντικείμενο. Ως παράδειγμα εφαρμογής της πιθανο-στατιστικής μοντελοποίησης και των αποτελεσμάτων στατιστικών μη αριθμητικών δεδομένων, αιτιολογούμε την εγκυρότητα της εκτίμησης της διάστασης του χώρου δεδομένων σε πολυδιάστατη κλιμάκωση, που προτάθηκε προηγουμένως από τον Kruskal για ευρετικούς λόγους. Ένας αριθμός εργασιών για εκτίμηση των διαστάσεων των μοντέλων(στην ανάλυση παλινδρόμησης και στη θεωρία της ταξινόμησης). Δίνονται πληροφορίες σχετικά με αλγόριθμους μείωσης διαστάσεων σε αυτοματοποιημένη γνωστική ανάλυση συστήματος.

Σχετικά θέματα επιστημονικές εργασίες στα μαθηματικά, συγγραφέας επιστημονικής εργασίας - Orlov Alexander Ivanovich, Lutsenko Evgeny Veniaminovich

  • Μαθηματικές μέθοδοι στην κοινωνιολογία για σαράντα πέντε χρόνια

  • Ποικιλία αντικειμένων μη αριθμητικής φύσης

  • Εκτίμηση παραμέτρων: Οι εκτιμητές ενός βήματος είναι προτιμότεροι από τους εκτιμητές μέγιστης πιθανότητας

  • Εφαρμοσμένη Στατιστική - Κατάσταση και Προοπτικές

    2016 / Alexander Orlov
  • Κατάσταση και προοπτικές ανάπτυξης εφαρμοσμένων και θεωρητικών στατιστικών

    2016 / Alexander Orlov
  • Σχέση οριακών θεωρημάτων και μεθόδου Monte Carlo

    2015 / Alexander Orlov
  • Σχετικά με την ανάπτυξη στατιστικών αντικειμένων μη αριθμητικής φύσης

    2013 / Alexander Orlov
  • Σημεία ανάπτυξης στατιστικών μεθόδων

    2014 / Alexander Orlov
  • Σχετικά με νέα πολλά υποσχόμενα μαθηματικά εργαλεία ελέγχου

    2015 / Alexander Orlov
  • Αποστάσεις σε χώρους στατιστικών δεδομένων

    2014 / Alexander Orlov

Ένα από τα «σημεία ανάπτυξης» των εφαρμοσμένων στατιστικών είναι οι μέθοδοι μείωσης της διάστασης των στατιστικών δεδομένων. Χρησιμοποιούνται όλο και περισσότερο στην ανάλυση δεδομένων σε συγκεκριμένες εφαρμοσμένες έρευνες, όπως η κοινωνιολογία. Διερευνούμε τις πιο υποσχόμενες μεθόδους για τη μείωση της διάστασης. Τα κύρια εξαρτήματα είναι μία από τις πιο συχνά χρησιμοποιούμενες μεθόδους για τη μείωση της διάστασης. Για οπτική ανάλυση δεδομένων χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως η δομή δεδομένων είναι σαφώς ορατή, επισημαίνονται συμπαγή συμπλέγματα αντικειμένων και χωριστά διανύσματα. Τα κύρια συστατικά είναι μια μέθοδος παραγοντικής ανάλυσης. Η νέα ιδέα της παραγοντικής ανάλυσης σε σύγκριση με τη μέθοδο των κύριων συστατικών είναι ότι, με βάση τα φορτία, οι παράγοντες χωρίζονται σε ομάδες. Σε μια ομάδα παραγόντων, ο νέος παράγοντας συνδυάζεται με παρόμοιο αντίκτυπο στα στοιχεία της νέας βάσης. Στη συνέχεια, σε κάθε ομάδα συνιστάται να αφήσει έναν εκπρόσωπο. Μερικές φορές, αντί για την επιλογή του εκπροσώπου με υπολογισμό, ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μειωμένη διάσταση εμφανίζεται κατά τη μετάβαση στους παράγοντες συστήματος, οι οποίοι είναι εκπρόσωποι ομάδων. Άλλοι παράγοντες απορρίπτονται. Στη χρήση της απόστασης (μέτρα εγγύτητας, δείκτες διαφορών) μεταξύ χαρακτηριστικών και εκτεταμένων κλάσεων βασίζονται μέθοδοι πολυδιάστατης κλίμακας. Η βασική ιδέα αυτής της κατηγορίας μεθόδων είναι να παρουσιάζεται κάθε αντικείμενο ως σημείο του γεωμετρικού χώρου (συνήθως της διάστασης 1, 2 ή 3) του οποίου οι συντεταγμένες είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που συνδυάζονται επαρκώς περιγράψτε το αντικείμενο. Ως παράδειγμα εφαρμογής της πιθανοτικής και στατιστικής μοντελοποίησης και των αποτελεσμάτων στατιστικών μη αριθμητικών δεδομένων, δικαιολογούμε τη συνέπεια των εκτιμητών της διάστασης των δεδομένων στην πολυδιάστατη κλιμάκωση, που προτάθηκαν προηγουμένως από τον Kruskal από ευρετικές εκτιμήσεις. Έχουμε εξετάσει μια σειρά από συνεπείς εκτιμήσεις της διάστασης των μοντέλων (στην ανάλυση παλινδρόμησης και στη θεωρία της ταξινόμησης). Δίνουμε επίσης ορισμένες πληροφορίες σχετικά με τους αλγόριθμους για τη μείωση της διάστασης στην αυτοματοποιημένη γνωστική ανάλυση συστήματος

Το κείμενο της επιστημονικής εργασίας με θέμα «Μέθοδοι μείωσης της διάστασης του χώρου των στατιστικών δεδομένων»

UDC 519.2: 005.521:633.1:004.8

01.00.00 Φυσικομαθηματικές επιστήμες

ΜΕΘΟΔΟΙ ΓΙΑ ΤΗ ΜΕΙΩΣΗ ΔΙΑΣΤΑΣΕΩΝ ΤΟΥ ΧΩΡΟΥ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Ορλόφ Αλεξάντερ Ιβάνοβιτς

Διδάκτωρ Οικονομικών Επιστημών, Διδάκτωρ Τεχνικών Επιστημών, Ph.D., Καθηγητής

Κωδικός RSCI BRSH: 4342-4994

Κρατικό τεχνικό της Μόσχας

πανεπιστήμιο. Ν.Ε. Bauman, Ρωσία, 105005,

Μόσχα, 2η οδός Baumanskaya, 5, [email προστατευμένο]Τ

Lutsenko Evgeny Veniaminovich Διδάκτωρ Οικονομικών Επιστημών, Ph.D., Καθηγητής RSCI BRSH-κωδικός: 9523-7101 Kuban State Agrarian University, Krasnodar, Ρωσία [email προστατευμένο] com

Ένα από τα «σημεία ανάπτυξης» των εφαρμοσμένων στατιστικών είναι οι μέθοδοι μείωσης της διάστασης του χώρου των στατιστικών δεδομένων. Χρησιμοποιούνται όλο και περισσότερο στην ανάλυση δεδομένων σε συγκεκριμένη εφαρμοσμένη έρευνα, για παράδειγμα, κοινωνιολογική. Ας εξετάσουμε τις πιο υποσχόμενες μεθόδους μείωσης διαστάσεων. Η ανάλυση του κύριου στοιχείου είναι μία από τις πιο συχνά χρησιμοποιούμενες μεθόδους μείωσης διαστάσεων. Για οπτική ανάλυση δεδομένων, χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως, η δομή δεδομένων είναι σαφώς ορατή, διακρίνονται συμπαγή συμπλέγματα αντικειμένων και χωριστά διανύσματα. Η ανάλυση του κύριου συστατικού είναι μία από τις μεθόδους της παραγοντικής ανάλυσης. Μια νέα ιδέα σε σύγκριση με τη μέθοδο του κύριου συστατικού είναι ότι, με βάση τα φορτία, οι συντελεστές χωρίζονται σε ομάδες. Μια ομάδα συνδυάζει παράγοντες που έχουν παρόμοια επίδραση στα στοιχεία της νέας βάσης. Στη συνέχεια, συνιστάται να αφήσετε έναν εκπρόσωπο από κάθε ομάδα. Μερικές φορές, αντί να επιλεγεί ένας εκπρόσωπος με υπολογισμό, σχηματίζεται ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μείωση της διάστασης συμβαίνει κατά τη μετάβαση σε ένα σύστημα παραγόντων που είναι εκπρόσωποι ομάδων. Οι υπόλοιποι παράγοντες απορρίπτονται. Μια εκτεταμένη κατηγορία πολυδιάστατων μεθόδων κλιμάκωσης βασίζεται στη χρήση αποστάσεων (μέτρα εγγύτητας, δείκτες διαφοράς) μεταξύ των χαρακτηριστικών. Η κύρια ιδέα αυτής της κατηγορίας μεθόδων είναι να αναπαραστήσει κάθε αντικείμενο ως ένα σημείο στο γεωμετρικό χώρο (συνήθως των διαστάσεων 1, 2 ή 3), οι συντεταγμένες του οποίου είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που μαζί περιγράφουν επαρκώς

UDC 519.2:005.521:633.1:004.8

Φυσική και Μαθηματικές Επιστήμες

ΜΕΘΟΔΟΙ ΜΕΙΩΣΗΣ ΧΩΡΟΥ ΔΙΑΣΤΑΣΗ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Αλεξάντερ Ορλόφ

Dr.Sci.Econ., Dr.Sci.Tech., Cand.Phys-Math.Sci.,

Κρατικό Τεχνικό Πανεπιστήμιο Bauman Moscow, Μόσχα, Ρωσία

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ., Cand.Tech.Sci., καθηγητής RSCI SPIN-κωδικός: 9523-7101

Κρατικό Αγροτικό Πανεπιστήμιο Kuban, Κρασνοντάρ, Ρωσία

[email προστατευμένο] com

Ένα από τα «σημεία ανάπτυξης» των εφαρμοσμένων στατιστικών είναι οι μέθοδοι μείωσης της διάστασης των στατιστικών δεδομένων. Χρησιμοποιούνται όλο και περισσότερο στην ανάλυση δεδομένων σε συγκεκριμένες εφαρμοσμένες έρευνες, όπως η κοινωνιολογία. Διερευνούμε τις πιο υποσχόμενες μεθόδους για τη μείωση της διάστασης. Τα κύρια εξαρτήματα είναι μία από τις πιο συχνά χρησιμοποιούμενες μεθόδους για τη μείωση της διάστασης. Για οπτική ανάλυση δεδομένων χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως η δομή δεδομένων είναι σαφώς ορατή, επισημαίνονται συμπαγή συμπλέγματα αντικειμένων και χωριστά διανύσματα. Τα κύρια συστατικά είναι μια μέθοδος παραγοντικής ανάλυσης. Η νέα ιδέα της παραγοντικής ανάλυσης σε σύγκριση με τη μέθοδο των κύριων συστατικών είναι ότι, με βάση τα φορτία, οι παράγοντες χωρίζονται σε ομάδες. Σε μια ομάδα παραγόντων, ο νέος παράγοντας συνδυάζεται με παρόμοιο αντίκτυπο στα στοιχεία της νέας βάσης. Στη συνέχεια, σε κάθε ομάδα συνιστάται να αφήσει έναν εκπρόσωπο. Μερικές φορές, αντί για την επιλογή του εκπροσώπου με υπολογισμό, ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μειωμένη διάσταση εμφανίζεται κατά τη μετάβαση στους παράγοντες συστήματος, οι οποίοι είναι εκπρόσωποι ομάδων. Άλλοι παράγοντες απορρίπτονται. Στη χρήση της απόστασης (μέτρα εγγύτητας, δείκτες διαφορών) μεταξύ χαρακτηριστικών και εκτεταμένων κλάσεων βασίζονται μέθοδοι πολυδιάστατης κλιμάκωσης. Η βασική ιδέα αυτής της κατηγορίας μεθόδων είναι να παρουσιάζεται κάθε αντικείμενο ως σημείο του γεωμετρικού χώρου (συνήθως της διάστασης 1, 2 ή 3) του οποίου οι συντεταγμένες είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που συνδυάζονται επαρκώς περιγράψτε το αντικείμενο. Ως παράδειγμα εφαρμογής της πιθανοτικής και στατιστικής μοντελοποίησης και των αποτελεσμάτων στατιστικών μη αριθμητικών δεδομένων, δικαιολογούμε τη συνέπεια των εκτιμητών του

ένα αντικείμενο. Ως παράδειγμα εφαρμογής της πιθανοτικής-στατιστικής μοντελοποίησης και των αποτελεσμάτων στατιστικών μη αριθμητικών δεδομένων, δικαιολογούμε τη συνέπεια της εκτίμησης της διάστασης του χώρου δεδομένων σε πολυδιάστατη κλίμακα, που προτάθηκε προηγουμένως από τον Kruskal από ευρετικές εκτιμήσεις. Εξετάζεται ένας αριθμός εργασιών για την εκτίμηση των διαστάσεων των μοντέλων (στην ανάλυση παλινδρόμησης και στη θεωρία της ταξινόμησης). Δίνονται πληροφορίες σχετικά με αλγόριθμους μείωσης διαστάσεων σε αυτοματοποιημένη γνωστική ανάλυση συστήματος.

Λέξεις κλειδιά: ΜΑΘΗΜΑΤΙΚΑ, ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ, ΜΑΘΗΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ, ΣΗΜΕΙΑ ΑΝΑΠΤΥΞΗΣ, ΜΕΘΟΔΟΣ ΚΥΡΙΩΝ ΣΥΣΤΑΤΩΝ, ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ, ΠΟΛΥΔΙΑΣΤΑΤΙΚΗ ΚΛΙΜΑΚΩΣΗ, ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΑΣΕΩΝ ΕΚΤΙΜΗΣΗ ΔΕΔΟΜΕΝΩΝ, ΜΟΝΤΕΛΟ

διάσταση των δεδομένων στην πολυδιάστατη κλιμάκωση, που προτάθηκαν προηγουμένως από τον Kruskal από ευρετικές εκτιμήσεις. Έχουμε εξετάσει μια σειρά από συνεπείς εκτιμήσεις της διάστασης των μοντέλων (στην ανάλυση παλινδρόμησης και στη θεωρία της ταξινόμησης). Δίνουμε επίσης ορισμένες πληροφορίες σχετικά με τους αλγόριθμους για τη μείωση της διάστασης στην αυτοματοποιημένη γνωστική ανάλυση συστήματος

Λέξεις κλειδιά: ΜΑΘΗΜΑΤΙΚΑ ΕΦΑΡΜΟΣΜΕΝΗ ΣΤΑΤΙΣΤΙΚΗ ΜΑΘΗΜΑΤΙΚΗ ΣΤΑΤΙΣΤΙΚΗ ΑΝΑΠΤΥΞΗ ΣΗΜΕΙΑ ΑΝΑΛΥΣΗ ΠΑΡΑΓΟΝΤΩΝ ΑΝΑΛΥΣΗΣ ΚΥΡΙΩΝ ΣΥΝΙΣΤΩΝ ΠΟΛΥΔΙΑΣΤΑΤΙΚΗ ΚΛΙΜΑΚΩΣΗ ΕΚΤΙΜΗΣΗ ΔΙΑΣΤΑΣΕΩΝ ΔΙΑΣΤΑΣΗ ΕΚΤΙΜΗΣΗ ΜΟΝΤΕΛΟΥ

1. Εισαγωγή

Όπως έχει ήδη σημειωθεί, ένα από τα «σημεία ανάπτυξης» των εφαρμοσμένων στατιστικών είναι οι μέθοδοι μείωσης της διάστασης του χώρου στατιστικών δεδομένων. Χρησιμοποιούνται όλο και περισσότερο στην ανάλυση δεδομένων σε συγκεκριμένη εφαρμοσμένη έρευνα, για παράδειγμα, κοινωνιολογική. Ας εξετάσουμε τις πιο υποσχόμενες μεθόδους μείωσης διαστάσεων. Ως παράδειγμα εφαρμογής της πιθανο-στατιστικής μοντελοποίησης και των αποτελεσμάτων στατιστικών μη αριθμητικών δεδομένων, θα δικαιολογήσουμε τη συνέπεια της εκτίμησης της διάστασης του χώρου, που προτάθηκε προηγουμένως από τον Kruskal από ευρετικές εκτιμήσεις.

Στην πολυμεταβλητή στατιστική ανάλυση, κάθε αντικείμενο περιγράφεται από ένα διάνυσμα του οποίου η διάσταση είναι αυθαίρετη (αλλά ίδια για όλα τα αντικείμενα). Ωστόσο, ένα άτομο μπορεί να αντιληφθεί άμεσα μόνο αριθμητικά δεδομένα ή σημεία σε ένα επίπεδο. Είναι ήδη πολύ πιο δύσκολο να αναλυθούν συστάδες σημείων στον τρισδιάστατο χώρο. Η άμεση αντίληψη δεδομένων υψηλότερης διάστασης είναι αδύνατη. Ως εκ τούτου, είναι πολύ φυσικό να θέλουμε να μεταβούμε από ένα πολυμεταβλητό δείγμα σε δεδομένα χαμηλών διαστάσεων, έτσι ώστε «να μπορεί να χρησιμοποιηθεί για

Κοίτα". Για παράδειγμα, ένας έμπορος μπορεί να δει οπτικά πόσα διάφοροι τύποικαταναλωτική συμπεριφορά (δηλαδή πόσοι είναι σκόπιμο να ξεχωρίσουμε τμήματα της αγοράς) και ποιοι καταναλωτές (με ποιες ιδιότητες) περιλαμβάνονται σε αυτά.

Εκτός από την επιθυμία για ορατότητα, υπάρχουν και άλλα κίνητρα για τη μείωση της διάστασης. Οι παράγοντες εκείνοι από τους οποίους δεν εξαρτάται η μεταβλητή που ενδιαφέρει τον ερευνητή παρεμποδίζουν μόνο τη στατιστική ανάλυση. Πρώτον, δαπανώνται οικονομικοί, χρόνοι και ανθρώπινοι πόροι για τη συλλογή πληροφοριών σχετικά με αυτά. Δεύτερον, όπως αποδεικνύεται, η συμπερίληψή τους στην ανάλυση επιδεινώνει τις ιδιότητες των στατιστικών διαδικασιών (ειδικά, αυξάνει τη διακύμανση των εκτιμήσεων των παραμέτρων και των χαρακτηριστικών των κατανομών). Ως εκ τούτου, είναι επιθυμητό να απαλλαγούμε από τέτοιους παράγοντες.

Κατά την ανάλυση πολυμεταβλητών δεδομένων, συνήθως θεωρείται όχι ένα, αλλά πολλά προβλήματα, ιδίως η διαφορετική επιλογή ανεξάρτητων και εξαρτημένων μεταβλητών. Επομένως, εξετάστε το πρόβλημα μείωσης διαστάσεων στην ακόλουθη διατύπωση. Δίνεται ένα πολυμεταβλητό δείγμα. Απαιτείται η μετάβαση από αυτό σε ένα σύνολο διανυσμάτων μικρότερης διάστασης, διατηρώντας τη δομή των αρχικών δεδομένων όσο το δυνατόν περισσότερο, χωρίς να χαθούν οι πληροφορίες που περιέχονται στα δεδομένα, αν είναι δυνατόν. Η εργασία καθορίζεται στο πλαίσιο κάθε συγκεκριμένης μεθόδου μείωσης διαστάσεων.

2. Μέθοδος κύριας συνιστώσας

Είναι μια από τις πιο συχνά χρησιμοποιούμενες μεθόδους μείωσης διαστάσεων. Η κύρια ιδέα του είναι να προσδιορίσει διαδοχικά τις κατευθύνσεις στις οποίες τα δεδομένα έχουν τη μεγαλύτερη εξάπλωση. Έστω ότι το δείγμα αποτελείται από διανύσματα ίσα κατανεμημένα με το διάνυσμα X = (x(1), x(2), ... , x(n)). Εξετάστε γραμμικούς συνδυασμούς

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Εδώ το διάνυσμα X = (X(1), X(2), ..., X(n)) βρίσκεται στη μονάδα σφαίρα σε ν-διάστατο χώρο.

Στη μέθοδο της κύριας συνιστώσας, καταρχάς, βρίσκεται η κατεύθυνση της μέγιστης διασποράς, δηλ. τέτοιο X στο οποίο η διακύμανση της τυχαίας μεταβλητής 7(X) = 7(X(1), X(2), ..., X(n)) φτάνει το μέγιστο. Στη συνέχεια, το διάνυσμα X καθορίζει την πρώτη κύρια συνιστώσα και η τιμή 7(X) είναι η προβολή του τυχαίου διανύσματος X στον άξονα της πρώτης κύριας συνιστώσας.

Στη συνέχεια, όσον αφορά τη γραμμική άλγεβρα, θεωρείται ένα υπερεπίπεδο σε χώρο n-διαστάσεων, κάθετο στην πρώτη κύρια συνιστώσα, και όλα τα στοιχεία του δείγματος προβάλλονται σε αυτό το υπερεπίπεδο. Η διάσταση του υπερεπίπεδου είναι 1 μικρότερη από τη διάσταση του αρχικού χώρου.

Στο υπό εξέταση υπερπλάνο, η διαδικασία επαναλαμβάνεται. Η κατεύθυνση της μεγαλύτερης εξάπλωσης βρίσκεται σε αυτό, δηλ. δεύτερο κύριο συστατικό. Στη συνέχεια, εκχωρήστε ένα υπερεπίπεδο κάθετο στις δύο πρώτες κύριες συνιστώσες. Η διάστασή του είναι 2 μικρότερη από τη διάσταση του αρχικού χώρου. Ακολουθεί η επόμενη επανάληψη.

Από τη σκοπιά της γραμμικής άλγεβρας, μιλάμε για την κατασκευή μιας νέας βάσης σε έναν ν-διάστατο χώρο, τα όρτια του οποίου είναι τα κύρια συστατικά.

Η απόκλιση που αντιστοιχεί σε κάθε νέα κύρια συνιστώσα είναι μικρότερη από την προηγούμενη. Συνήθως σταματούν όταν είναι μικρότερο από ένα δεδομένο όριο. Εάν επιλεχθούν k κύρια στοιχεία, τότε αυτό σημαίνει ότι ήταν δυνατό να περάσει από τον n-διάστατο χώρο στον k-διάστατο, δηλ. μειώστε τη διάσταση από p-σε k, πρακτικά χωρίς να παραμορφώσετε τη δομή των δεδομένων πηγής.

Για οπτική ανάλυση δεδομένων, χρησιμοποιούνται συχνά οι προβολές των αρχικών διανυσμάτων στο επίπεδο των δύο πρώτων κύριων συνιστωσών. Συνήθως

η δομή των δεδομένων είναι σαφώς ορατή, διακρίνονται συμπαγή συμπλέγματα αντικειμένων και ξεχωριστά διανύσματα.

3. Παραγοντική ανάλυση

Η ανάλυση του κύριου συστατικού είναι μία από τις μεθόδους της παραγοντικής ανάλυσης. Διάφοροι αλγόριθμοι παραγοντικής ανάλυσης ενώνονται από το γεγονός ότι σε όλους υπάρχει μια μετάβαση σε μια νέα βάση στον αρχικό ν-διάστατο χώρο. Η έννοια του «συντελεστικού φορτίου» είναι σημαντική, η οποία χρησιμοποιείται για να περιγράψει τον ρόλο του αρχικού παράγοντα (μεταβλητής) στο σχηματισμό ενός συγκεκριμένου διανύσματος από μια νέα βάση.

Μια νέα ιδέα σε σύγκριση με τη μέθοδο του κύριου συστατικού είναι ότι, με βάση τα φορτία, οι συντελεστές χωρίζονται σε ομάδες. Μια ομάδα συνδυάζει παράγοντες που έχουν παρόμοια επίδραση στα στοιχεία της νέας βάσης. Στη συνέχεια, συνιστάται να αφήσετε έναν εκπρόσωπο από κάθε ομάδα. Μερικές φορές, αντί να επιλεγεί ένας εκπρόσωπος με υπολογισμό, σχηματίζεται ένας νέος παράγοντας που είναι κεντρικός για την εν λόγω ομάδα. Η μείωση της διάστασης συμβαίνει κατά τη μετάβαση σε ένα σύστημα παραγόντων που είναι εκπρόσωποι ομάδων. Οι υπόλοιποι παράγοντες απορρίπτονται.

Η περιγραφόμενη διαδικασία μπορεί να πραγματοποιηθεί όχι μόνο με τη βοήθεια της παραγοντικής ανάλυσης. Μιλάμε για ανάλυση συστάδων χαρακτηριστικών (παράγοντες, μεταβλητές). Για να χωριστούν τα χαρακτηριστικά σε ομάδες, μπορούν να χρησιμοποιηθούν διάφοροι αλγόριθμοι ανάλυσης συστάδων. Αρκεί να εισάγετε την απόσταση (μέτρηση εγγύτητας, ένδειξη διαφοράς) μεταξύ των χαρακτηριστικών. Έστω το Χ και το Υ δύο χαρακτηριστικά. Η διαφορά d(X,Y) μεταξύ τους μπορεί να μετρηθεί χρησιμοποιώντας συντελεστές συσχέτισης δειγμάτων:

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, όπου rn(X,Y) είναι ο συντελεστής γραμμικής συσχέτισης του δείγματος Pearson, pn(X, Y) - Συντελεστής συσχέτισης κατάταξης δείγματος Spearman.

4. Πολυδιάστατη κλιμάκωση.

Μια εκτεταμένη κατηγορία πολυδιάστατων μεθόδων κλιμάκωσης βασίζεται στη χρήση αποστάσεων (μέτρα εγγύτητας, δείκτες διαφοράς) d (X, Y) μεταξύ των χαρακτηριστικών X και Y. Η κύρια ιδέα αυτής της κατηγορίας μεθόδων είναι η αναπαράσταση κάθε αντικειμένου με ένα σημείο στον γεωμετρικό χώρο (συνήθως της διάστασης 1, 2 ή 3), οι συντεταγμένες του οποίου είναι οι τιμές των κρυφών (λανθάνουσας) παραγόντων που μαζί περιγράψτε επαρκώς το αντικείμενο. Σε αυτή την περίπτωση, οι σχέσεις μεταξύ αντικειμένων αντικαθίστανται από σχέσεις μεταξύ σημείων - των εκπροσώπων τους. Έτσι, δεδομένα για την ομοιότητα των αντικειμένων - από τις αποστάσεις μεταξύ των σημείων, δεδομένα για την ανωτερότητα - από την αμοιβαία διάταξη των σημείων.

5. Το πρόβλημα της εκτίμησης της πραγματικής διάστασης του χώρου παραγόντων

Στην πρακτική της ανάλυσης κοινωνιολογικών δεδομένων, χρησιμοποιείται ένας αριθμός διαφορετικών πολυδιάστατων μοντέλων κλιμάκωσης. Όλοι αντιμετωπίζουν το πρόβλημα της εκτίμησης της πραγματικής διάστασης του χώρου παραγόντων. Ας εξετάσουμε αυτό το πρόβλημα χρησιμοποιώντας το παράδειγμα επεξεργασίας δεδομένων σχετικά με την ομοιότητα των αντικειμένων χρησιμοποιώντας μετρική κλίμακα.

Έστω n αντικείμενα 0(1), O(2), ..., O(n), για κάθε ζεύγος αντικειμένων 0(/), O(j) δίνεται μέτρο της ομοιότητάς τους s(ij). Υποθέτουμε ότι πάντα s(i,j) = s(j,i). Η προέλευση των αριθμών s(ij) δεν έχει σημασία για την περιγραφή της λειτουργίας του αλγορίθμου. Θα μπορούσαν να ληφθούν είτε με άμεση μέτρηση, είτε με τη χρήση ειδικών, είτε με υπολογισμό από ένα σύνολο περιγραφικών χαρακτηριστικών ή με κάποιον άλλο τρόπο.

Στον Ευκλείδειο χώρο, τα n αντικείμενα που εξετάζονται πρέπει να αντιπροσωπεύονται από μια διαμόρφωση n σημείων και την Ευκλείδεια απόσταση d(i,j)

μεταξύ των αντίστοιχων σημείων. Ο βαθμός αντιστοιχίας μεταξύ ενός συνόλου αντικειμένων και ενός συνόλου σημείων που τα αντιπροσωπεύουν προσδιορίζεται συγκρίνοντας τους πίνακες ομοιότητας ||i(,)|| και αποστάσεις Η συνάρτηση ομοιότητας CMM-μετρική έχει τη μορφή

i = t|*(/, ]) - d(/, M

Η γεωμετρική διαμόρφωση πρέπει να επιλεγεί έτσι ώστε το λειτουργικό S να φτάσει την ελάχιστη τιμή του.

Σχόλιο. Στη μη μετρική κλιμάκωση, αντί για την εγγύτητα των ίδιων των μέτρων εγγύτητας και των αποστάσεων, λαμβάνεται υπόψη η εγγύτητα των παραγγελιών στο σύνολο των μέτρων εγγύτητας και στο σύνολο των αντίστοιχων αποστάσεων. Αντί για το λειτουργικό S, χρησιμοποιούνται ανάλογα των συντελεστών συσχέτισης κατάταξης Spearman και Kendall. Με άλλα λόγια, η μη μετρική κλίμακα προϋποθέτει ότι τα μέτρα εγγύτητας μετρώνται σε μια τακτική κλίμακα.

Έστω ο Ευκλείδειος χώρος να έχει διάσταση m. Θεωρήστε το ελάχιστο του μέσου τετραγώνου σφάλματος

όπου το ελάχιστο λαμβάνεται σε όλες τις πιθανές διαμορφώσεις n σημείων στον ευκλείδειο χώρο m διαστάσεων. Μπορεί να αποδειχθεί ότι το θεωρούμενο ελάχιστο επιτυγχάνεται σε κάποια διαμόρφωση. Είναι σαφές ότι όσο αυξάνεται το m, η τιμή του am μειώνεται μονότονα (ακριβέστερα, δεν αυξάνεται). Μπορεί να φανεί ότι για m > n - 1 είναι ίσο με 0 (αν είναι μετρική). Για να αυξηθούν οι δυνατότητες ουσιαστικής ερμηνείας, είναι επιθυμητό να δράσουμε σε έναν χώρο της μικρότερης δυνατής διάστασης. Σε αυτή την περίπτωση, ωστόσο, η διάσταση πρέπει να επιλέγεται έτσι ώστε τα σημεία να αντιπροσωπεύουν αντικείμενα χωρίς μεγάλες παραμορφώσεις. Τίθεται το ερώτημα: πώς να επιλέξουμε ορθολογικά τη διάσταση του χώρου, δηλ. φυσικός αριθμός t;

6. Μοντέλα και μέθοδοι εκτίμησης της διάστασης του χώρου δεδομένων

Στο πλαίσιο της ντετερμινιστικής ανάλυσης δεδομένων, δεν φαίνεται να υπάρχει λογική απάντηση σε αυτό το ερώτημα. Επομένως, είναι απαραίτητο να μελετηθεί η συμπεριφορά του am σε ορισμένα πιθανοτικά μοντέλα. Εάν τα μέτρα εγγύτητας s(ij) είναι τυχαίες μεταβλητές των οποίων η κατανομή εξαρτάται από την «αληθινή διάσταση» m0 (και, ενδεχομένως, από κάποιες άλλες παραμέτρους), τότε μπορούμε να θέσουμε το πρόβλημα της εκτίμησης του m0 στο κλασικό μαθηματικό-στατιστικό στυλ, κοιτάξτε για συνεπείς εκτιμήσεις κ.λπ.

Ας αρχίσουμε να χτίζουμε πιθανολογικά μοντέλα. Υποθέτουμε ότι τα αντικείμενα είναι σημεία σε έναν Ευκλείδειο χώρο διάστασης k, όπου το k είναι αρκετά μεγάλο. Το γεγονός ότι η «αληθινή διάσταση» είναι ίση με m0 σημαίνει ότι όλα αυτά τα σημεία βρίσκονται σε ένα υπερεπίπεδο διάστασης m0. Ας υποθέσουμε για βεβαιότητα ότι το σύνολο των σημείων που εξετάζουμε είναι ένα δείγμα από μια κυκλική κανονική κατανομή με διακύμανση o(0). Αυτό σημαίνει ότι τα αντικείμενα 0(1), 0(2), ..., O(n) είναι αμοιβαία ανεξάρτητα τυχαία διανύσματα, καθένα από τα οποία είναι κατασκευασμένο ως

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), όπου e(1), e(2), ... , e(m0) είναι μια ορθοκανονική βάση στον υποχώρο της διάστασης m0, στον οποίο βρίσκονται τα εξεταζόμενα σημεία και τα Z(1), Z(2), , Z(m0) είναι αμοιβαία ανεξάρτητες μονοδιάστατες κανονικές τυχαίες μεταβλητές με μαθηματική προσδοκία 0 και διακύμανση o (0).

Εξετάστε δύο μοντέλα για τη λήψη μέτρων εγγύτητας s(ij). Στο πρώτο από αυτά, το s(ij) διαφέρει από την Ευκλείδεια απόσταση μεταξύ των αντίστοιχων σημείων λόγω του ότι τα σημεία είναι γνωστά με παραμορφώσεις. Έστω c(1), c(2), ... , c(n) τα υπό εξέταση σημεία. Επειτα

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

όπου d είναι η Ευκλείδεια απόσταση μεταξύ σημείων στον d-διάστατο χώρο, τα διανύσματα e(1), e(2), ... , e(n) είναι δείγμα από την κυκλική κανονική κατανομή στον d-διάστατο χώρο με μηδενική μαθηματική προσδοκία και ο πίνακας συνδιακύμανσης o (1)/, όπου I είναι ο πίνακας ταυτότητας. Με άλλα λόγια,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), όπου e(1), e(2), ..., Το e(k) είναι μια ορθοκανονική βάση στον ^-διάστατο χώρο, και [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - ένα σύνολο μονοδιάστατων τυχαίων μεταβλητών ανεξάρτητων στο σύνολο με μηδενική μαθηματική προσδοκία και διακύμανση o (1).

Στο δεύτερο μοντέλο, οι παραμορφώσεις επιβάλλονται απευθείας στις ίδιες τις αποστάσεις:

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

όπου και , και στο πρώτο διάστημα μειώνεται γρηγορότερα από ό,τι στο δεύτερο. Από αυτό προκύπτει ότι τα στατιστικά

m* = Arg minam+1 - 2am + an-x)

είναι μια συνεπής εκτίμηση της πραγματικής διάστασης του m0.

Άρα, προκύπτει μια σύσταση από τη θεωρία των πιθανοτήτων - να χρησιμοποιηθεί m* ως εκτίμηση της διάστασης του χώρου παραγόντων. Σημειώστε ότι μια τέτοια σύσταση διατυπώθηκε ως ευρετική από έναν από τους ιδρυτές της πολυδιάστατης κλιμάκωσης, τον J. Kraskal. Προχώρησε από την εμπειρία της πρακτικής χρήσης πολυδιάστατης κλιμάκωσης και υπολογιστικών πειραμάτων. Η πιθανοτική θεωρία κατέστησε δυνατή την τεκμηρίωση αυτής της ευρετικής σύστασης.

7. Εκτίμηση διαστάσεων μοντέλου

Εάν πιθανά υποσύνολα χαρακτηριστικών σχηματίζουν μια διευρυνόμενη οικογένεια, για παράδειγμα, ο βαθμός ενός πολυωνύμου εκτιμάται, τότε είναι φυσικό να εισαχθεί ο όρος «διάσταση μοντέλου» (αυτή η έννοια είναι από πολλές απόψεις παρόμοια με την έννοια της διάστασης χώρου δεδομένων που χρησιμοποιείται στο πολυδιάστατη κλιμάκωση). Ο συγγραφέας αυτού του άρθρου έχει έναν αριθμό εργασιών για την εκτίμηση της διάστασης του μοντέλου, οι οποίες αξίζει να συγκριθούν με τις εργασίες για την εκτίμηση της διάστασης του χώρου δεδομένων που συζητήθηκαν παραπάνω.

Η πρώτη τέτοια εργασία έγινε από τον συγγραφέα αυτού του άρθρου κατά τη διάρκεια ενός επαγγελματικού ταξιδιού στη Γαλλία το 1976. Σε αυτήν, μελετήθηκε μια εκτίμηση της διάστασης του μοντέλου στην παλινδρόμηση, δηλαδή, η εκτίμηση του βαθμού ενός πολυωνύμου με την υπόθεση ότι Η εξάρτηση περιγράφεται από ένα πολυώνυμο. Αυτή η εκτίμηση ήταν γνωστή στη βιβλιογραφία, αλλά αργότερα αποδόθηκε λανθασμένα στον συγγραφέα αυτού του άρθρου, ο οποίος μελέτησε μόνο τις ιδιότητές του, ειδικότερα, διαπίστωσε ότι δεν είναι συνεπής και βρήκε την περιοριστική γεωμετρική κατανομή του. Άλλες, ήδη συνεπείς εκτιμήσεις της διάστασης του μοντέλου παλινδρόμησης προτάθηκαν και μελετήθηκαν στο άρθρο. Αυτός ο κύκλος ολοκληρώθηκε με μια εργασία που περιείχε μια σειρά από διευκρινίσεις.

Η τελευταία δημοσίευση σχετικά με αυτό το θέμα περιλαμβάνει μια συζήτηση των αποτελεσμάτων της μελέτης του ρυθμού σύγκλισης στα οριακά θεωρήματα που απέκτησα με τη μέθοδο Monte Carlo.

Μεθοδολογικά παρόμοιες εκτιμήσεις της διάστασης του μοντέλου στο πρόβλημα των μιγμάτων διάσπασης (μέρος της θεωρίας της ταξινόμησης) εξετάζονται στο άρθρο.

Οι εκτιμήσεις της διάστασης του μοντέλου που εξετάστηκαν παραπάνω στην πολυδιάστατη κλίμακα μελετώνται στις εργασίες. Στις ίδιες εργασίες καθιερώθηκε η περιοριστική συμπεριφορά των χαρακτηριστικών της μεθόδου του κύριου συστατικού (χρησιμοποιώντας την ασυμπτωτική θεωρία της συμπεριφοράς των λύσεων σε ακραία στατιστικά προβλήματα).

8. Αλγόριθμοι για τη μείωση των διαστάσεων σε αυτοματοποιημένη γνωστική ανάλυση συστήματος

Στην αυτοματοποιημένη γνωστική ανάλυση συστήματος (ASC-analysis), προτείνεται και εφαρμόζεται στο σύστημα «Eidos» μια άλλη μέθοδος μείωσης διαστάσεων. Περιγράφεται στην εργασία στις ενότητες 4.2 «Περιγραφή αλγορίθμων για βασικές γνωστικές λειτουργίες ανάλυσης συστήματος (BCOSA)» και 4.3 «Λεπτομερείς αλγόριθμοι για BCOSA (Ανάλυση ASC)». Ας φέρουμε Σύντομη περιγραφήδύο αλγόριθμοι - BKOSA-4.1 και BKOSA-4.2.

BKOSA-4.1. «Αφαίρεση παραγόντων (μείωση της διάστασης του σημασιολογικού χώρου των παραγόντων)»

Χρησιμοποιώντας τη μέθοδο των διαδοχικών προσεγγίσεων (επαναληπτικός αλγόριθμος), υπό δεδομένες οριακές συνθήκες, η διάσταση του χώρου χαρακτηριστικών μειώνεται χωρίς σημαντική μείωση του όγκου του. Το κριτήριο για τη διακοπή της επαναληπτικής διαδικασίας είναι η επίτευξη μιας από τις οριακές συνθήκες.

BKOSA-4.2. "Αφηρημένες τάξεις (μείωση της διάστασης του σημασιολογικού χώρου των τάξεων)"

Χρησιμοποιώντας τη μέθοδο των διαδοχικών προσεγγίσεων (επαναληπτικός αλγόριθμος), υπό δεδομένες οριακές συνθήκες, η διάσταση του χώρου κλάσης μειώνεται χωρίς σημαντική μείωση του όγκου του. Το κριτήριο για τη διακοπή της επαναληπτικής διαδικασίας είναι η επίτευξη μιας από τις οριακές συνθήκες.

Εδώ είναι όλοι οι πραγματικοί αλγόριθμοι που εφαρμόστηκαν στο σύστημα Eidos της έκδοσης που εφαρμόστηκε κατά την προετοιμασία της εργασίας (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Η ουσία των αλγορίθμων είναι η εξής.

1. Υπολογίζεται η ποσότητα των πληροφοριών στις τιμές των παραγόντων σχετικά με τη μετάβαση του αντικειμένου στις καταστάσεις που αντιστοιχούν στις κλάσεις.

2. Η τιμή της τιμής του παράγοντα υπολογίζεται για τη διαφοροποίηση αντικειμένων ανά κλάσεις. Αυτή η τιμή είναι απλώς η μεταβλητότητα της πληροφορίας των τιμών των παραγόντων (υπάρχουν πολλά ποσοτικά μέτρα μεταβλητότητας: η μέση απόκλιση από τον μέσο όρο, η τυπική απόκλιση κ.λπ.). Με άλλα λόγια, εάν η τιμή ενός παράγοντα κατά μέσο όρο περιέχει λίγες πληροφορίες σχετικά με το αν ένα αντικείμενο ανήκει σε μια κλάση ή όχι, τότε αυτή η τιμή δεν είναι πολύ πολύτιμη και αν είναι πολύ, τότε είναι πολύτιμη.

3. Υπολογίζεται η τιμή των περιγραφικών κλιμάκων για τη διαφοροποίηση αντικειμένων ανά κλάσεις. Στα έργα του E.V. Lutsenko τώρα αυτό γίνεται ως μέσος όρος των τιμών των διαβαθμίσεων αυτής της κλίμακας.

4. Στη συνέχεια πραγματοποιείται βελτιστοποίηση Pareto των τιμών των παραγόντων και των περιγραφικών κλιμάκων:

Οι τιμές των παραγόντων (διαβαθμίσεις των περιγραφικών κλιμάκων) ταξινομούνται με φθίνουσα σειρά τιμής και οι λιγότερο πολύτιμοι που πηγαίνουν στα δεξιά της εφαπτομένης στην καμπύλη Pareto 45° αφαιρούνται από το μοντέλο.

Οι παράγοντες (περιγραφικές κλίμακες) ταξινομούνται με φθίνουσα σειρά τιμής και οι λιγότερο πολύτιμοι παράγοντες που πηγαίνουν στα δεξιά της εφαπτομένης στην καμπύλη Pareto 45° αφαιρούνται από το μοντέλο.

Ως αποτέλεσμα, η διάσταση του χώρου που χτίζεται σε περιγραφικές κλίμακες μειώνεται σημαντικά λόγω της αφαίρεσης των κλιμάκων που συσχετίζονται μεταξύ τους, δηλ. Στην πραγματικότητα, αυτή είναι η ορθοκανονικοποίηση του χώρου στη μέτρηση πληροφοριών.

Αυτή η διαδικασία μπορεί να επαναληφθεί, δηλ. να είναι επαναληπτικό, ενώ νέα έκδοσηΟι επαναλήψεις του συστήματος "Eidos" ξεκινούν χειροκίνητα.

Ο χώρος πληροφοριών των τάξεων είναι ορθοκανονικοποιημένος με παρόμοιο τρόπο.

Οι κλίμακες και οι διαβαθμίσεις τους μπορεί να είναι αριθμητικές (στην περίπτωση αυτή, οι τιμές διαστήματος επεξεργάζονται) και μπορεί επίσης να είναι κειμένου (τακτική ή ακόμα και ονομαστική).

Έτσι, με τη βοήθεια των αλγορίθμων BKOSA (ASK-analysis), η διάσταση του χώρου μειώνεται όσο το δυνατόν περισσότερο με ελάχιστη απώλεια πληροφοριών.

Ένας αριθμός άλλων αλγορίθμων μείωσης διαστάσεων έχει αναπτυχθεί για την ανάλυση στατιστικών δεδομένων σε εφαρμοσμένες στατιστικές. Οι στόχοι αυτού του άρθρου δεν περιλαμβάνουν περιγραφή ολόκληρης της ποικιλίας τέτοιων αλγορίθμων.

Βιβλιογραφία

1. Orlov A.I. Σημεία ανάπτυξης στατιστικών μεθόδων // Πολυθεματικό δίκτυο ηλεκτρονικό επιστημονικό περιοδικό του Κρατικού Αγροτικού Πανεπιστημίου Kuban. 2014. Αρ. 103. Σ. 136-162.

2. Kraskal J. Σχέση μεταξύ πολυδιάστατης κλίμακας και ανάλυσης συστάδων // Ταξινόμηση και συστάδα. Μ.: Μιρ, 1980. Σ.20-41.

4. Harman G. Modern παραγοντική ανάλυση. Μ.: Στατιστικά, 1972. 489 σελ.

5. Orlov A.I. Σημειώσεις για τη θεωρία της ταξινόμησης. / Κοινωνιολογία: μεθοδολογία, μέθοδοι, μαθηματικά μοντέλα. 1991. Αρ. 2. Σ.28-50.

6. Orlov A.I. Βασικά αποτελέσματα της μαθηματικής θεωρίας της ταξινόμησης // Πολυθεματικό δίκτυο ηλεκτρονικό επιστημονικό περιοδικό του Κρατικού Αγροτικού Πανεπιστημίου Kuban. 2015. Αρ. 110. Σ. 219-239.

7. Orlov A.I. Μαθηματικές μέθοδοι της θεωρίας της ταξινόμησης // Πολυθεματικό δίκτυο ηλεκτρονικό επιστημονικό περιοδικό του Κρατικού Αγροτικού Πανεπιστημίου Kuban. 2014. Αρ. 95. Σ. 23 - 45.

8. Terekhina A.Yu. Ανάλυση δεδομένων με μεθόδους πολυδιάστατης κλιμάκωσης. -Μ.: Nauka, 1986. 168 σελ.

9. Perekrest V. T. Μη γραμμική τυπολογική ανάλυση κοινωνικοοικονομικών πληροφοριών: Μαθηματικές και υπολογιστικές μέθοδοι. - Λ.: Nauka, 1983. 176 σελ.

10. Tyurin Yu.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Ανάλυση μη αριθμητικών πληροφοριών. Μ.: Επιστημονικό Συμβούλιο της Ακαδημίας Επιστημών της ΕΣΣΔ για το σύνθετο πρόβλημα "Κυβερνητική", 1981. - 80 σελ.

11. Orlov A.I. Γενική άποψη για τις στατιστικές αντικειμένων μη αριθμητικής φύσης // Ανάλυση μη αριθμητικών πληροφοριών στην κοινωνιολογική έρευνα. - Μ.: Nauka, 1985. S.58-92.

12. Orlov A.I. Περιοριστική κατανομή μιας εκτίμησης του αριθμού των βασικών συναρτήσεων σε παλινδρόμηση // Applied Multivariate Statistical Analysis. Επιστημονικές σημειώσεις για τις στατιστικές, τ. 33. - Μ.: Nauka, 1978. S.380-381.

13. Orlov A.I. Εκτίμηση διαστάσεων μοντέλου σε παλινδρόμηση // Αλγοριθμική και λογισμικόεφαρμοσμένη στατιστική ανάλυση. Επιστημονικές σημειώσεις για τις στατιστικές, τ. 36. - Μ.: Nauka, 1980. S. 92-99.

14. Orlov A.I. Ασυμπτωτικές εκτιμήσεις ορισμένων διαστάσεων μοντέλου σε παλινδρόμηση // Εφαρμοσμένες στατιστικές. Επιστημονικές σημειώσεις για τις στατιστικές, τ.45. - Μ.: Nauka, 1983. S.260-265.

15. Orlov A.I. Σχετικά με την εκτίμηση του πολυωνύμου παλινδρόμησης // Εργαστήριο Zavodskaya. διαγνωστικά υλικού. 1994. V.60. Νο 5. Σελ.43-47.

16. Orlov A.I. Μερικά πιθανολογικά ερωτήματα στη θεωρία της ταξινόμησης // Εφαρμοσμένη Στατιστική. Επιστημονικές σημειώσεις για τις στατιστικές, τ.45. - Μ.: Nauka, 1983. S. 166-179.

17. Orlov A.I. Σχετικά με την ανάπτυξη της στατιστικής των μη αριθμητικών αντικειμένων // Σχεδιασμός πειραμάτων και ανάλυση δεδομένων: Νέες τάσεις και αποτελέσματα. - Μ.: ΑΝΤΑΛ, 1993. Р.52-90.

18. Orlov A.I. Μέθοδοι μείωσης διαστάσεων // Παράρτημα 1 στο βιβλίο: Tolstova Yu.N. Βασικές αρχές πολυδιάστατης κλιμάκωσης: Φροντιστήριογια τα πανεπιστήμια. - Μ.: Εκδοτικός οίκος KDU, 2006. - 160 σελ.

19. Orlov A.I. Ασυμπτωτικές λύσεις σε ακραία στατιστικά προβλήματα // Ανάλυση μη αριθμητικών δεδομένων στην έρευνα συστημάτων. Συλλογή έργων. Θέμα. 10. - M.: All-Union Scientific Research Institute for System Research, 1982. S. 412.

20. Orlov A.I. Οργανωτική και οικονομική μοντελοποίηση: σχολικό βιβλίο: στις 3 η ώρα Μέρος 1: Μη αριθμητικές στατιστικές. - Μ.: Εκδοτικός οίκος MSTU im. Ν.Ε. Μπάουμαν. - 2009. - 541 σελ.

21. Lutsenko E.V. Αυτοματοποιημένη συστημική-γνωστική ανάλυση στη διαχείριση ενεργών αντικειμένων (συστημική θεωρία πληροφοριών και εφαρμογή της στη μελέτη οικονομικών, κοινωνικο-ψυχολογικών, τεχνολογικών και οργανωτικά-τεχνικών συστημάτων): Μονογραφία (επιστημονική έκδοση). -Κρασνοντάρ: KubGAU. 2002. - 605 σελ. http://elibrary.ru/item.asp?id=18632909

1. Orlov A.I. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Αρ. 103. Σ. 136-162.

2. Kraskal J. Vzaimosvjaz" mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M.: Mir, 1980. S.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University series paper: Qualitative applications in the social Sciences. 1978. Νο 11.

4. Harman G. Sovremennyj faktornyj analiz. Μ.: Στατιστικά, 1972. 489 s.

5. Orlov A.I. Σημειώσεις po theorii klassifikacii. / Sociologija: metodologija, metody, matematicheskie modeli. 1991. Αρ. 2. Σ.28-50.

6. Orlov A.I. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. Orlov A.I. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. Αρ. 95. Σ. 23 - 45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - Μ.: Nauka, 1986. 168 s.

9. Perekrest V.T. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel"nye metody. - Λ.: Nauka, 1983. 176 s.

10. Tjurin J.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Analiz nechislovoj informacii. M.: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika", 1981. - 80 s.

11. Orlov A.I. Obshhij vzgljad na statistiku ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - Μ.: Nauka, 1985. S.58-92.

12. Orlov A.I. Predel "noe raspredelenie odnoj ocenki chisla basisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike, t.33. - M.: Nauka, 1978. S.380-38.

13. Orlov A.I. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Uchenye zapiski po statistike, τ.36. - Μ.: Nauka, 1980. S.92-99.

14. Orlov A.I. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike, τ.45. - Μ.: Nauka, 1983. S.260-265.

15. Orlov A.I. Ob ocenivanii regressionnogo polinoma // Zavodskaja laboratorija. Διαγνωστικό υλικόov. 1994. Τ.60. Νο. 5. Σ.43-47.

16. Orlov A.I. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike, τ.45. - Μ.: Nauka, 1983. S.166-179.

17. Orlov A.I. Σχετικά με την ανάπτυξη της στατιστικής των μη αριθμητικών αντικειμένων // Σχεδιασμός πειραμάτων και ανάλυση δεδομένων: Νέες τάσεις και αποτελέσματα. - Μ.: ΑΝΤΑΛ, 1993. R.52-90.

18. Orlov A.I. Metody snizhenija razmernosti // Prilozhenie 1 k book: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M.: Izdatel "stvo KDU, 2006. - 160 s.

19. Orlov A.I. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M.: Vsesojuznyj nauchno-issledovatel" skij institut sistemnyh issledovanijah.1982,2.

20. Orlov A.I. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 κεφ. Chast" 1: Nechislovaja statistika. - M.: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. Avtomatizirovannyj sistemno-kognitivnyj analiz v upravlenii aktivnymi ob#ektami (sistemnaja teorija informacii i ee primenenie v issledovanii jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih): http. .ru/item.asp?id=18632909

Μείωση ιδιότητας (Μείωση δεδομένων)

ΣΕ αναλυτικές τεχνολογίεςΗ μείωση των διαστάσεων των δεδομένων νοείται ως η διαδικασία μετατροπής των δεδομένων στην πιο βολική μορφή για ανάλυση και ερμηνεία. Συνήθως επιτυγχάνεται με τη μείωση του όγκου τους, τη μείωση του αριθμού των χαρακτηριστικών που χρησιμοποιούνται και την ποικιλία των τιμών τους.

Συχνά τα δεδομένα που αναλύονται είναι ελλιπή όταν αντικατοπτρίζουν ελάχιστα τις εξαρτήσεις και τα πρότυπα των υπό μελέτη επιχειρηματικών διαδικασιών. Οι λόγοι για αυτό μπορεί να είναι ο ανεπαρκής αριθμός παρατηρήσεων, η απουσία σημείων που αντικατοπτρίζουν τις βασικές ιδιότητες των αντικειμένων. Σε αυτή την περίπτωση, εφαρμόζεται εμπλουτισμός δεδομένων.

Η μείωση διαστάσεων εφαρμόζεται στην αντίθετη περίπτωση, όταν τα δεδομένα είναι περιττά. Ο πλεονασμός εμφανίζεται όταν το πρόβλημα ανάλυσης μπορεί να λυθεί με το ίδιο επίπεδο αποτελεσματικότητας και ακρίβειας, αλλά χρησιμοποιώντας μια μικρότερη διάσταση δεδομένων. Αυτό καθιστά δυνατή τη μείωση του χρόνου και του υπολογιστικού κόστους για την επίλυση του προβλήματος, για να γίνουν τα δεδομένα και τα αποτελέσματα της ανάλυσής τους πιο ερμηνεύσιμα και κατανοητά για τον χρήστη.

Η μείωση του αριθμού των παρατηρήσεων δεδομένων εφαρμόζεται εάν μπορεί να ληφθεί μια λύση συγκρίσιμης ποιότητας σε δείγμα μικρότερου μεγέθους, μειώνοντας έτσι το υπολογιστικό και το κόστος χρόνου. Αυτό ισχύει ιδιαίτερα για αλγόριθμους που δεν είναι επεκτάσιμοι, όταν ακόμη και μια μικρή μείωση του αριθμού των καταχωρήσεων οδηγεί σε σημαντικό κέρδος στον υπολογιστικό χρόνο.

Είναι λογικό να μειωθεί ο αριθμός των χαρακτηριστικών όταν οι πληροφορίες που είναι απαραίτητες για μια ποιοτική λύση του προβλήματος περιέχονται σε ένα συγκεκριμένο υποσύνολο χαρακτηριστικών και δεν είναι απαραίτητο να χρησιμοποιηθούν όλες. Αυτό ισχύει ιδιαίτερα για συσχετισμένα χαρακτηριστικά. Για παράδειγμα, τα χαρακτηριστικά «Ηλικία» και «Εργασιακή εμπειρία» φέρουν ουσιαστικά τις ίδιες πληροφορίες, επομένως ένα από αυτά μπορεί να αποκλειστεί.

Το πιο αποτελεσματικό μέσο για τη μείωση του αριθμού των χαρακτηριστικών είναι η ανάλυση παραγόντων και η ανάλυση κύριων συνιστωσών.

Η μείωση της ποικιλομορφίας των τιμών των χαρακτηριστικών έχει νόημα, για παράδειγμα, εάν η ακρίβεια της αναπαράστασης δεδομένων είναι υπερβολική και μπορούν να χρησιμοποιηθούν ακέραιες τιμές αντί για πραγματικές τιμές, χωρίς να διακυβεύεται η ποιότητα του μοντέλου. Αλλά ταυτόχρονα, η ποσότητα της μνήμης που καταλαμβάνεται από τα δεδομένα και το υπολογιστικό κόστος θα μειωθεί.

Το υποσύνολο δεδομένων που λαμβάνεται ως αποτέλεσμα της μείωσης των διαστάσεων θα πρέπει να κληρονομεί από το αρχικό σύνολο όσες πληροφορίες είναι απαραίτητες για την επίλυση του προβλήματος με δεδομένη ακρίβεια και το υπολογιστικό και χρονικό κόστος της μείωσης δεδομένων δεν θα πρέπει να υποτιμά τα οφέλη που λαμβάνονται από αυτό.

Ένα αναλυτικό μοντέλο που βασίζεται σε μειωμένο σύνολο δεδομένων θα πρέπει να γίνει πιο εύκολο στην επεξεργασία, την εφαρμογή και την κατανόηση από ένα μοντέλο που βασίζεται στο αρχικό σύνολο.

Η απόφαση για την επιλογή μιας μεθόδου μείωσης διαστάσεων βασίζεται σε εκ των προτέρων γνώση σχετικά με τα χαρακτηριστικά του προβλήματος που επιλύεται και τα αναμενόμενα αποτελέσματα, καθώς και τον περιορισμένο χρόνο και τους υπολογιστικούς πόρους.



Φόρτωση...
Μπλουζα