تقليل الأبعاد. تقييم طرق تقليل أبعاد البيانات المستخدمة في تحويل تدفق الفيديو للتعريف الشخصي جوهر مشكلة تقليل الأبعاد والطرق المختلفة لحلها

  • في الإحصاء والتعلم الآلي ونظرية المعلومات ، يعد تقليل الأبعاد عبارة عن تحويل للبيانات يتكون من تقليل عدد المتغيرات من خلال الحصول على المتغيرات الرئيسية. يمكن تقسيم التحول إلى اختيار الميزة واستخراج الميزة.

المفاهيم ذات الصلة

مراجع في الأدب

- التحميل والمعالجة المسبقة لبيانات الإدخال ، - وضع العلامات اليدوية والأوتوماتيكية على مواد التحفيز (اختيار مجالات الاهتمام) ، - خوارزمية لحساب مصفوفة التمثيل اللاحق ، - بناء جدول بيانات موسع بقيم متغيرات الإدخال المطلوبة لاحقًا اسلوب التحليل تخفيض البعدمساحات الميزات (طريقة المكون الرئيسي) ، - تصور أحمال المكونات لاختيار المكونات المفسرة ، - خوارزمية تعلم شجرة القرار ، - خوارزمية تقدير القدرة التنبؤية للشجرة ، - تصور شجرة القرار.

المفاهيم ذات الصلة (تابع)

تستخدم تقنيات التجميع الطيفي الطيف (القيم الذاتية) لمصفوفة تشابه البيانات لإجراء تقليل الأبعاد قبل التجميع في مسافات ذات أبعاد أقل. يتم تقديم مصفوفة التشابه كمدخلات وتتكون من تقديرات كمية للتشابه النسبي لكل زوج من النقاط في البيانات.

الطرق الطيفية هي فئة من التقنيات المستخدمة في الرياضيات التطبيقية لحل بعض المعادلات التفاضلية عدديًا ، وربما تتضمن تحويل فورييه السريع. الفكرة هي إعادة كتابة حل المعادلات التفاضلية كمجموع لبعض "الوظائف الأساسية" (مثل كيف تكون سلسلة فورييه هي مجموع الجيوب الأنفية) ثم اختيار المعاملات في المجموع لإرضاء المعادلة التفاضلية على أفضل وجه ممكن.

التحليل الرياضي (التحليل الرياضي الكلاسيكي) - مجموعة من أقسام الرياضيات المقابلة للقسم التاريخي تحت اسم "تحليل اللامتناهيات في الصغر" ، تجمع بين حساب التفاضل والتكامل.

التطور التفاضلي هو طريقة تحسين رياضية متعددة الأبعاد تنتمي إلى فئة خوارزميات التحسين العشوائية (أي أنها تعمل باستخدام أرقام عشوائية) وتستخدم بعض أفكار الخوارزميات الجينية ، ولكنها ، على عكسها ، لا تتطلب العمل مع المتغيرات في الكود الثنائي.

طريقة العنصر المنفصل (DEM) هي مجموعة من الأساليب العددية المصممة لحساب حركة عدد كبير من الجسيمات مثل الجزيئات وحبوب الرمل والحصى والحصى والوسائط الحبيبية الأخرى. تم تطبيق هذه الطريقة في الأصل بواسطة Cundall في عام 1971 لحل المشكلات في ميكانيكا الصخور.

نتيجة لدراسة مادة الفصل الخامس ، يجب على الطالب:

أعرف

  • المفاهيم الأساسية ومشكلات تقليل الأبعاد:
  • مناهج حل مشكلة تحويل مساحة الميزة ؛

يكون قادرا على

  • استخدام طريقة المكون الرئيسي للانتقال إلى السمات المتعامدة الموحدة ؛
  • تقييم الانخفاض في محتوى المعلومات للبيانات مع انخفاض في أبعاد مساحة الميزة ؛
  • حل مشكلة بناء مقاييس أمثل متعددة الأبعاد لدراسة الأشياء ؛

ملك

  • طرق تقليل الأبعاد لحل المشكلات التطبيقية للتحليل الإحصائي ؛
  • مهارات تفسير المتغيرات في مساحة الميزة المحولة.

المفاهيم الأساسية ومشكلات تقليل الأبعاد

للوهلة الأولى ، كلما زادت المعلومات حول كائنات الدراسة في شكل مجموعة من الميزات التي تميزها سيتم استخدامها لإنشاء نموذج ، كان ذلك أفضل. ومع ذلك ، يمكن أن تقلل الكثير من المعلومات من فعالية تحليل البيانات. حتى أن هناك مصطلح "لعنة الأبعاد" (لعنة البعد) ، وتوصيف مشاكل العمل بالبيانات عالية الأبعاد. ترتبط الحاجة إلى تقليل البعد بشكل أو بآخر بحل المشكلات الإحصائية المختلفة.

الميزات غير الإعلامية هي مصدر ضوضاء إضافية وتؤثر على دقة تقدير معلمة النموذج. بالإضافة إلى ذلك ، قد تحتوي مجموعات البيانات التي تحتوي على عدد كبير من الميزات على مجموعات من المتغيرات المترابطة. يعني وجود مثل هذه المجموعات من الميزات ازدواجية المعلومات ، والتي يمكن أن تشوه مواصفات النموذج وتؤثر على جودة تقدير معلماته. كلما زاد بُعد البيانات ، زاد مقدار العمليات الحسابية أثناء معالجتها الخوارزمية.

يمكن تمييز اتجاهين في تقليل أبعاد مساحة الميزة وفقًا لمبدأ المتغيرات المستخدمة لهذا الغرض: اختيار الميزات من المجموعة الأولية الحالية وتشكيل ميزات جديدة عن طريق تحويل البيانات الأصلية. من الناحية المثالية ، يجب أن يكون للتمثيل المنخفض للبيانات بُعد يتوافق مع البعد المتأصل في البيانات. (البعد الجوهري).

يعد البحث عن أكثر الميزات الإعلامية التي تميز الظاهرة قيد الدراسة طريقة واضحة لتقليل أبعاد المشكلة ، والتي لا تتطلب تحويل المتغيرات الأصلية. هذا يجعل من الممكن جعل النموذج أكثر إحكاما وتجنب الخسائر المرتبطة بالتأثير المتداخل للسمات غير الإعلامية. يتمثل اختيار الميزات الإعلامية في العثور على أفضل مجموعة فرعية من مجموعة جميع المتغيرات الأولية. يمكن أن تكون معايير مفهوم "الأفضل" إما أعلى جودة للنمذجة لبُعد معين من مساحة الميزة ، أو أصغر بُعد للبيانات ، حيث يمكن بناء نموذج بجودة معينة.

يرتبط الحل المباشر لمشكلة إنشاء أفضل نموذج بتعداد جميع التوليفات الممكنة من الميزات ، والتي تبدو عادةً مرهقة للغاية. لذلك ، كقاعدة عامة ، لجأ إلى الاختيار المباشر أو العكسي للسمات. في إجراءات الاختيار المباشر ، تتم إضافة المتغيرات بالتسلسل من المجموعة الأولية حتى يتم تحقيق الجودة المطلوبة للنموذج. في خوارزميات التخفيض المتتالي لمساحة الميزة الأصلية (الاختيار العكسي) ، تتم إزالة المتغيرات الأقل إفادة خطوة بخطوة حتى يتم تقليل محتوى المعلومات في النموذج إلى مستوى مقبول.

يجب أن يؤخذ في الاعتبار أن محتوى المعلومات للعلامات نسبي. يجب أن يوفر الاختيار محتوى معلومات عاليًا لمجموعة من الميزات ، وليس محتوى المعلومات الإجمالي للمتغيرات المكونة له. وبالتالي ، فإن وجود ارتباط بين الميزات يقلل من محتوى المعلومات الإجمالي بسبب تكرار المعلومات المشتركة بينهم. لذلك ، فإن إضافة ميزة جديدة إلى تلك المحددة بالفعل توفر زيادة في محتوى المعلومات إلى الحد الذي يحتوي على معلومات مفيدة غير موجودة في المتغيرات المحددة مسبقًا. أبسط موقف هو اختيار الميزات المتعامدة المتبادلة ، حيث يتم تنفيذ خوارزمية التحديد بكل بساطة: يتم ترتيب المتغيرات حسب محتوى المعلومات ، ويتم استخدام مثل هذا التكوين للميزات الأولى في هذا التصنيف الذي يوفر محتوى المعلومات المحدد.

يرتبط تقييد طرق اختيار الميزة لتقليل أبعاد الفضاء بافتراض التواجد المباشر للميزات الضرورية في البيانات الأولية ، والتي عادةً ما تكون غير صحيحة. تتمثل الطريقة البديلة لتقليل الأبعاد في تحويل الميزات إلى مجموعة مصغرة من المتغيرات الجديدة. على عكس اختيار الميزات الأولية ، فإن تشكيل مساحة ميزة جديدة يتضمن إنشاء متغيرات جديدة ، والتي عادة ما تكون وظائف للسمات الأصلية. غالبًا ما يشار إلى هذه المتغيرات ، التي لا يمكن ملاحظتها بشكل مباشر ، على أنها كامنة ، أو كامن.أثناء عملية الإنشاء ، يمكن منح هذه المتغيرات بخصائص مفيدة متنوعة ، مثل التعامد. من الناحية العملية ، عادةً ما تكون الميزات الأولية مترابطة ، لذا فإن تحويل مساحتها إلى مساحة متعامدة يولد إحداثيات ميزة جديدة ليس لها تأثير تكرار المعلومات حول الكائنات قيد الدراسة.

يتيح عرض الكائنات في مساحة ميزة متعامدة جديدة تصور فائدة كل ميزة من حيث الاختلافات بين هذه الكائنات. إذا تم ترتيب إحداثيات الأساس الجديد وفقًا للتباين الذي يميز تشتت القيم الخاصة بها للملاحظات قيد الدراسة ، يصبح من الواضح ، من وجهة نظر عملية ، أن بعض الميزات ذات التباينات الصغيرة غير مجدية ، حيث لا يمكن تمييز الكائنات بهذه الميزات عمليًا مقارنةً باختلافها في المتغيرات الأكثر إفادة. في مثل هذه الحالة ، يمكننا التحدث عن ما يسمى انحطاط مساحة الميزة الأصلية من كالمتغيرات ، والبعد الحقيقي لهذه المساحة رقد يكون أقل من الأصل (م< ك).

يترافق تقليل مساحة الميزة مع انخفاض معين في محتوى المعلومات الخاص بالبيانات ، ولكن يمكن تحديد مستوى التخفيض المقبول مسبقًا. يعرض استخراج الميزة مجموعة من المتغيرات الأولية في مساحة ذات بُعد أقل. يمكن أن يكون ضغط مساحة الميزة إلى 2-3D مفيدًا لتصور البيانات. وبالتالي ، فإن عملية تكوين مساحة ميزة جديدة تؤدي عادةً إلى مجموعة أصغر من المتغيرات المفيدة حقًا. بناءً عليها ، يمكن بناء نموذج أفضل بناءً على عدد أقل من الميزات الأكثر إفادة.

يتم استخدام تكوين متغيرات جديدة بناءً على المتغيرات الأصلية للتحليل الدلالي الكامن ، وضغط البيانات ، والتصنيف والتعرف على الأنماط ، وزيادة سرعة وكفاءة عمليات التعلم. عادة ما تستخدم البيانات المضغوطة لمزيد من التحليل والنمذجة.

أحد التطبيقات المهمة لتحويل مساحة الميزة وتقليل الأبعاد هو بناء فئات كامنة تركيبية بناءً على قيم الميزات المقاسة. يمكن لهذه العلامات الكامنة أن تميز السمات العامة المعينة للظاهرة قيد الدراسة ، ودمج الخصائص المعينة للأشياء المرصودة ، مما يجعل من الممكن بناء مؤشرات متكاملة لمستويات مختلفة من تعميم المعلومات.

يعتبر دور طرق تقليل مساحة الميزة في دراسة مشكلة تكرار المعلومات في السمات الأولية ، مما يؤدي إلى "تضخم" تباين تقديرات معاملات نماذج الانحدار ، أمرًا ضروريًا. يعد الانتقال إلى متغيرات جديدة ، متعامدة بشكل مثالي ومفسرة بشكل هادف ، أداة نمذجة فعالة في ظروف الخطية المتعددة للبيانات الأولية.

يعد تحويل مساحة الميزة الأصلية إلى متعامد مناسبًا لحل مشكلات التصنيف ، حيث يسمح للمرء بتطبيق مقاييس معينة من القرب أو الاختلافات في الكائنات ، مثل المسافة الإقليدية أو مربع المسافة الإقليدية. في تحليل الانحدار ، يسمح بناء معادلة الانحدار على المكونات الرئيسية بحل مشكلة العلاقة الخطية المتعددة.

في التحليل الإحصائي متعدد المتغيرات ، يتم وصف كل كائن بواسطة متجه يكون بُعده تعسفيًا (ولكن نفس الشيء بالنسبة لجميع الكائنات). ومع ذلك ، يمكن لأي شخص أن يدرك بشكل مباشر البيانات أو النقاط الرقمية فقط على المستوى. من الصعب بالفعل تحليل مجموعات من النقاط في الفضاء ثلاثي الأبعاد. الإدراك المباشر للبيانات عالية الأبعاد أمر مستحيل. لذلك ، من الطبيعي تمامًا أن ترغب في الانتقال من عينة متعددة المتغيرات إلى بيانات منخفضة الأبعاد بحيث "يمكنك النظر إليها".

بالإضافة إلى الرغبة في الرؤية ، هناك دوافع أخرى لتقليل البعد. تلك العوامل التي لا يعتمد عليها المتغير الذي يهم الباحث فقط تعيق التحليل الإحصائي. أولاً ، جمع المعلومات عنها يستهلك الموارد. ثانيًا ، كما يمكن إثباته ، فإن تضمينها في التحليل يؤدي إلى تفاقم خصائص الإجراءات الإحصائية (على وجه الخصوص ، يزيد من تباين تقديرات المعلمات وخصائص التوزيعات). لذلك من المستحسن التخلص من هذه العوامل.

دعونا نناقش من وجهة نظر تقليل الأبعاد مثال استخدام تحليل الانحدار للتنبؤ بالمبيعات ، والذي تمت مناقشته في القسم الفرعي 3.2.3. أولاً ، في هذا المثال ، كان من الممكن تقليل عدد المتغيرات المستقلة من 17 إلى 12. ثانيًا ، كان من الممكن إنشاء عامل جديد - دالة خطية للعوامل الـ 12 المذكورة ، والتي تتوقع حجم المبيعات بشكل أفضل من جميع المتغيرات الخطية الأخرى مجموعات من العوامل. لذلك ، يمكننا القول أنه نتيجة لذلك ، انخفض بُعد المشكلة من 18 إلى 2. أي ، كان هناك عامل مستقل واحد (التركيبة الخطية الواردة في القسم الفرعي 3.2.3) وعامل واحد تابع - حجم المبيعات.

عند تحليل البيانات متعددة المتغيرات ، لا يتم اعتبارها عادةً مشكلة واحدة ، ولكن العديد من المشكلات ، على وجه الخصوص ، اختيار المتغيرات المستقلة والتابعة بشكل مختلف. لذلك ، ضع في اعتبارك مشكلة تقليل الأبعاد في الصيغة التالية. إعطاء عينة متعددة المتغيرات. مطلوب الانتقال منه إلى مجموعة من النواقل ذات البعد الأصغر ، مع الحفاظ على هيكل البيانات الأولية قدر الإمكان ، دون فقدان المعلومات الواردة في البيانات إن أمكن. يتم تحديد المهمة في إطار كل طريقة محددة لتقليل الأبعاد.

طريقة المكون الرئيسيهي إحدى أكثر طرق تقليل الأبعاد شيوعًا. تتمثل فكرتها الرئيسية في التحديد التسلسلي للاتجاهات التي يكون فيها للبيانات أكبر انتشار. دع العينة تتكون من نواقل موزعة بالتساوي مع المتجه X = (x(1), x(2), … , x(ن)). ضع في اعتبارك التركيبات الخطية

ص(λ (1) ، λ (2) ، ... ، λ ( ن)) = (1) x(1) + (2) x(2) +… + λ ( ن)x(ن),

λ 2 (1) + 2 (2) + ... + 2 ( ن) = 1.

هنا المتجه λ = (λ (1) ، λ (2) ، ... ، λ ( ن)) تقع على مجال الوحدة في نمساحة الأبعاد.

في طريقة المكون الرئيسي ، أولاً وقبل كل شيء ، تم العثور على اتجاه الحد الأقصى للتشتت ، أي مثل λ حيث يصل تباين المتغير العشوائي إلى الحد الأقصى ص(λ) = ص(λ (1) ، λ (2) ، ... ، λ ( ن)). ثم يحدد المتجه λ المكون الرئيسي الأول والكمية ص(λ) هو إسقاط لمتجه عشوائي Xعلى محور المكون الرئيسي الأول.

ثم ، من حيث الجبر الخطي ، يعتبر المرء مستويًا مفرطًا في ن- مساحة الأبعاد ، عموديًا على المكون الرئيسي الأول ، وإسقاط جميع عناصر العينة على هذا المستوى الفائق. أبعاد الطائرة الفائقة أقل بمقدار 1 من أبعاد المساحة الأصلية.

في الطائرة الفائقة قيد النظر ، يتم تكرار الإجراء. يوجد اتجاه أكبر انتشار فيه ، أي. المكون الرئيسي الثاني. ثم خصص مستويًا فائقًا عموديًا على أول مكونين رئيسيين. أبعاده أقل بمقدار 2 من أبعاد المساحة الأصلية. التالي هو التكرار التالي.

من وجهة نظر الجبر الخطي ، نحن نتحدث عن بناء أساس جديد في نفضاء ذو ​​أبعاد ، ومن مكوناته الأساسية.

التباين المقابل لكل مكون رئيسي جديد أصغر من التباين السابق. عادة ما يتوقفون عندما يكون أقل من عتبة معينة. إذا تم التحديد كالمكونات الرئيسية ، وهذا يعني أن ن-الفضاء البُعدي تمكن من الذهاب إليه ك- الأبعاد ، أي تقليل البعد من ن-قبل ك, عمليا دون تشويه هيكل البيانات المصدر .

لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادة ، تكون بنية البيانات مرئية بوضوح ، ويتم تمييز مجموعات الكائنات المدمجة والمتجهات المخصصة بشكل منفصل.

طريقة المكون الرئيسي هي إحدى الطرق تحليل العوامل. تتحد خوارزميات تحليل العوامل المختلفة بحقيقة أنه يوجد انتقال في كل منها إلى أساس جديد في الأصل نمساحة الأبعاد. يعتبر مفهوم "عامل الحمل" مهمًا ، حيث يتم استخدامه لوصف دور العامل الأولي (المتغير) في تكوين ناقل معين من أساس جديد.

فكرة جديدة مقارنة بطريقة المكون الرئيسي هي أنه ، بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. تجمع مجموعة واحدة بين العوامل التي لها تأثير مماثل على عناصر الأساس الجديد. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد يكون مركزيًا للمجموعة المعنية. يحدث تقليل البعد في الانتقال إلى نظام من العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل.

يمكن تنفيذ الإجراء الموصوف ليس فقط بمساعدة تحليل العوامل. نحن نتحدث عن التحليل العنقودي للخصائص (العوامل ، المتغيرات). يمكن استخدام خوارزميات تحليل الكتلة المختلفة لتقسيم الميزات إلى مجموعات. يكفي إدخال المسافة (قياس القرب ، مؤشر الفرق) بين الميزات. اسمحوا ان Xو في- علامتان. فرق د(X, ص) بينهما يمكن قياسه باستخدام معاملات ارتباط العينة:

د 1 (X ، ص) = 1 – rn(X ، ص), د 2 (X ، ص) = 1 - ρ ن(X ، ص),

أين rn(X, ص) هي عينة معامل ارتباط بيرسون الخطي ، ρ ن(X, ص) هو معامل ارتباط رتبة عينة سبيرمان.

التحجيم متعدد الأبعاد. حول استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) د(X, ص) بين الميزات Xو فيتم تأسيس فئة واسعة من طرق القياس متعددة الأبعاد. الفكرة الرئيسية لهذه الفئة من الطرق هي تمثيل كل كائن كنقطة في الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) التي معًا وصف الغرض بشكل مناسب. في هذه الحالة ، يتم استبدال العلاقات بين الأشياء بالعلاقات بين النقاط - ممثليهم. إذن ، بيانات عن تشابه الكائنات - بالمسافات بين النقاط ، وبيانات التفوق - عن طريق الترتيب المتبادل للنقاط.

يتم استخدام عدد من نماذج القياس المتعددة الأبعاد المختلفة في الممارسة العملية. كل منهم يواجه مشكلة تقدير البعد الحقيقي لمساحة العامل. لنفكر في هذه المشكلة باستخدام مثال معالجة البيانات حول تشابه الكائنات باستخدام القياس المتري.

يجب ألا يكون هناك نأشياء ا(1), ا(2), …, ا(ن) ، لكل زوج من الأشياء ا(أنا), ا(ي) يتم إعطاء مقياس التشابه بينهما س(أنا, ي). نعتقد ذلك دائمًا س(أنا, ي) = س(ي, أنا). أصل الأعداد س(أنا, ي) غير ذي صلة لوصف كيفية عمل الخوارزمية. يمكن الحصول عليها إما عن طريق القياس المباشر ، أو باستخدام الخبراء ، أو عن طريق الحساب من مجموعة من الخصائص الوصفية ، أو بطريقة أخرى.

في الفضاء الإقليدي ، يعتبر نيجب تمثيل الكائنات بواسطة تكوين نالنقاط والمسافة الإقليدية د(أنا, ي) بين النقاط المقابلة. يتم تحديد درجة التطابق بين مجموعة من العناصر ومجموعة من النقاط التي تمثلها بمقارنة مصفوفات التشابه || س(أنا, ي) || والمسافات || د(أنا, ي) ||. وظيفة التشابه المتري لها الشكل

يجب اختيار التكوين الهندسي بحيث يصل S الوظيفية إلى قيمته الدنيا.

تعليق.في القياس غير المتري ، بدلاً من القرب من مقاييس القرب والمسافات نفسها ، يؤخذ في الاعتبار قرب الطلبات على مجموعة مقاييس القرب ومجموعة المسافات المقابلة. بدلا من الوظيفة ستم استخدام نظائرها لمعاملات ارتباط رتبة سبيرمان وكيندال. بمعنى آخر ، يفترض القياس غير المتري أن مقاييس القرب تقاس بمقياس ترتيبي.

دع الفضاء الإقليدي له البعد م. ضع في اعتبارك الحد الأدنى لمتوسط ​​الخطأ التربيعي

,

حيث يتم أخذ الحد الأدنى على جميع التكوينات الممكنة ننقطة في مالفضاء الإقليدي الأبعاد. يمكن إثبات أن الحد الأدنى المدروس يتم تحقيقه في بعض التكوين. من الواضح أنه مع النمو مالكمية α m تتناقص بشكل رتيب (بتعبير أدق ، لا تزيد). يمكن إثبات ذلك متى م > ن- 1 يساوي 0 (إذا س(أنا, ي) مقياس). لزيادة احتمالات التفسير الهادف ، من المستحسن العمل في مساحة أصغر بُعد ممكن. ومع ذلك ، في هذه الحالة ، يجب اختيار البعد بحيث تمثل النقاط كائنات بدون تشوهات كبيرة. السؤال الذي يطرح نفسه: كيف تختار بعقلانية البعد ، أي عدد طبيعي م?

في إطار تحليل البيانات الحتمية ، يبدو أنه لا توجد إجابة معقولة على هذا السؤال. لذلك ، من الضروري دراسة سلوك α m في بعض النماذج الاحتمالية. إذا كانت تدابير القرب س(أنا, ي) متغيرات عشوائية يعتمد توزيعها على "البعد الحقيقي" م 0 (وربما على بعض المعلمات الأخرى) ، ثم في النمط الرياضي والإحصائي الكلاسيكي يمكننا تحديد مشكلة التقدير م 0 ، وابحث عن درجات متسقة ، وما إلى ذلك.

لنبدأ في بناء نماذج احتمالية. نفترض أن الأشياء هي نقاط في الفضاء الإقليدي من البعد ك، أين ككبير بما فيه الكفاية. أن "البعد الحقيقي" هو م 0 ، يعني أن كل هذه النقاط تقع على مستوى فائق البعد م 0. لنفترض للتأكيد أن مجموعة النقاط قيد النظر هي عينة من توزيع عادي دائري مع تباين σ 2 (0). هذا يعني أن الكائنات ا(1), ا(2), …, ا(ن) هي نواقل عشوائية مستقلة بشكل جماعي ، كل منها مبني على شكل ζ (1) ه(1) + (2) ه(2) +… + ζ ( م 0)ه(م 0) أين ه(1), ه(2), … , ه(م 0) أساس متعامد في الفضاء الجزئي للبعد م 0 ، حيث تكمن النقاط المدروسة ، و (1) ، ζ (2) ، ... ، ζ ( م 0) متغيرات عشوائية عادية أحادية البعد ومستقلة بشكل جماعي مع توقع رياضي) والتباين σ 2 (0).

ضع في اعتبارك نموذجين للحصول على مقاييس القرب س(أنا, ي). في أولهم س(أنا, ي) عن المسافة الإقليدية بين النقاط المقابلة نظرًا لحقيقة أن النقاط معروفة بالتشوهات. اسمحوا ان مع(1),مع(2), … , مع(ن) تعتبر نقاط. ثم

س(أنا, ي) = د(ج(أنا) + ε( أنا), ج(ي) + ε( ي)), أنا, ي = 1, 2, … , ن,

أين دهي المسافة الإقليدية بين نقطتين في ك-فضاء الأبعاد ، المتجهات ε (1) ، ε (2) ، ... ، ε ( ن) عينة من التوزيع الطبيعي الدائري في ك- مساحة ذات أبعاد بدون توقع رياضي ومصفوفة تغاير σ 2 (1) أنا، أين أناهي مصفوفة الهوية. بمعنى آخر ، ε ( أنا) = η (1) ه(1) + (2) ه(2) +… + η ( ك)ه(ك)، أين ه(1), ه(2), …, ه(ك) هو أساس متعامد في ك- مساحة الأبعاد ، و (( أنا, ر), أنا= 1 ، 2 ، ... ، ن ، ر= 1 ، 2 ، ... ، ك) هي مجموعة من المتغيرات العشوائية أحادية البعد المستقلة في المجموعة مع توقع وتباين رياضي صفري σ 2 (1).

في النموذج الثاني ، يتم فرض التشوهات مباشرة على المسافات نفسها:

س(اي جاي) = د(ج(أنا), ج(ي)) + ε( اي جاي), اي جاي = 1, 2, … , ن, أناي,

أين (ε ( أنا, ي), أنا, ي = 1, 2, … , ن) هي متغيرات عشوائية عادية ومستقلة بشكل جماعي مع توقع رياضي) والتباين σ 2 (1).

توضح الورقة أنه بالنسبة لكلا النموذجين المصوغين ، فإن الحد الأدنى لمتوسط ​​الخطأ التربيعي α m لـ ن→ ∞ تتقارب في الاحتمال

F(م) = F 1 (م) + 2 (1) ( كم), م = 1, 2, …, ك,

لذا فإن الوظيفة F(م) خطي على الفواصل الزمنية ، وهو يتناقص بشكل أسرع في الفترة الأولى منه في الثانية. ويترتب على ذلك أن الإحصاءات

هو تقدير متسق للبعد الحقيقي م 0 .

لذلك ، تتبع التوصية من النظرية الاحتمالية - كتقدير لأبعاد مساحة العامل ، الاستخدام م*. لاحظ أن مثل هذه التوصية تمت صياغتها على أنها إرشادية من قبل أحد مؤسسي القياس متعدد الأبعاد ، J. Kraskal. انطلق من تجربة الاستخدام العملي للقياس متعدد الأبعاد والتجارب الحسابية. جعلت النظرية الاحتمالية من الممكن إثبات هذه التوصية الكشف عن مجريات الأمور.

سابق

الكلمات الدالة

الرياضيات / الإحصائيات التطبيقية / إحصائيات الرياضيات/ نقاط النمو / طريقة المكون الأساسي / تحليل العامل / التحجيم متعدد الأبعاد / التقدير البعدي للبيانات / تقدير البعد النموذجي/ الرياضيات / الإحصائيات التطبيقية / الإحصائيات الرياضية / نقاط النمو / تحليل المكون الأساسي / تحليل العامل / القياس متعدد الأبعاد / تقدير أبعاد البيانات / تقدير بعد النموذج

حاشية. ملاحظة مقال علمي في الرياضيات ، مؤلف المقال العلمي - ألكسندر أورلوف ، يفجيني فينيامينوفيتش لوتسينكو

إحدى "نقاط النمو" الإحصاء التطبيقيهي طرق لتقليل أبعاد مساحة البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، على سبيل المثال ، علم الاجتماع. دعونا نفكر في أكثر الطرق الواعدة لتقليل الأبعاد. طريقة المكون الرئيسيهي إحدى أكثر طرق تقليل الأبعاد شيوعًا. لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادة ، تكون بنية البيانات مرئية بوضوح ، ويتم تمييز مجموعات الكائنات المدمجة والمتجهات المخصصة بشكل منفصل. طريقة المكون الرئيسيهي إحدى الطرق تحليل العوامل. فكرة جديدة مقارنة ب طريقة المكون الرئيسييتكون من حقيقة أنه ، بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. تجمع مجموعة واحدة بين العوامل التي لها تأثير مماثل على عناصر الأساس الجديد. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد يكون مركزيًا للمجموعة المعنية. يحدث تقليل البعد في الانتقال إلى نظام من العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل. تعتمد فئة واسعة من الأساليب على استخدام المسافات (مقاييس القرب ، مؤشرات الفروق) بين الميزات. التحجيم متعدد الأبعاد. الفكرة الرئيسية لهذه الفئة من الطرق هي تمثيل كل كائن كنقطة في الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) التي معًا وصف الغرض بشكل مناسب. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير الرقمية ، فإننا نبرر صحة تقدير أبعاد مساحة البيانات في التحجيم متعدد الأبعاد، سبق اقتراحه من قبل Kruskal لأسباب إرشادية. عدد من الأعمال على تقدير أبعاد النماذج(في تحليل الانحدار وفي نظرية التصنيف). يتم تقديم معلومات حول خوارزميات تقليل الأبعاد في التحليل الآلي للنظام الإدراكي.

مواضيع ذات صلة أوراق علمية في الرياضيات ، مؤلف العمل العلمي - أورلوف ألكسندر إيفانوفيتش ، لوتسينكو إيفجيني فينيامينوفيتش

  • الأساليب الرياضية في علم الاجتماع لمدة خمسة وأربعين عامًا

  • مجموعة متنوعة من الأشياء ذات الطبيعة غير العددية

  • تقدير المعلمات: يُفضل مقدرات الخطوة الواحدة على تقديرات الاحتمالية القصوى

  • الإحصاء التطبيقي - الحالة والآفاق

    2016 / الكسندر اورلوف
  • حالة وآفاق تطوير الإحصاءات التطبيقية والنظرية

    2016 / الكسندر اورلوف
  • العلاقة بين نظريات الحد وطريقة مونت كارلو

    2015 / الكسندر اورلوف
  • على تطوير إحصاءات الكائنات ذات الطبيعة غير العددية

    2013 / الكسندر اورلوف
  • نقاط نمو الأساليب الإحصائية

    2014 / الكسندر اورلوف
  • حول أدوات التحكم الرياضية الجديدة الواعدة

    2015 / الكسندر اورلوف
  • المسافات في فضاءات البيانات الإحصائية

    2014 / الكسندر اورلوف

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل علم الاجتماع. نحن نبحث في أكثر الطرق الواعدة لتقليل الأبعاد. المكونات الرئيسية هي إحدى الطرق الأكثر استخدامًا لتقليل الأبعاد. للتحليل المرئي للبيانات غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادةً ما يكون هيكل البيانات مرئيًا بوضوح ، ومجموعات متراصة من الكائنات مميزة ومتجهات مخصصة بشكل منفصل. المكونات الرئيسية هي طريقة واحدة لتحليل العوامل. الفكرة الجديدة لتحليل العوامل بالمقارنة مع طريقة المكونات الرئيسية هي أنه ، بناءً على الأحمال ، تنقسم العوامل إلى مجموعات. في مجموعة واحدة من العوامل ، يتم الجمع بين العامل الجديد وتأثير مماثل على عناصر الأساس الجديد. ثم ينصح كل مجموعة بترك ممثل واحد. في بعض الأحيان ، بدلاً من اختيار الممثل عن طريق الحساب ، هناك عامل جديد محوري للمجموعة المعنية. يحدث البعد المخفض أثناء الانتقال إلى عوامل النظام ، والتي تمثل المجموعات. يتم تجاهل العوامل الأخرى. عند استخدام المسافة (مقاييس القرب ، مؤشرات الاختلافات) بين الميزات والفئة الشاملة تعتمد على طرق القياس متعدد الأبعاد. تتمثل الفكرة الأساسية لهذه الفئة من الأساليب في تقديم كل كائن كنقطة من الفضاء الهندسي (عادةً ما يكون البعد 1 أو 2 أو 3) الذي تكون إحداثياته ​​هي قيم العوامل المخفية (الكامنة) التي تتحد بشكل مناسب وصف الشيء. كمثال على تطبيق النمذجة الاحتمالية والإحصائية ونتائج إحصاءات البيانات غير الرقمية ، فإننا نبرر اتساق مقدرات أبعاد البيانات في القياس متعدد الأبعاد ، والتي اقترحها كروسكال سابقًا من اعتبارات الكشف عن مجريات الأمور. لقد درسنا عددًا من التقديرات المتسقة لأبعاد النماذج (في تحليل الانحدار ونظرية التصنيف). نقدم أيضًا بعض المعلومات حول الخوارزميات لتقليل الأبعاد في التحليل المعرفي للنظام الآلي

نص العمل العلمي حول موضوع "طرق تقليل أبعاد فضاء البيانات الإحصائية"

UDC 519.2: 005.521: 633.1: 004.8

01.00.00 العلوم الفيزيائية والرياضية

طرق الاختزال البعدى لمساحة البيانات الإحصائية

أورلوف الكسندر إيفانوفيتش

دكتوراه في الاقتصاد ، دكتوراه في العلوم التقنية ، دكتوراه ، أستاذ

رمز RSCI BRSH: 4342-4994

موسكو الحكومية الفنية

جامعة. م. Bauman، روسيا، 105005،

موسكو ، شارع بومانسكايا الثاني ، 5 ، [بريد إلكتروني محمي]ر

Lutsenko Evgeny Veniaminovich دكتور في الاقتصاد ، دكتوراه ، أستاذ RSCI BRSH- كود: 9523-7101 جامعة كوبان الحكومية الزراعية ، كراسنودار ، روسيا [بريد إلكتروني محمي]كوم

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد فضاء البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، على سبيل المثال ، علم الاجتماع. دعونا نفكر في أكثر الطرق الواعدة لتقليل الأبعاد. يعد تحليل المكون الرئيسي أحد أكثر طرق تقليل الأبعاد شيوعًا. لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادة ، تكون بنية البيانات مرئية بوضوح ، ويتم تمييز مجموعات الكائنات المدمجة والمتجهات المخصصة بشكل منفصل. يعد تحليل المكون الرئيسي إحدى طرق تحليل العوامل. فكرة جديدة مقارنة بطريقة المكون الرئيسي هي أنه ، بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. تجمع مجموعة واحدة بين العوامل التي لها تأثير مماثل على عناصر الأساس الجديد. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد يكون مركزيًا للمجموعة المعنية. يحدث تقليل البعد في الانتقال إلى نظام من العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل. تعتمد فئة واسعة من طرق القياس متعددة الأبعاد على استخدام المسافات (مقاييس القرب ، مؤشرات الفروق) بين الميزات. الفكرة الرئيسية لهذه الفئة من الطرق هي تمثيل كل كائن كنقطة في الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) التي معًا وصف بشكل كاف

UDC 519.2: 005.521: 633.1: 004.8

الفيزياء والعلوم الرياضية

طرق تقليل بُعد مسافة البيانات الإحصائية

الكسندر اورلوف

دكتور علوم، دكتور علوم، حاصل على شهادة الدكتوراه فى الرياضيات

جامعة بومان موسكو التقنية الحكومية ، موسكو ، روسيا

Lutsenko Eugeny Veniaminovich Dr.Sci.Econ.، Cand.Tech.Sci.، Professor RSCI SPIN-code: 9523-7101

جامعة كوبان الحكومية الزراعية ، كراسنودار ، روسيا

[بريد إلكتروني محمي]كوم

إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، مثل علم الاجتماع. نحن نبحث في أكثر الطرق الواعدة لتقليل الأبعاد. المكونات الرئيسية هي إحدى الطرق الأكثر استخدامًا لتقليل الأبعاد. للتحليل المرئي للبيانات غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. عادةً ما يكون هيكل البيانات مرئيًا بوضوح ، ومجموعات متراصة من الكائنات مميزة ومتجهات مخصصة بشكل منفصل. المكونات الرئيسية هي طريقة واحدة لتحليل العوامل. الفكرة الجديدة لتحليل العوامل بالمقارنة مع طريقة المكونات الرئيسية هي أنه ، بناءً على الأحمال ، تنقسم العوامل إلى مجموعات. في مجموعة واحدة من العوامل ، يتم الجمع بين العامل الجديد وتأثير مماثل على عناصر الأساس الجديد. ثم ينصح كل مجموعة بترك ممثل واحد. في بعض الأحيان ، بدلاً من اختيار الممثل عن طريق الحساب ، هناك عامل جديد محوري للمجموعة المعنية. يحدث البعد المخفض أثناء الانتقال إلى عوامل النظام ، والتي تمثل المجموعات. يتم تجاهل العوامل الأخرى. عند استخدام المسافة (مقاييس القرب ، مؤشرات الاختلافات) بين الميزات والفئة الشاملة تعتمد على طرق القياس متعدد الأبعاد. تتمثل الفكرة الأساسية لهذه الفئة من الأساليب في تقديم كل كائن كنقطة من الفضاء الهندسي (عادةً ما يكون البعد 1 أو 2 أو 3) الذي تكون إحداثياته ​​هي قيم العوامل المخفية (الكامنة) التي تتحد بشكل مناسب وصف الشيء. كمثال على تطبيق النمذجة الاحتمالية والإحصائية ونتائج إحصاءات البيانات غير الرقمية ، فإننا نبرر اتساق مقدرات

شيء. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير الرقمية ، فإننا نبرر اتساق تقدير أبعاد مساحة البيانات في القياس متعدد الأبعاد ، الذي اقترحه كروسكال سابقًا من اعتبارات إرشادية. تم النظر في عدد من الأعمال المتعلقة بتقدير أبعاد النماذج (في تحليل الانحدار وفي نظرية التصنيف). يتم تقديم معلومات حول خوارزميات تقليل الأبعاد في التحليل الآلي للنظام الإدراكي.

الكلمات الرئيسية: الرياضيات ، الإحصائيات التطبيقية ، الإحصائيات الرياضية ، نقاط النمو ، طريقة المكون الأساسي ، تحليل العوامل ، القياس متعدد الأبعاد ، التقدير الأبعاد للبيانات ، تقدير الأبعاد النموذجي

أبعاد البيانات في القياس متعدد الأبعاد ، والتي اقترحها كروسكال سابقًا من الاعتبارات الإرشادية. لقد درسنا عددًا من التقديرات المتسقة لأبعاد النماذج (في تحليل الانحدار ونظرية التصنيف). نقدم أيضًا بعض المعلومات حول الخوارزميات لتقليل الأبعاد في التحليل المعرفي للنظام الآلي

الكلمات المفتاحية: الرياضيات التطبيقية الإحصاء الإحصائي الرياضي نقاط النمو نقاط النمو تحليل عامل المكون الأساسي تحليل عامل القياس متعدد الأبعاد تقدير أبعاد البيانات لتقدير بعد النموذج

1 المقدمة

كما لوحظ بالفعل ، فإن إحدى "نقاط النمو" للإحصاءات التطبيقية هي طرق تقليل أبعاد فضاء البيانات الإحصائية. يتم استخدامها بشكل متزايد في تحليل البيانات في بحث تطبيقي محدد ، على سبيل المثال ، علم الاجتماع. دعونا نفكر في أكثر الطرق الواعدة لتقليل الأبعاد. كمثال على تطبيق النمذجة الإحصائية الاحتمالية ونتائج إحصائيات البيانات غير الرقمية ، سنبرر اتساق تقدير بُعد الفضاء ، الذي اقترحه كروسكال سابقًا من اعتبارات إرشادية.

في التحليل الإحصائي متعدد المتغيرات ، يتم وصف كل كائن بواسطة متجه يكون بُعده تعسفيًا (ولكن نفس الشيء بالنسبة لجميع الكائنات). ومع ذلك ، يمكن لأي شخص أن يدرك بشكل مباشر البيانات أو النقاط الرقمية فقط على المستوى. من الصعب بالفعل تحليل مجموعات من النقاط في الفضاء ثلاثي الأبعاد. الإدراك المباشر للبيانات عالية الأبعاد أمر مستحيل. لذلك ، من الطبيعي تمامًا أن نرغب في الانتقال من عينة متعددة المتغيرات إلى بيانات منخفضة الأبعاد ، بحيث "يمكن استخدامها في

بحث". على سبيل المثال ، يمكن للمسوق أن يرى بوضوح عدد الأنواع المختلفة لسلوك المستهلك (أي عدد الأنواع التي يُنصح بتخصيصها لقطاعات السوق) وأي المستهلكين (مع الخصائص) مدرجون فيها.

بالإضافة إلى الرغبة في الرؤية ، هناك دوافع أخرى لتقليل البعد. تلك العوامل التي لا يعتمد عليها المتغير الذي يهم الباحث فقط تعيق التحليل الإحصائي. أولاً ، يتم إنفاق الموارد المالية والوقتية والبشرية على جمع المعلومات عنها. ثانيًا ، يمكن إثبات أن تضمينها في التحليل يؤدي إلى تفاقم خصائص الإجراءات الإحصائية (على وجه الخصوص ، يزيد من تباين تقديرات المعلمات وخصائص التوزيعات). لذلك من المستحسن التخلص من هذه العوامل.

في تحليل البيانات متعددة المتغيرات ، عادة ما يتم النظر في العديد من المشاكل ، على وجه الخصوص ، اختيار المتغيرات المستقلة والتابعة بشكل مختلف. لذلك ، ضع في اعتبارك مشكلة تقليل الأبعاد في الصيغة التالية. إعطاء عينة متعددة المتغيرات. مطلوب الانتقال منه إلى مجموعة من النواقل ذات البعد الأصغر ، مع الحفاظ على بنية البيانات الأصلية قدر الإمكان ، دون فقدان المعلومات الواردة في البيانات إن أمكن. يتم تحديد المهمة في إطار كل طريقة محددة لتقليل الأبعاد.

2. طريقة المكون الرئيسي

إنها واحدة من أكثر طرق تقليل الأبعاد شيوعًا. تتمثل فكرتها الرئيسية في التحديد التسلسلي للاتجاهات التي يكون فيها للبيانات أكبر انتشار. دع العينة تتكون من نواقل موزعة بالتساوي مع المتجه X = (x (1) ، x (2) ، ... ، x (n)). ضع في اعتبارك التركيبات الخطية

7 (^ (1) ، X (2) ،. ، l (n)) = X (1) x (1) + X (2) x (2) + ... + l (n) x (n) و

X2 (1) + X2 (2) + ... + X2 (n) = 1. هنا المتجه X = (X (1) ، X (2) ، ... ، X (n)) يقع على الوحدة كرة في الفضاء ذي البعد n.

في طريقة المكون الرئيسي ، أولاً وقبل كل شيء ، تم العثور على اتجاه الحد الأقصى للتشتت ، أي مثل X حيث يصل تباين المتغير العشوائي 7 (X) = 7 (X (1) ، X (2) ، ... ، X (n)) إلى الحد الأقصى. ثم يحدد المتجه X المكون الرئيسي الأول ، والقيمة 7 (X) هي إسقاط المتجه العشوائي X على محور المكون الرئيسي الأول.

بعد ذلك ، من حيث الجبر الخطي ، يعتبر المرء مستويًا فائقًا في الفضاء ذي البعد n عموديًا على المكون الرئيسي الأول ، ويضع جميع عناصر العينة على هذا المستوى الفائق. أبعاد الطائرة الفائقة أقل بمقدار 1 من أبعاد المساحة الأصلية.

في الطائرة الفائقة قيد النظر ، يتم تكرار الإجراء. يوجد اتجاه أكبر انتشار فيه ، أي. المكون الرئيسي الثاني. ثم خصص مستويًا فائقًا عموديًا على أول مكونين رئيسيين. أبعاده أقل بمقدار 2 من أبعاد المساحة الأصلية. التالي هو التكرار التالي.

من وجهة نظر الجبر الخطي ، نحن نتحدث عن بناء أساس جديد في فضاء ذو ​​أبعاد n ، والتي تعتبر مكوناتها الأساسية.

التباين المقابل لكل مكون رئيسي جديد أصغر من التباين السابق. عادة ما يتوقفون عندما يكون أقل من عتبة معينة. إذا تم تحديد المكونات الرئيسية لـ k ، فهذا يعني أنه كان من الممكن الانتقال من الفضاء ذي البعد n إلى البعد k ، أي تقليل البعد من p إلى k عمليا دون تشويه بنية البيانات المصدر.

لتحليل البيانات المرئية ، غالبًا ما تستخدم إسقاطات المتجهات الأصلية على مستوى المكونين الرئيسيين الأولين. مستخدم

تكون بنية البيانات مرئية بوضوح ، وتمييز مجموعات الكائنات المدمجة والمتجهات المتميزة بشكل منفصل.

3. تحليل عامل

يعد تحليل المكون الرئيسي إحدى طرق تحليل العوامل. تتحد خوارزميات تحليل العوامل المختلفة بحقيقة أنه يوجد في كل منها انتقال إلى أساس جديد في الفضاء ذي البعد n الأصلي. المهم هو مفهوم "تحميل العامل" ، المستخدم لوصف دور العامل الأولي (المتغير) في تكوين ناقل معين من أساس جديد.

فكرة جديدة مقارنة بطريقة المكون الرئيسي هي أنه ، بناءً على الأحمال ، يتم تقسيم العوامل إلى مجموعات. تجمع مجموعة واحدة بين العوامل التي لها تأثير مماثل على عناصر الأساس الجديد. ثم يوصى بترك ممثل واحد من كل مجموعة. في بعض الأحيان ، بدلاً من اختيار ممثل عن طريق الحساب ، يتم تكوين عامل جديد يكون مركزيًا للمجموعة المعنية. يحدث تقليل البعد في الانتقال إلى نظام من العوامل التي تمثل المجموعات. يتم تجاهل باقي العوامل.

يمكن تنفيذ الإجراء الموصوف ليس فقط بمساعدة تحليل العوامل. نحن نتحدث عن التحليل العنقودي للخصائص (العوامل ، المتغيرات). لتقسيم الميزات إلى مجموعات ، يمكن استخدام خوارزميات تحليل الكتلة المتنوعة. يكفي إدخال المسافة (قياس القرب ، مؤشر الفرق) بين الميزات. دع X و Y هما ميزتان. يمكن قياس الفرق d (X ، Y) بينهما باستخدام معاملات ارتباط العينة:

di (X، Y) = 1 - \ rn (X، Y) \، d2 (X، Y) = 1 - \ pn (X، Y) \، حيث rn (X، Y) هي عينة معامل الارتباط الخطي لبيرسون ، pn (X ، Y) - معامل ارتباط رتبة عينة سبيرمان.

4. التحجيم متعدد الأبعاد.

تعتمد فئة واسعة من طرق القياس متعددة الأبعاد على استخدام المسافات (مقاييس القرب ، مؤشرات الاختلاف) d (X ، Y) بين الميزات X و Y. الفكرة الرئيسية لهذه الفئة من الطرق هي تمثيل كل كائن كنقطة في الفضاء الهندسي (عادةً بأبعاد 1 أو 2 أو 3) ، وإحداثياتها هي قيم العوامل المخفية (الكامنة) التي معًا وصف الغرض بشكل مناسب. في هذه الحالة ، يتم استبدال العلاقات بين الأشياء بالعلاقات بين النقاط - ممثليهم. إذن ، بيانات عن تشابه الكائنات - بالمسافات بين النقاط ، وبيانات التفوق - عن طريق الترتيب المتبادل للنقاط.

5. مشكلة تقدير البعد الحقيقي لمساحة العامل

في ممارسة تحليل البيانات الاجتماعية ، يتم استخدام عدد من نماذج القياس متعددة الأبعاد المختلفة. كل منهم يواجه مشكلة تقدير البعد الحقيقي لمساحة العامل. لنفكر في هذه المشكلة باستخدام مثال معالجة البيانات حول تشابه الكائنات باستخدام القياس المتري.

يجب أن يكون هناك n كائنات 0 (1) ، O (2) ، ... ، O (n) ، لكل زوج من الكائنات 0 (/) ، O (j) يتم إعطاء مقياس للتشابه بينها (ij). نفترض دائمًا أن s (i، j) = s (j، i). لا يهم أصل الأرقام s (ij) لوصف تشغيل الخوارزمية. يمكن الحصول عليها إما عن طريق القياس المباشر ، أو باستخدام الخبراء ، أو عن طريق الحساب من مجموعة من الخصائص الوصفية ، أو بطريقة أخرى.

في الفضاء الإقليدي ، يجب تمثيل الكائنات n المدروسة بتكوين n من النقاط والمسافة الإقليدية d (i ، j)

بين النقاط المقابلة. يتم تحديد درجة التطابق بين مجموعة من العناصر ومجموعة من النقاط التي تمثلها من خلال مقارنة مصفوفات التشابه || i (،) || والمسافات وظيفية التشابه المتري CMM لها الشكل

أنا = ر | * (/ ،]) - د (/ ، م

يجب اختيار التكوين الهندسي بحيث يصل S الوظيفية إلى قيمته الدنيا.

تعليق. في القياس غير المتري ، بدلاً من القرب من مقاييس القرب والمسافات نفسها ، يؤخذ في الاعتبار قرب الطلبات على مجموعة مقاييس القرب ومجموعة المسافات المقابلة. بدلاً من S الوظيفية ، يتم استخدام نظائرها لمعاملات ارتباط رتبة سبيرمان وكيندال. بمعنى آخر ، يفترض القياس غير المتري أن مقاييس القرب تقاس بمقياس ترتيبي.

دع الفضاء الإقليدي له أبعاد m. ضع في اعتبارك الحد الأدنى لمتوسط ​​الخطأ التربيعي

حيث يتم أخذ الحد الأدنى على جميع التكوينات الممكنة لنقاط n في الفضاء الإقليدي ذي الأبعاد m. يمكن إثبات أن الحد الأدنى المدروس يتم تحقيقه في بعض التكوين. من الواضح أنه مع زيادة m ، تنخفض قيمة am بشكل رتيب (بتعبير أدق ، لا تزيد). يمكن توضيح أن m> n - 1 يساوي 0 (إذا كان متريًا). لزيادة احتمالات التفسير الهادف ، من المستحسن العمل في مساحة أصغر بُعد ممكن. ومع ذلك ، في هذه الحالة ، يجب اختيار البعد بحيث تمثل النقاط كائنات بدون تشوهات كبيرة. السؤال الذي يطرح نفسه: كيف تختار بعقلانية أبعاد الفضاء ، أي العدد الطبيعي ر؟

6. نماذج وطرق تقدير أبعاد فضاء البيانات

في إطار تحليل البيانات الحتمية ، يبدو أنه لا توجد إجابة معقولة على هذا السؤال. لذلك ، من الضروري دراسة سلوك am في بعض النماذج الاحتمالية. إذا كانت مقاييس القرب s (ij) متغيرات عشوائية يعتمد توزيعها على "البعد الحقيقي" m0 (وربما على بعض المعلمات الأخرى) ، فيمكننا طرح مشكلة تقدير m0 في النمط الإحصائي الرياضي الكلاسيكي ، انظر للحصول على تقديرات متسقة ، وما إلى ذلك.

لنبدأ في بناء نماذج احتمالية. نفترض أن الكائنات هي نقاط في الفضاء الإقليدي ذي البعد k ، حيث k كبير بما يكفي. حقيقة أن "البعد الحقيقي" يساوي m0 يعني أن كل هذه النقاط تقع على مستوى فائق البعد m0. لنفترض من أجل التحديد أن مجموعة النقاط المدروسة هي عينة من توزيع عادي دائري مع تباين o (0). هذا يعني أن الكائنات 0 (1) ، 0 (2) ، ... ، O (n) هي نواقل عشوائية مستقلة عن بعضها البعض ، كل منها مبني على شكل

Z (1) e (1) + Z (2) e (2) + ... + Z (m0) e (m0) ، حيث e (1) ، e (2) ، ... ، e (m0) هو أساس متعامد في الفضاء الفرعي للبعد m0 ، حيث تكمن النقاط قيد الدراسة ، و Z (1) ، Z (2) ، Z (m0) هي متغيرات عشوائية عادية أحادية البعد مستقلة بشكل متبادل مع توقع رياضي 0 والتباين س (0).

ضع في اعتبارك نموذجين للحصول على مقاييس القرب s (ij). في أولهما ، تختلف s (ij) عن المسافة الإقليدية بين النقاط المقابلة نظرًا لحقيقة أن النقاط معروفة بالتشوهات. لنفترض أن ج (1) ، ج (2) ، ... ، ج (ن) هي النقاط قيد النظر. ثم

s (i، j) = d (c (i) + e (i)، c (j) + s (/))، ij = 1، 2، ...، n،

حيث d هي المسافة الإقليدية بين النقاط في الفضاء ذي البعد t ، المتجهات e (1) ، e (2) ، ... ، e (n) هي عينة من التوزيع الطبيعي الدائري في الفضاء ذي البعد t مع صفر توقع رياضي ومصفوفة التغاير o (1) / ، حيث أنا مصفوفة الوحدة. بعبارات أخرى،

ه (0 = n (1) e (1) + P (2) e (2) + ... + u (k) v (k) ، حيث e (1) ، e (2) ، ... ، البريد (ك) هو أساس متعامد في الفضاء ذي الأبعاد ^ و [^ ^ ^) ، أنا = 1 ، 2 ، ... ، ن ،؟ = 1 ، 2 ، ... ، ك) - مجموعة من المتغيرات العشوائية أحادية البعد المستقلة في المجموعة مع توقع رياضي صفر وتباين o (1).

في النموذج الثاني ، يتم فرض التشوهات مباشرة على المسافات نفسها:

Kch) = d (F \ SI)) + £ (YX u = 1، 2.، n، i f j،

حيث و ، وفي الفاصل الزمني الأول يتناقص بشكل أسرع من الثاني. ويترتب على ذلك أن الإحصاءات

م * = أرج مينام + 1 - 2 ص + أن - س)

هو تقدير متسق للأبعاد الحقيقية لـ m0.

لذلك ، تتبع التوصية من النظرية الاحتمالية - لاستخدام م * كتقدير لأبعاد مساحة العامل. لاحظ أن مثل هذه التوصية تمت صياغتها على أنها إرشادية من قبل أحد مؤسسي القياس متعدد الأبعاد ، J. Kraskal. انطلق من تجربة الاستخدام العملي للقياس متعدد الأبعاد والتجارب الحسابية. جعلت النظرية الاحتمالية من الممكن إثبات هذه التوصية الكشف عن مجريات الأمور.

7. تقدير أبعاد النموذج

إذا كانت مجموعات فرعية محتملة من الميزات تشكل عائلة موسعة ، على سبيل المثال ، يتم تقدير درجة متعدد الحدود ، فمن الطبيعي تقديم مصطلح "بُعد النموذج" (هذا المفهوم يشبه من نواحٍ عديدة مفهوم بُعد مساحة البيانات المستخدم في التحجيم متعدد الأبعاد). يمتلك مؤلف هذه المقالة عددًا من الأعمال المتعلقة بتقدير أبعاد النموذج ، والتي تستحق المقارنة مع الأعمال المتعلقة بتقدير أبعاد مساحة البيانات التي تمت مناقشتها أعلاه.

تم إجراء أول عمل من هذا القبيل بواسطة مؤلف هذا المقال أثناء رحلة عمل إلى فرنسا عام 1976. وفيه ، تمت دراسة تقدير واحد لبعد النموذج في الانحدار ، وهو تقدير درجة كثير الحدود على افتراض أن يتم وصف الاعتماد بواسطة كثير الحدود. كان هذا التقدير معروفًا في الأدبيات ، ولكن لاحقًا نُسب خطأً إلى مؤلف هذا المقال ، الذي درس فقط خصائصه ، على وجه الخصوص ، وجد أنه غير متسق ، ووجد توزيعه الهندسي المحدود. تم اقتراح ودراسة تقديرات أخرى متسقة بالفعل لأبعاد نموذج الانحدار في المقالة. اكتملت هذه الدورة بعمل يحتوي على عدد من التوضيحات.

يتضمن الإصدار الأخير حول هذا الموضوع مناقشة لنتائج دراسة معدل التقارب في نظريات الحدود التي حصلت عليها بطريقة مونت كارلو.

تتناول المقالة تقديرات متشابهة منهجياً لأبعاد النموذج في مشكلة تقسيم المخاليط (جزء من نظرية التصنيف).

يتم دراسة تقديرات أبعاد النموذج المذكورة أعلاه في القياس متعدد الأبعاد في الأعمال. في نفس الأعمال ، تم تحديد السلوك المحدود لخصائص طريقة المكون الرئيسي (باستخدام النظرية المقاربة لسلوك الحلول للمشاكل الإحصائية المتطرفة).

8. خوارزميات لتقليل الأبعاد في التحليل المعرفي للنظام الآلي

في التحليل الآلي للنظام المعرفي (تحليل ASC) ، تم اقتراح وتنفيذ طريقة أخرى لتقليل الأبعاد في نظام "Eidos". تم وصفه في العمل في القسمين 4.2 "وصف الخوارزميات للعمليات المعرفية الأساسية لتحليل النظام (BCOSA)" و 4.3 "الخوارزميات التفصيلية لـ BCOSA (تحليل ASC)". نقدم وصفًا موجزًا ​​لخوارزميتين - BKOSA-4.1 و BKOSA-4.2.

BKOSA-4.1.0 تحديث "تجريد العوامل (تقليل أبعاد الفضاء الدلالي للعوامل)"

باستخدام طريقة التقريبات المتتالية (الخوارزمية التكرارية) ، في ظل ظروف حدية معينة ، يتم تقليل أبعاد مساحة السمة دون تقليل كبير في حجمها. معيار إيقاف العملية التكرارية هو تحقيق أحد الشروط الحدية.

BKOSA-4.2. "فصول التلخيص (تقليل أبعاد المساحة الدلالية للفصول الدراسية)"

باستخدام طريقة التقريب المتتالي (الخوارزمية التكرارية) ، في ظل ظروف حدية معينة ، يتم تقليل أبعاد مساحة الفئة دون تقليل كبير في حجمها. معيار إيقاف العملية التكرارية هو تحقيق أحد الشروط الحدية.

فيما يلي جميع الخوارزميات الحقيقية المطبقة في نظام Eidos للإصدار الذي تم تنفيذه في وقت إعداد العمل (2002): http://lc.kubagro.ru/aidos/aidos02/4.3.htm

جوهر الخوارزميات على النحو التالي.

1. يتم حساب مقدار المعلومات في قيم العوامل حول انتقال الكائن إلى الحالات المقابلة للفئات.

2. يتم احتساب قيمة قيمة العامل لتمييز الكائن حسب الفئات. هذه القيمة هي ببساطة تباين المعلوماتية لقيم العوامل (هناك العديد من المقاييس الكمية للتغير: متوسط ​​الانحراف عن المتوسط ​​، الانحراف المعياري ، إلخ). بمعنى آخر ، إذا كانت قيمة العامل في المتوسط ​​تحتوي على القليل من المعلومات حول ما إذا كان الكائن ينتمي إلى فئة أم لا ، فإن هذه القيمة ليست ذات قيمة كبيرة ، وإذا كان هناك الكثير ، فهي ذات قيمة.

3. يتم حساب قيمة المقاييس الوصفية للتمييز بين الكائنات حسب الفئات. في أعمال E.V. يتم إجراء Lutsenko الآن كمتوسط ​​لقيم تدرجات هذا المقياس.

4. ثم يتم تنفيذ باريتو الأمثل لقيم العوامل والمقاييس الوصفية:

يتم ترتيب قيم العوامل (تدرجات المقاييس الوصفية) بترتيب تنازلي للقيمة ويتم إزالة القيم الأقل قيمة التي تذهب إلى يمين الظل إلى منحنى باريتو 45 درجة من النموذج ؛

يتم ترتيب العوامل (المقاييس الوصفية) بترتيب تنازلي للقيمة ويتم إزالة العوامل الأقل قيمة التي تنتقل إلى يمين الظل إلى منحنى باريتو 45 درجة من النموذج.

نتيجة لذلك ، يتم تقليل حجم المساحة المبنية على المقاييس الوصفية بشكل كبير بسبب إزالة المقاييس التي ترتبط ببعضها البعض ، أي في الواقع ، هذا هو orthonormalization الفضاء في مقياس المعلومات.

يمكن تكرار هذه العملية ، أي كن تكراريًا ، بينما في الإصدار الجديد من نظام Eidos ، يتم بدء التكرارات يدويًا.

يتم تنسيق مساحة المعلومات الخاصة بالفصول بشكل مشابه.

يمكن أن تكون المقاييس وتدرجاتها رقمية (في هذه الحالة ، تتم معالجة قيم الفاصل الزمني) ، ويمكن أيضًا أن تكون نصية (ترتيبية أو حتى اسمية).

وبالتالي ، بمساعدة خوارزميات BKOSA (تحليل ASK) ، يتم تقليل أبعاد الفضاء قدر الإمكان مع الحد الأدنى من فقدان المعلومات.

تم تطوير عدد من خوارزميات تقليل الأبعاد الأخرى لتحليل البيانات الإحصائية في الإحصاء التطبيقي. لا تتضمن أهداف هذه المقالة وصفًا لمجموعة متنوعة كاملة من هذه الخوارزميات.

المؤلفات

1. أورلوف أ. نقاط نمو الأساليب الإحصائية // المجلة العلمية الإلكترونية لشبكة Polythematic لجامعة ولاية كوبان الزراعية. 2014. رقم 103. ص 136-162.

2. Kraskal J. العلاقة بين القياس متعدد الأبعاد وتحليل الكتلة // التصنيف والكتلة. م: مير ، 1980. S.20-41.

4. هارمان ج. التحليل العاملي الحديث. م: الإحصاء ، 1972. 489 ص.

5. أورلوف أ. ملاحظات على نظرية التصنيف. / علم الاجتماع: منهجية ، طرق ، نماذج رياضية. 1991. رقم 2. S.28-50.

6. أورلوف أ. النتائج الأساسية للنظرية الرياضية للتصنيف // المجلة العلمية الإلكترونية لشبكة Polythematic لجامعة ولاية كوبان الزراعية. 2015. رقم 110. س 219-239.

7. أورلوف أ. الأساليب الرياضية لنظرية التصنيف // المجلة العلمية الإلكترونية لشبكة Polythematic لجامعة ولاية كوبان الزراعية. 2014. رقم 95. ص 23-45.

8. Terekhina A.Yu. تحليل البيانات بطرق القياس متعددة الأبعاد. -M: Nauka، 1986. 168 ص.

9. Perekrest V. T. التحليل النمطي غير الخطي للمعلومات الاجتماعية والاقتصادية: الأساليب الحسابية والحاسوبية. - لام: نوكا 1983. 176 ص.

10. Tyurin Yu.N.، Litvak B.G.، Orlov A.I.، Satarov GA، Shmerling D.S. تحليل المعلومات غير العددية. م: المجلس العلمي لأكاديمية العلوم في اتحاد الجمهوريات الاشتراكية السوفياتية حول المشكلة المعقدة "علم التحكم الآلي" ، 1981. - 80 ص.

11. أورلوف أ. نظرة عامة على إحصائيات الأشياء ذات الطبيعة غير العددية // تحليل المعلومات غير العددية في البحث الاجتماعي. - م: Nauka ، 1985. S.58-92.

12. أورلوف أ. تحديد توزيع تقدير واحد لعدد وظائف الأساس في الانحدار // التحليل الإحصائي متعدد المتغيرات التطبيقي. ملاحظات علمية حول الإحصاء ، العدد 33. - م: نوكا ، 1978. S.380-381.

13. أورلوف أ. تقدير أبعاد النموذج في الانحدار // البرمجيات والبرمجيات الخوارزمية للتحليل الإحصائي التطبيقي. ملاحظات علمية حول الإحصاء ، العدد 36. - م: نوكا ، 1980. س 92-99.

14. أورلوف أ. مقاربات بعض تقديرات أبعاد النموذج في الانحدار // الإحصاء التطبيقي. ملاحظات علمية عن الإحصاء ، آية 45. - م .: Nauka ، 1983. S.260-265.

15. أورلوف أ. على تقدير انحدار متعدد الحدود // مختبر Zavodskaya. تشخيص المواد. 1994. V.60. رقم 5. ص43-47.

16. أورلوف أ. بعض الأسئلة الاحتمالية في نظرية التصنيف // الإحصاء التطبيقي. ملاحظات علمية عن الإحصاء ، آية 45. - م: نوكا ، 1983. س 166-179.

17. أورلوف أ. في تطوير إحصائيات الكائنات غير العددية // تصميم التجارب وتحليل البيانات: الاتجاهات والنتائج الجديدة. - م: أنتال ، 1993. Р.52-90.

18. أورلوف أ. طرق تقليل الأبعاد // الملحق 1 بالكتاب: Tolstova Yu.N. أساسيات القياس متعدد الأبعاد: كتاب مدرسي للجامعات. - م: دار النشر KDU، 2006. - 160 ص.

19. أورلوف أ. مقاربات حلول المشاكل الإحصائية المتطرفة // تحليل البيانات غير العددية في بحث النظام. مجموعة الأعمال. مشكلة. 10. - م: معهد عموم الاتحاد للبحوث العلمية لأبحاث النظام ، 1982. س 412.

20. أورلوف أ. النمذجة التنظيمية والاقتصادية: الكتاب المدرسي: الساعة الثالثة ، الجزء الأول: الإحصائيات غير العددية. - م: دار النشر MSTU im. م. بومان. - 2009. - 541 ص.

21. Lutsenko E.V. التحليل الآلي للنظام المعرفي في إدارة الأشياء النشطة (نظرية نظام المعلومات وتطبيقها في دراسة النظم الاقتصادية والاجتماعية والنفسية والتكنولوجية والتنظيمية التقنية): دراسة (الطبعة العلمية). -كراسنودار: كوبجاو. 2002. - 605 ص. http://elibrary.ru/item.asp؟id=18632909

1. أورلوف أ. Tochki rosta statisticheskih metodov // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. رقم 103. س 136-162.

2. Kraskal J. Vzaimosvjaz "mezhdu mnogomernym shkalirovaniem i klaster-analizom // Klassifikacija i klaster. M: Mir، 1980. S.20-41.

3. Kruskal JB ، Wish M. مقياس متعدد الأبعاد // سلسلة أوراق جامعة سيج: التطبيقات النوعية في العلوم الاجتماعية. 1978 رقم 11.

4. Harman G. Sovremennyj faktornyj analiz. م: ستاتستيكا ، 1972. 489 ق.

5. أورلوف أ. ملاحظات po theorii klassifikacii. / علم الاجتماع: metodologija ، metody ، matematicheskie modeli. 1991. رقم 2. S.28-50.

6. أورلوف أ. Bazovye rezul "taty matematicheskoj teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2015. No. 110. S. 219-239.

7. أورلوف أ. Matematicheskie metody teorii klassifikacii // Politematicheskij setevoj jelektronnyj nauchnyj zhurnal Kubanskogo gosudarstvennogo agrarnogo universiteta. 2014. No. 95. S. 23-45.

8. Terehina A.Ju. Analiz dannyh metodami mnogomernogo shkalirovanija. - م: نوكا ، 1986. 168 ثانية.

9. بيريكريست ف. Nelinejnyj tipologicheskij analiz social "no-jekonomicheskoj informacii: Matematicheskie i vychislitel" metody nye. - لام: نوكا ، 1983. 176 ق.

10. Tjurin J.N.، Litvak B.G.، Orlov A.I.، Satarov GA، Shmerling D.S. Analiz nechislovoj informacii. م: Nauchnyj Sovet AN SSSR po kompleksnoj probleme "Kibernetika"، 1981. - 80 s.

11. أورلوف أ. Obshhij vzgljad na statistiku ob # ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - م: Nauka ، 1985. S.58-92.

12. أورلوف أ. Predel "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Prikladnoj mnogomernyj statisticheskij analiz. Uchenye zapiski po statistike، t.33. - M: Nauka، 1978. S.380-381.

13. أورلوف أ. Ocenka razmernosti modeli v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Uchenye zapiski po statistike، t.36. - م: Nauka ، 1980. S.92-99.

14. أورلوف أ. Asimptotika nekotoryh ocenok razmernosti modeli v regressii // Prikladnaja statistika. Uchenye zapiski po statistike، t.45. - م .: Nauka ، 1983. S.260-265.

15. أورلوف أ. Ob ocenivanii regressionnogo polinoma // Zavodskaja labatorija. مواد التشخيص 1994. T.60. رقم 5. م 43-47.

16. أورلوف أ. Nekotorye verojatnostnye voprosy teorii klassifikacii // Prikladnaja statistika. Uchenye zapiski po statistike، t.45. - م: Nauka ، 1983. S.166-179.

17. أورلوف أ. في تطوير إحصائيات الكائنات غير العددية // تصميم التجارب وتحليل البيانات: الاتجاهات والنتائج الجديدة. - م: أنتال ، 1993. ص 52-90.

18. أورلوف أ. Metody snizhenija razmernosti // Prilozhenie 1 k book: Tolstova Ju.N. Osnovy mnogomernogo shkalirovanija: Uchebnoe posobie dlja vuzov. - M: Izdatel "stvo KDU، 2006. - 160 ثانية.

19. أورلوف أ. Asimptotika reshenij jekstremal "nyh statisticheskih zadach // Analiz nechislovyh dannyh v sistemnyh issledovanijah. Sbornik trudov. Vyp.10. - M: Vsesojuznyj nauchno-issledovatel" skij Institute sistemnyh issledovanij. 1982.

20. أورلوف أ. Organizacionno-jekonomicheskoe modelirovanie: uchebnik: v 3 ch. Chast "1: Nechislovaja statistika. - M: Izd-vo MGTU im. N.Je. Baumana. - 2009. - 541 s.

21. Lucenko E.V. . .ru / item.asp؟ id = 18632909

تقليل الأبعاد (تقليل البيانات)

في التقنيات التحليلية ، يُفهم تقليل أبعاد البيانات على أنه عملية تحويلها إلى شكل أكثر ملاءمة للتحليل والتفسير. يتم تحقيق ذلك عادةً عن طريق تقليل حجمها وتقليل عدد الميزات المستخدمة وتنوع قيمها.

غالبًا ما تكون البيانات التي تم تحليلها غير مكتملة عندما تعكس بشكل سيئ تبعيات وأنماط العمليات التجارية قيد الدراسة. قد تكون أسباب ذلك عدم كفاية عدد الملاحظات ، وغياب العلامات التي تعكس الخصائص الأساسية للأشياء. في هذه الحالة ، يتم تطبيق إثراء البيانات.

يتم تطبيق تقليل الأبعاد في الحالة المعاكسة ، عندما تكون البيانات زائدة عن الحاجة. يحدث التكرار عندما يمكن حل مشكلة التحليل بنفس المستوى من الكفاءة والدقة ، ولكن باستخدام بُعد بيانات أصغر. هذا يجعل من الممكن تقليل الوقت والتكاليف الحسابية لحل المشكلة ، لجعل البيانات ونتائج تحليلها أكثر قابلية للتفسير والفهم للمستخدم.

يتم تطبيق تقليل عدد ملاحظات البيانات إذا كان من الممكن الحصول على حل ذي جودة قابلة للمقارنة على عينة ذات حجم أصغر ، وبالتالي تقليل التكاليف الحسابية والوقت. هذا ينطبق بشكل خاص على الخوارزميات غير القابلة للتطوير ، حتى عندما يؤدي تقليل عدد الإدخالات إلى مكاسب كبيرة في الوقت الحسابي.

من المنطقي تقليل عدد الميزات عندما تكون المعلومات اللازمة لحل نوعي للمشكلة واردة في مجموعة فرعية معينة من الميزات وليس من الضروري استخدامها جميعًا. هذا ينطبق بشكل خاص على السمات المرتبطة. على سبيل المثال ، السمتان "العمر" و "الخبرة في العمل" تحملان نفس المعلومات بشكل أساسي ، لذلك يمكن استبعاد أحدهما.

الطريقة الأكثر فعالية لتقليل عدد الميزات هي تحليل العوامل وتحليل المكونات الرئيسية.

إن تقليل تنوع قيم الميزات أمر منطقي ، على سبيل المثال ، إذا كانت دقة تمثيل البيانات مفرطة ويمكن استخدام القيم الصحيحة بدلاً من القيم الحقيقية دون المساس بجودة النموذج. ولكن في الوقت نفسه ، ستنخفض كمية الذاكرة التي تشغلها البيانات والتكاليف الحسابية.

يجب أن ترث المجموعة الفرعية من البيانات التي تم الحصول عليها نتيجة لتقليل الأبعاد من المجموعة الأصلية أكبر قدر من المعلومات اللازمة لحل المشكلة بدقة معينة ، ويجب ألا تقلل التكاليف الحسابية والوقتية لخفض البيانات من الفوائد المتلقاة منها.

يجب أن يصبح النموذج التحليلي المبني على مجموعة مخفضة من البيانات أسهل في المعالجة والتنفيذ والفهم من النموذج المبني على المجموعة الأصلية.

يعتمد قرار اختيار طريقة تقليل الأبعاد على معرفة مسبقة بخصائص المشكلة التي يتم حلها والنتائج المتوقعة ، بالإضافة إلى الوقت المحدود وموارد الحوسبة.



تحميل...
قمة