Хэмжээг багасгах. Хувийн таних видео урсгалыг хувиргахад ашигладаг өгөгдлийн хэмжээст байдлыг багасгах аргуудын үнэлгээ Хэмжээг багасгах асуудлын мөн чанар, түүнийг шийдвэрлэх янз бүрийн аргууд

  • Статистик, машин сургалт, мэдээллийн онолын хувьд хэмжээст байдлын бууралт нь үндсэн хувьсагчдыг олж авах замаар хувьсагчдын тоог багасгахаас бүрддэг өгөгдлийн хувиргалт юм. Өөрчлөлтийг шинж чанарыг сонгох, шинж чанарыг задлах гэж хувааж болно.

Холбогдох ойлголтууд

Уран зохиол дахь лавлагаа

- оролтын өгөгдлийг ачаалах, урьдчилан боловсруулах, - өдөөгч материалыг гараар болон автоматаар шошголох (сонирхолтой хэсгүүдийг сонгох), - залгамжлагчийн төлөөллийн матрицыг тооцоолох алгоритм, - дараагийн өгөгдөлд шаардлагатай оролтын хувьсагчийн утгууд бүхий өргөтгөсөн өгөгдлийн хүснэгтийг байгуулах. шинжилгээ, – арга хэмжээсийн бууралтонцлог орон зай (үндсэн бүрэлдэхүүн арга), – тайлбарласан бүрэлдэхүүн хэсгүүдийг сонгох бүрэлдэхүүн ачааллын дүрслэл, – шийдвэрийн мод сурах алгоритм, – модыг урьдчилан таамаглах чадварыг үнэлэх алгоритм, – шийдвэрийн модны дүрслэл.

Холбогдох ойлголтууд (үргэлжлэл)

Спектрийн кластерын техникүүд нь доод хэмжээст орон зайд бөөгнөрөхөөс өмнө хэмжээст байдлын бууралтыг гүйцэтгэхийн тулд өгөгдлийн ижил төстэй матрицын спектрийг (өөрийн утга) ашигладаг. Ижил төстэй байдлын матрицыг оролт болгон өгсөн бөгөөд өгөгдлийн хос цэг бүрийн харьцангуй ижил төстэй байдлын тоон тооцооноос бүрдэнэ.

Спектрийн аргууд нь хэрэглээний математикт зарим дифференциал тэгшитгэлийг тоон аргаар шийдвэрлэхэд ашигладаг, магадгүй Хурдан Фурье хувиргалттай холбоотой аргуудын анги юм. Дифференциал тэгшитгэлийн шийдлийг зарим "суурь функцүүдийн" нийлбэр болгон дахин бичиж (Фурье цуваа нь синусоидуудын нийлбэр гэх мэт) дараа нь дифференциал тэгшитгэлийг аль болох сайн хангахын тулд нийлбэр дэх коэффициентүүдийг сонгох явдал юм.

Математик анализ (сонгодог математик анализ) - "хязгааргүй жижиг тоонуудын шинжилгээ" нэрийн дор түүхэн хэсэгт харгалзах математикийн хэсгүүдийн багц, дифференциал ба интеграл тооцооллыг хослуулсан.

Дифференциал хувьсал нь стохастик оновчлолын алгоритмуудын ангилалд хамаарах олон хэмжээст математикийн оновчлолын арга юм (өөрөөр хэлбэл санамсаргүй тоо ашиглан ажилладаг) ба генетикийн алгоритмын зарим санааг ашигладаг боловч тэдгээрээс ялгаатай нь хоёртын код дахь хувьсагчтай ажиллах шаардлагагүй юм.

Discrete Element Method (DEM) нь молекул, элс, хайрга, хайрга болон бусад мөхлөгт орчин зэрэг олон тооны бөөмсийн хөдөлгөөнийг тооцоолоход зориулагдсан тоон аргын гэр бүл юм. Энэ аргыг анх 1971 онд Кандалл чулуулгийн механикийн асуудлыг шийдвэрлэхэд ашигласан.

5-р бүлгийн материалыг судалсны үр дүнд оюутан дараахь зүйлийг хийх ёстой.

мэдэх

  • Хэмжээг багасгах үндсэн ойлголт ба асуудлууд:
  • онцлог орон зайг өөрчлөх асуудлыг шийдвэрлэх арга замууд;

боломжтой байх

  • стандартчилагдсан ортогональ шинж чанарууд руу шилжихийн тулд үндсэн бүрэлдэхүүн хэсгийн аргыг ашиглах;
  • өгөгдлийн мэдээллийн агуулгын бууралтыг шинж чанарын орон зайн хэмжээ багассанаар үнэлэх;
  • объектуудыг судлах оновчтой олон хэмжээст масштабыг бий болгох асуудлыг шийдвэрлэх;

эзэмшдэг

  • Хэрэглээний асуудлыг шийдвэрлэх хэмжээстийг багасгах аргууд Статистикийн дүн шинжилгээ;
  • хувиргасан шинж чанарын орон зай дахь хувьсагчдыг тайлбарлах ур чадвар.

Хэмжээг багасгах үндсэн ойлголт ба асуудлууд

Эхлээд харахад судалгааны объектын талаар илүү их мэдээлэл нь тэдгээрийг тодорхойлсон шинж чанаруудын багц хэлбэрээр загвар үүсгэхэд ашиглагдах болно. Гэсэн хэдий ч хэт их мэдээлэл нь мэдээллийн шинжилгээний үр нөлөөг бууруулдаг. "Хэмжээний хараал" гэсэн нэр томъёо хүртэл байдаг. (хэмжээний хараал), өндөр хэмжээст өгөгдөлтэй ажиллахад тулгарч буй асуудлуудыг тодорхойлсон. Хэмжээг нэг эсвэл өөр хэлбэрээр багасгах хэрэгцээ нь статистикийн янз бүрийн асуудлыг шийдвэрлэхтэй холбоотой юм.

Мэдээллийн бус шинж чанарууд нь нэмэлт дуу чимээний эх үүсвэр бөгөөд загварын параметрийн үнэлгээний нарийвчлалд нөлөөлдөг. Үүнээс гадна өгөгдлийн багцууд нь их тоошинж чанарууд нь хамааралтай хувьсагчдын бүлгийг агуулж болно. Ийм бүлгийн шинж чанарууд байгаа нь мэдээллийн давхардал гэсэн үг бөгөөд энэ нь загварын тодорхойлолтыг гажуудуулж, түүний параметрийн үнэлгээний чанарт нөлөөлж болзошгүй юм. Өгөгдлийн хэмжээ өндөр байх тусам тэдгээрийн алгоритмын боловсруулалтын явцад хийсэн тооцооллын хэмжээ их байх болно.

Үүнд ашигласан хувьсагчдын зарчмын дагуу онцлог орон зайн хэмжээг багасгах хоёр чиглэлийг ялгаж салгаж болно: одоо байгаа анхны багцаас шинж чанаруудыг сонгох, анхны өгөгдлийг хувиргах замаар шинэ шинж чанаруудыг бий болгох. Өгөгдлийн багасгасан дүрслэл нь тухайн өгөгдөлд хамаарах хэмжигдэхүүнтэй тохирч байх ёстой. (дотоод хэмжээс).

Судалж буй үзэгдлийг тодорхойлдог хамгийн мэдээлэл сайтай шинж чанарыг эрэлхийлэх нь анхны хувьсагчдыг өөрчлөх шаардлагагүй асуудлын хэмжээсийг багасгах тодорхой арга юм. Энэ нь загварыг илүү авсаархан болгож, мэдээлэлгүй шинж чанаруудын хөндлөнгийн нөлөөлөлтэй холбоотой алдагдлаас зайлсхийх боломжийг олгодог. Мэдээллийн шинж чанаруудыг сонгох нь бүх анхны хувьсагчийн багцаас хамгийн сайн дэд олонлогийг олоход оршино. "Шилдэг" гэсэн ойлголтын шалгуур нь хамгийн их байж болно өндөр чанартайонцлог орон зайн өгөгдсөн хэмжигдэхүүнийг загварчлах, эсвэл тухайн чанарын загварыг бүтээх боломжтой хамгийн бага өгөгдлийн хэмжээс.

Хамгийн сайн загварыг бий болгох асуудлын шууд шийдэл нь боломжит бүх боломжит хослолуудыг тоолохтой холбоотой бөгөөд энэ нь ихэвчлэн хэт их хөдөлмөр шаарддаг. Тиймээс дүрмээр бол шинж чанарыг шууд эсвэл урвуу сонголтоор сонгох хэрэгтэй. Шууд сонгох горимд хувьсагчдыг эхний багцаас загварт шаардагдах чанарт хүрэх хүртэл дараалан нэмдэг. Анхны шинж чанарын орон зайг дараалан багасгах алгоритмуудад (урвуу сонголт) хамгийн бага мэдээлэлтэй хувьсагчдыг загварын мэдээллийн агуулгыг хүлээн зөвшөөрөгдөх хэмжээнд хүртэл бууруулах хүртэл алхам алхмаар арилгадаг.

Тэмдгийн мэдээллийн агуулга харьцангуй гэдгийг санах нь зүйтэй. Сонголт нь түүнийг бүрдүүлэгч хувьсагчдын нийт мэдээллийн агуулгыг бус харин олон тооны шинж чанаруудын мэдээллийн өндөр агуулгатай байх ёстой. Тиймээс, онцлог шинж чанаруудын хоорондын хамаарал нь нийтлэг мэдээллийн давхардлаас болж тэдгээрийн нийт мэдээллийн агуулгыг бууруулдаг. Тиймээс аль хэдийн сонгогдсон хүмүүст шинэ функц нэмэх нь мэдээллийн агуулгыг агуулж байгаа хэмжээгээр нэмэгдүүлэх боломжийг олгодог хэрэгтэй мэдээлэл, өмнө нь сонгосон хувьсагчид байхгүй байна. Хамгийн энгийн нөхцөл байдал бол харилцан ортогональ шинж чанаруудыг сонгох явдал бөгөөд сонголтын алгоритмыг маш энгийн байдлаар хэрэгжүүлдэг: хувьсагчдыг мэдээллийн шинж чанараар нь эрэмбэлсэн бөгөөд энэ зэрэглэлийн эхний шинж чанаруудын ийм найрлагыг ашигладаг бөгөөд энэ нь өгөгдсөн мэдээллийн чанарыг хангадаг.

Орон зайн хэмжээг багасгахын тулд онцлог шинж чанарыг сонгох аргуудын хязгаарлалт нь эхний өгөгдөлд шаардлагатай шинж чанарууд шууд байгаа гэсэн таамаглалтай холбоотой бөгөөд энэ нь ихэвчлэн буруу болж хувирдаг. Хэмжээст байдлыг багасгах өөр арга бол боломжуудыг шинэ хувьсагчийн багасгасан багц болгон хувиргах явдал юм. Анхны шинж чанаруудыг сонгохоос ялгаатай нь шинэ функцийн орон зайг бүрдүүлэх нь ихэвчлэн анхны шинж чанаруудын функцууд болох шинэ хувьсагчдыг бий болгох явдал юм. Шууд ажиглагдах боломжгүй эдгээр хувьсагчдыг ихэвчлэн далд, эсвэл гэж нэрлэдэг далд.Бүтээлийн явцад эдгээр хувьсагчдад orthogonality гэх мэт янз бүрийн ашигтай шинж чанаруудыг өгч болно. Практикт анхны шинж чанарууд нь ихэвчлэн хоорондоо холбоотой байдаг тул тэдгээрийн орон зайг ортогональ болгон хувиргах нь судалж буй объектуудын талаарх мэдээллийг давхардуулах нөлөө үзүүлэхгүй шинэ функцийн координатуудыг үүсгэдэг.

Объектуудыг шинэ ортогональ функцийн орон зайд харуулах нь эдгээр объектын ялгааны хувьд шинж чанар тус бүрийн ашиг тусыг төсөөлөх боломжийг олгодог. Хэрэв шинэ суурийн координатуудыг авч үзэж буй ажиглалтын хувьд тэдгээрийн утгын тархалтыг тодорхойлсон дисперсийн дагуу эрэмбэлсэн бол практик талаас нь авч үзвэл бага хэмжээний хэлбэлзэлтэй зарим шинж чанарууд нь тодорхой болно. Эдгээр шинж чанаруудын хувьд объектууд нь илүү мэдээлэл сайтай хувьсагчийн ялгаатай харьцуулахад бараг ялгаагүй байдаг тул ашиггүй юм. Ийм нөхцөлд бид анхны онцлог орон зай гэж нэрлэгддэг доройтлын тухай ярьж болно кхувьсагч ба энэ орон зайн бодит хэмжээс Тэх хувилбараас бага байж болно (м< к).

Онцлог орон зайг багасгах нь өгөгдлийн мэдээллийн агуулгын тодорхой бууралт дагалддаг боловч хүлээн зөвшөөрөгдсөн бууралтын түвшинг урьдчилан тодорхойлж болно. Онцлогыг задлах нь анхны хувьсагчийн багцыг доод хэмжээст орон зайд төсөллүүлдэг. Онцлогын зайг 2-3D болгон шахах нь өгөгдлийг дүрслэн харуулахад тустай. Тиймээс шинэ функцийн орон зайг бүрдүүлэх үйл явц нь ихэвчлэн мэдээлэл сайтай хувьсагчдыг бага багцлахад хүргэдэг. Тэдгээр дээр үндэслэн цөөн тооны хамгийн мэдээлэл сайтай шинж чанарууд дээр үндэслэн илүү сайн загварыг бий болгож болно.

Анхны хувьсагч дээр суурилсан шинэ хувьсагчийг бий болгох нь далд семантик шинжилгээ, өгөгдлийг шахах, ангилах, хэв маягийг таних, сургалтын үйл явцын хурд, үр ашгийг нэмэгдүүлэхэд ашиглагддаг. Шахсан өгөгдлийг ихэвчлэн цаашдын шинжилгээ, загварчлалд ашигладаг.

Онцлог орон зайг хувиргах, хэмжээсийг багасгах чухал хэрэглээний нэг бол хэмжсэн шинж чанарын утгууд дээр суурилсан синтетик далд категорийг бүтээх явдал юм. Эдгээр далд шинж тэмдгүүд нь судалж буй үзэгдлийн ерөнхий тодорхой шинж чанаруудыг тодорхойлж, ажиглагдаж буй объектуудын тодорхой шинж чанарыг нэгтгэж, мэдээллийн ерөнхий байдлын янз бүрийн түвшний салшгүй үзүүлэлтүүдийг бий болгох боломжийг олгодог.

Регрессийн загваруудын коэффициентүүдийн үнэлгээний зөрүүг "хавдах" -д хүргэдэг анхны шинж чанарууд дахь мэдээллийн давхардлын асуудлыг судлахад орон зайг багасгах аргуудын үүрэг чухал юм. Хамгийн тохиромжтой ортогональ, утга учиртай тайлбарласан шинэ хувьсагчид шилжих нь анхны өгөгдлийн олон шугаман байдлын нөхцөлд загварчлах үр дүнтэй хэрэгсэл юм.

Анхны шинж чанарын орон зайг ортогональ болгон хувиргах нь Евклидийн зай эсвэл Евклидийн зайны квадрат гэх мэт объектуудын ойрын болон ялгаатай байдлын тодорхой хэмжүүрийг үндэслэлтэй ашиглах боломжийг олгодог тул ангиллын асуудлыг шийдвэрлэхэд тохиромжтой. Регрессийн шинжилгээнд үндсэн бүрэлдэхүүн хэсгүүд дээр регрессийн тэгшитгэлийг байгуулах нь олон шугаман байдлын асуудлыг шийдвэрлэх боломжийг олгодог.

Олон хувьсагчийн статистик шинжилгээнд объект бүрийг хэмжээс нь дурын (гэхдээ бүх объектын хувьд ижил) вектороор дүрсэлдэг. Гэсэн хэдий ч хүн зөвхөн тоон өгөгдөл эсвэл онгоцон дээрх цэгүүдийг шууд хүлээн авах боломжтой. Гурван хэмжээст орон зай дахь цэгүүдийн кластерийг шинжлэх нь аль хэдийн илүү хэцүү болсон. Өндөр хэмжээст өгөгдлийг шууд хүлээн авах боломжгүй юм. Тиймээс олон хувьсагчтай түүврээс бага хэмжээст өгөгдөл рүү шилжихийг хүсэх нь зүйн хэрэг бөгөөд ингэснээр "та үүнийг харж болно".

Харагдах хүсэл эрмэлзлээс гадна хэмжээсийг багасгах өөр шалтгаанууд байдаг. Судлаачийн сонирхсон хувьсагчаас хамаарахгүй хүчин зүйлүүд нь зөвхөн статистик дүн шинжилгээ хийхэд саад болдог. Нэгдүгээрт, тэдний тухай мэдээлэл цуглуулах нь нөөцийг зарцуулдаг. Хоёрдугаарт, тэдгээрийг шинжилгээнд оруулах нь статистикийн процедурын шинж чанарыг улам дордуулдаг (ялангуяа энэ нь тархалтын параметр, шинж чанарын тооцооллын зөрүүг нэмэгдүүлдэг). Тиймээс ийм хүчин зүйлээс салах нь зүйтэй юм.

3.2.3-р дэд хэсэгт авч үзсэн борлуулалтыг таамаглахад регрессийн шинжилгээг ашиглах жишээг хэмжээст байдлыг багасгах үүднээс авч үзье. Нэгдүгээрт, энэ жишээн дээр бие даасан хувьсагчийн тоог 17-оос 12 болгон бууруулах боломжтой байсан. Хоёрдугаарт, борлуулалтын хэмжээг бусад бүх шугаман үзүүлэлтээс илүү урьдчилан таамаглах шинэ хүчин зүйл болох дурдсан 12 хүчин зүйлийн шугаман функцийг бий болгох боломжтой болсон. хүчин зүйлсийн хослол. Тиймээс бид үүний үр дүнд асуудлын хэмжээс 18-аас 2 болж буурсан гэж хэлж болно. Тухайлбал, нэг бие даасан хүчин зүйл (3.2.3-т өгөгдсөн шугаман хослол) болон нэг хамааралтай хүчин зүйл - борлуулалтын хэмжээ байсан.

Олон хувьсагчтай өгөгдөлд дүн шинжилгээ хийхдээ энэ нь ихэвчлэн нэг биш, харин олон асуудал, тухайлбал, бие даасан болон хамааралтай хувьсагчдыг өөр өөрөөр сонгох асуудалд тооцогддог. Иймд хэмжээсийг багасгах асуудлыг дараах томъёонд авч үзье. Олон талт түүврийг өгсөн. Боломжтой бол өгөгдөлд агуулагдах мэдээллийг алдалгүйгээр анхны өгөгдлийн бүтцийг аль болох хадгалж, үүнээс жижиг хэмжээтэй векторуудын багц руу шилжих шаардлагатай. Даалгаврыг тодорхой хэмжээстийг багасгах арга бүрийн хүрээнд тодорхойлсон болно.

Үндсэн бүрэлдэхүүн хэсгийн аргахэмжээсийг багасгах хамгийн түгээмэл аргуудын нэг юм. Үүний гол санаа нь өгөгдөл хамгийн их тархсан чиглэлийг дараалан тодорхойлох явдал юм. Түүврийг вектортой тэнцүү тархсан векторуудаас бүрдүүлье X = (x(1), x(2), … , x(n)). Шугаман хослолуудыг авч үзье

Ю(λ(1), λ(2), …, λ( n)) = λ(1) x(1) +λ(2) x(2) + … + λ( n)x(n),

λ 2 (1) + λ 2 (2) + …+ λ 2 ( n) = 1.

Энд вектор λ = (λ(1), λ(2), …, λ( n)) дахь нэгжийн бөмбөрцөг дээр байрладаг n- хэмжээст орон зай.

Үндсэн бүрэлдэхүүн хэсгийн аргын хувьд юуны түрүүнд хамгийн их тархалтын чиглэлийг олдог, өөрөөр хэлбэл. санамсаргүй хэмжигдэхүүний дисперс хамгийн ихдээ хүрэх ийм λ Ю(λ) = Ю(λ(1), λ(2), …, λ( n)). Дараа нь вектор λ нь эхний үндсэн бүрэлдэхүүн хэсэг ба хэмжигдэхүүнийг тодорхойлно Ю(λ) нь санамсаргүй векторын проекц юм Xэхний үндсэн бүрэлдэхүүн хэсгийн тэнхлэг дээр.

Дараа нь шугаман алгебрийн хувьд гипер хавтгай гэж үздэг n-хэмжээст орон зай, эхний үндсэн бүрэлдэхүүн хэсэгтэй перпендикуляр байх ба дээжийн бүх элементүүдийг энэ гипер хавтгай дээр проекц хийнэ. Гипер хавтгайн хэмжээ нь анхны орон зайн хэмжээнээс 1-ээр бага байна.

Харж байгаа гиперплан дээр процедурыг давтана. Хамгийн их тархалтын чиглэл нь үүнээс олддог, i.e. хоёр дахь үндсэн бүрэлдэхүүн хэсэг. Дараа нь эхний хоёр үндсэн бүрэлдэхүүн хэсгүүдэд перпендикуляр гиперпланг хуваарилна. Түүний хэмжээс нь анхны орон зайн хэмжээнээс 2 дахин бага байна. Дараагийнх нь дараагийн давталт юм.

Шугаман алгебрийн үүднээс авч үзвэл бид шинэ суурийг бий болгох талаар ярьж байна n- хэмжээст орон зай, тэдгээрийн орцууд нь үндсэн бүрэлдэхүүн хэсэг юм.

Шинэ үндсэн бүрэлдэхүүн хэсэг бүрт харгалзах хэлбэлзэл нь өмнөхөөсөө бага байна. Ихэвчлэн тэд өгөгдсөн босго хэмжээнээс бага байх үед зогсдог. Сонгосон бол күндсэн бүрэлдэхүүн хэсгүүд, энэ нь гэсэн үг юм n-хэмжээт орон зай руу явж чадсан к- хэмжээст, өөрөөр хэлбэл. -аас хэмжээсийг багасгах n-өмнө к, практикт эх өгөгдлийн бүтцийг гажуудуулахгүйгээр .

Визуал өгөгдлийн шинжилгээнд анхны векторуудын эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх проекцийг ихэвчлэн ашигладаг. Ихэвчлэн өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд, тусад нь хуваарилагдсан векторууд ялгагдана.

Үндсэн бүрэлдэхүүн хэсгийн арга нь аргуудын нэг юм хүчин зүйлийн шинжилгээ. Төрөл бүрийн хүчин зүйлийн шинжилгээний алгоритмууд нь бүгдэд нь эх хувилбарт шинэ суурь руу шилжсэнээр нэгдсэн байдаг. n- хэмжээст орон зай. "Хүчин зүйлийн ачаалал" гэсэн ойлголт нь чухал бөгөөд энэ нь шинэ үндэслэлээс тодорхой вектор үүсэхэд анхны хүчин зүйлийн (хувьсагч) гүйцэтгэх үүргийг тодорхойлоход хэрэглэгддэг.

Үндсэн бүрэлдэхүүн хэсгийн аргатай харьцуулахад шинэ санаа бол ачаалал дээр үндэслэн хүчин зүйлсийг бүлэгт хуваадаг. Нэг бүлэг нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг хүчин зүйлсийг нэгтгэдэг. Дараа нь бүлэг бүрээс нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөлөгчийг тооцоогоор сонгохын оронд тухайн бүлгийн гол хүчин зүйл болох шинэ хүчин зүйл үүсдэг. Хэмжээг багасгах нь бүлгүүдийн төлөөлөл болох хүчин зүйлсийн системд шилжихэд тохиолддог. Үлдсэн хүчин зүйлсийг хаядаг.

Тайлбарласан процедурыг зөвхөн хүчин зүйлийн шинжилгээний тусламжтайгаар хийж болно. Бид онцлог шинж чанаруудын (хүчин зүйл, хувьсагч) кластерийн шинжилгээний тухай ярьж байна. Онцлогуудыг бүлэгт хуваахад кластерын шинжилгээний янз бүрийн алгоритмуудыг ашиглаж болно. Онцлог шинж чанаруудын хоорондох зайг (ойрын хэмжүүр, ялгааны үзүүлэлт) оруулахад хангалттай. Болъё XТэгээд At- хоёр тэмдэг. Ялгаа г(X, Ю) тэдгээрийн хоорондох түүврийн корреляцийн коэффициентийг ашиглан хэмжиж болно:

г 1 (X,Y) = 1 – rn(X,Y), г 2 (X,Y) = 1 – ρ n(X,Y),

Хаана rn(X, Ю) нь жишээ шугаман Пирсон корреляцийн коэффициент, ρ n(X, Ю) нь Спирманы түүврийн зэрэглэлийн корреляцийн коэффициент юм.

Олон хэмжээст масштаб. Зайны ашиглалтын тухай (ойр байдлын хэмжүүр, ялгааны үзүүлэлтүүд) г(X, Ю) онцлогуудын хооронд XТэгээд Atолон хэмжээст масштабын аргуудын өргөн хүрээтэй анги бий болсон. Энэ ангиллын аргын гол санаа нь объект бүрийг геометрийн орон зайн цэгээр (ихэвчлэн 1, 2 эсвэл 3 хэмжээст) дүрслэх явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утгууд юм. объектыг хангалттай дүрслэх. Энэ тохиолдолд объектуудын хоорондын харилцааг цэгүүдийн хоорондын харилцаа - тэдгээрийн төлөөлөгчөөр солино. Тиймээс объектуудын ижил төстэй байдлын талаархи өгөгдөл - цэгүүдийн хоорондох зай, давуу байдлын талаархи мэдээлэл - цэгүүдийн харилцан зохицуулалтаар.

Практикт хэд хэдэн янз бүрийн загваруудолон хэмжээст масштаб. Тэд бүгд хүчин зүйлийн орон зайн бодит хэмжээсийг тооцоолох асуудалтай тулгардаг. Метрийн масштабыг ашиглан объектуудын ижил төстэй байдлын талаархи өгөгдлийг боловсруулах жишээн дээр энэ асуудлыг авч үзье.

Байг nобъектууд ТУХАЙ(1), ТУХАЙ(2), …, О(n), хос объект бүрийн хувьд ТУХАЙ(би), О(j) тэдгээрийн ижил төстэй байдлын хэмжүүрийг өгсөн болно с(би, j). Бид үргэлж тэгж боддог с(би, j) = с(j, би). Тоонуудын гарал үүсэл с(би, j) нь алгоритм хэрхэн ажилладагийг тайлбарлахад хамааралгүй. Тэдгээрийг шууд хэмжилтээр, эсвэл мэргэжилтнүүдийн тусламжтайгаар, эсвэл тодорхойлсон шинж чанарын багцаас тооцоолох замаар эсвэл өөр аргаар олж авч болно.

Евклидийн орон зайд авч үзсэн nобъектууд нь тохиргоогоор илэрхийлэгдэх ёстой nцэгүүд ба Евклидийн зай г(би, j) харгалзах цэгүүдийн хооронд. Объектуудын багц ба тэдгээрийг төлөөлөх цэгүүдийн хоорондын уялдаа холбоог ижил төстэй матрицуудыг харьцуулах замаар тодорхойлно || с(би, j)|| ба зай || г(би, j)||. Метрийн ижил төстэй функц нь хэлбэртэй байна

Функциональ S нь хамгийн бага утгад хүрэхийн тулд геометрийн тохиргоог сонгох ёстой.

Сэтгэгдэл.Метрийн бус масштабын хувьд ойрын болон зайны хэмжүүрүүдийн ойролцоо байхын оронд ойрын хэмжүүр болон харгалзах зайны багц дээрх дарааллын ойролцоо байдлыг харгалзан үздэг. Үйл ажиллагааны оронд ССпирман ба Кендалл зэрэглэлийн корреляцийн коэффициентүүдийн аналогийг ашигладаг. Өөрөөр хэлбэл, хэмжүүрийн бус масштаб нь ойрын хэмжигдэхүүнийг ординаль масштабаар хэмждэг гэж үздэг.

Евклидийн орон зайг хэмжээстэй болго м. Хамгийн бага дундаж квадрат алдааг авч үзье

,

бүх боломжит тохиргоон дээр хамгийн бага хэмжээг авдаг nоноо м- хэмжээст Евклидийн орон зай. Зарим тохиргоонд хамгийн багадаа хүрсэн болохыг харуулж байна. Өсөлттэй байх нь ойлгомжтой мα m хэмжигдэхүүн нь монотоноор буурдаг (илүү нарийвчлалтай, энэ нь нэмэгдэхгүй). Хэзээ гэдгийг харуулж болно м > n– 1 нь 0-тэй тэнцүү (хэрэв с(би, j) нь хэмжүүр). Утгатай тайлбар хийх боломжийг нэмэгдүүлэхийн тулд хамгийн бага хэмжээтэй орон зайд ажиллах нь зүйтэй. Гэхдээ энэ тохиолдолд цэгүүд нь том гажуудалгүйгээр объектуудыг илэрхийлэхийн тулд хэмжээсийг сонгох ёстой. Асуулт гарч ирдэг: хэмжээсийг хэрхэн оновчтой сонгох вэ, i.e. натурал тоо м?

Нэгэн хэсэг детерминистик шинжилгээЭнэ асуултад үндэслэлтэй хариулт байхгүй бололтой. Тиймээс тодорхой магадлалын загварт α m-ийн зан төлөвийг судлах шаардлагатай. Ойролцоох арга хэмжээ авбал с(би, j) нь тархалт нь "жинхэнэ хэмжээс"-ээс хамаардаг санамсаргүй хэмжигдэхүүнүүд юм. м 0 (мөн бусад параметрүүд дээр байж магадгүй), дараа нь сонгодог математик, статистикийн хэв маягаар бид тооцоолох асуудлыг тавьж болно. м 0 , тогтмол оноо хайх гэх мэт.

Магадлалын загваруудыг бүтээж эхэлцгээе. Объектууд нь Евклидийн орон зайн хэмжээсийн цэгүүд гэж бид таамаглаж байна к, Хаана кхангалттай том. Энэ бол "жинхэнэ хэмжээс" юм м 0 нь эдгээр бүх цэгүүд хэмжээсийн гипер хавтгай дээр байрладаг гэсэн үг юм м 0 . Харгалзан үзэж буй цэгүүдийн багц нь σ 2 (0) дисперстэй дугуй хэвийн тархалтын түүвэр гэж тодорхой бодъё. Энэ нь объектууд гэсэн үг юм ТУХАЙ(1), ТУХАЙ(2), …, О(n) нь бие даасан санамсаргүй векторууд бөгөөд тэдгээр нь тус бүрийг ζ(1) хэлбэрээр бүтээдэг. д(1) + ζ(2) д(2) + … + ζ( м 0)д(м 0), хаана д(1), д(2), … , д(м 0) хэмжээсийн дэд орон зай дахь ортонормаль суурь юм м 0 , энд авч үзсэн цэгүүд байх ба ζ(1), ζ(2), … , ζ( м 0) нь математикийн хүлээлттэй хамтын бие даасан нэг хэмжээст хэвийн санамсаргүй хэмжигдэхүүнүүд) ба дисперс σ 2 (0).

Ойролцоох хэмжүүрийг олж авах хоёр загварыг авч үзье с(би, j). Тэдний эхнийх нь с(би, j) цэгүүд нь гажуудалтай мэдэгдэж байгаа тул харгалзах цэгүүдийн хоорондох Евклидийн зайнаас ялгаатай. Болъё -тай(1),-тай(2), … , -тай(n) цэгүүд гэж тооцогддог. Дараа нь

с(би, j) = г(в(би) + ε( би), в(j) + ε( j)), би, j = 1, 2, … , n,

Хаана гдахь цэгүүдийн хоорондох Евклидийн зай юм к-хэмжээт орон зай, векторууд ε(1), ε(2), … , ε( n) дахь дугуй хэвийн тархалтаас авсан дээжийг илэрхийлнэ к-тэг математик хүлээлт ба ковариацын матриц σ 2 (1) бүхий хэмжээст орон зай I, Хаана Iнь таних матриц юм. Өөрөөр хэлбэл, ε( би) = η(1) д(1) + η(2) д(2) + … + η( к)д(к), Хаана д(1), д(2), …, д(к) нь ортонормаль суурь юм к-хэмжээт орон зай ба (η( би, т), би= 1, 2, …, n, т= 1, 2, … , k) нь нэг хэмжээст олонлог дахь бие даасан олонлог юм санамсаргүй хэмжигдэхүүнтэг математикийн хүлээлт ба дисперс σ 2 (1).

Хоёрдахь загварт гажуудал нь зайн дээр шууд ногдуулдаг.

с(i,j) = г(в(би), в(j)) + ε( i,j), i,j = 1, 2, … , n, биj,

хаана (ε( би, j), би, j = 1, 2, … , n) нь математикийн хүлээлттэй хамтын бие даасан хэвийн санамсаргүй хэмжигдэхүүнүүд) ба дисперс σ 2 (1).

Хоёр томьёолсон загваруудын хувьд квадратын дундаж алдааны хамгийн бага нь α m болохыг баримт бичиг харуулж байна n→ ∞ нь магадлалаар нийлдэг

е(м) = е 1 (м) + σ 2 (1)( км), м = 1, 2, …, к,

Тиймээс функц е(м) болон интервалууд дээр шугаман байх ба эхний интервал дээр хоёр дахь интервалаас илүү хурдан буурдаг. Үүнээс үзэхэд статистик

бодит хэмжээсийн тууштай тооцоолол юм м 0 .

Тиймээс магадлалын онолоос зөвлөмж гарч ирэв - хүчин зүйлийн орон зайн хэмжээг тооцоолохдоо ашиглах м*. Ийм зөвлөмжийг олон хэмжээст масштабыг үндэслэгчдийн нэг Ж.Краскал эвристик байдлаар томъёолсныг анхаарна уу. Тэрээр олон хэмжээст масштаб, тооцооллын туршилтыг практикт ашиглах туршлагаас үндэслэсэн. Магадлалын онол нь энэхүү эвристик зөвлөмжийг батлах боломжийг олгосон.

Өмнөх

Түлхүүр үгс

МАТЕМАТИК / ХЭРЭГЛЭЭНИЙ СТАТИСТИК / МАТЕМАТИК СТАТИСТИК/ ӨСӨЛТИЙН ЦЭГ / ҮНДСЭН БҮРДЭЛИЙН АРГА / ХҮЧИН ЗҮЙЛИЙН ШИНЖИЛГЭЭ / ОЛОН ХЭМЖЭЭТ ХЭМЖЭЭЛЭЛТ / ӨГӨГДЛИЙН ХЭМЖЭЭТ ТООЛЛОГО / ЗАГВАР ХЭМЖЭЭНИЙ ТООЦОО/ МАТЕМАТИК / ХЭРЭГЛЭЭНИЙ СТАТИСТИК / МАТЕМАТИК СТАТИСТИК / ӨСӨЛТИЙН ЦЭГ / ҮНДСЭН БҮРДЭЛИЙН ШИНЖИЛГЭЭ / ХҮЧИН ЗҮЙЛИЙН ШИНЖИЛГЭЭ / ОЛОН ХЭМЖЭЭТ ШАЛГАРУУЛАЛТ / ӨГӨГДЛИЙН ХЭМЖЭЭНИЙ ТООЦОО / ЗАГВАРЫН ХЭМЖЭЭГ ТОГТООХ

тайлбар математикийн шинжлэх ухааны нийтлэл, шинжлэх ухааны нийтлэлийн зохиогч - Александр I. Орлов, Евгений Вениаминович Луценко

"Өсөлтийн цэгүүдийн" нэг хэрэглээний статистикстатистик мэдээллийн орон зайн хэмжээг багасгах аргууд юм. Тэдгээрийг тусгай хэрэглээний судалгаанд, жишээлбэл социологийн судалгаанд дүн шинжилгээ хийхэд улам бүр ашиглаж байна. Хэмжээг багасгах хамгийн ирээдүйтэй аргуудыг авч үзье. Үндсэн бүрэлдэхүүн хэсгийн аргахэмжээсийг багасгах хамгийн түгээмэл аргуудын нэг юм. Визуал өгөгдлийн шинжилгээнд анхны векторуудын эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх проекцийг ихэвчлэн ашигладаг. Ихэвчлэн өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд, тусад нь хуваарилагдсан векторууд ялгагдана. Үндсэн бүрэлдэхүүн хэсгийн аргааргуудын нэг юм хүчин зүйлийн шинжилгээ. -тай харьцуулахад шинэ санаа үндсэн бүрэлдэхүүн хэсгийн аргаачаалал дээр үндэслэн хүчин зүйлсийг бүлэгт хуваадагтай холбоотой. Нэг бүлэг нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг хүчин зүйлсийг нэгтгэдэг. Дараа нь бүлэг бүрээс нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөлөгчийг тооцоогоор сонгохын оронд тухайн бүлгийн гол хүчин зүйл болох шинэ хүчин зүйл үүсдэг. Хэмжээг багасгах нь бүлгүүдийн төлөөлөл болох хүчин зүйлсийн системд шилжихэд тохиолддог. Үлдсэн хүчин зүйлсийг хаядаг. Өргөн хүрээтэй ангиллын аргууд нь онцлог шинж чанаруудын хоорондох зайг (ойр байдлын хэмжүүр, ялгааны үзүүлэлт) ашиглахад суурилдаг. олон хэмжээст масштаб. Энэ ангиллын аргын гол санаа нь объект бүрийг геометрийн орон зайн цэгээр (ихэвчлэн 1, 2 эсвэл 3 хэмжээст) дүрслэх явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утгууд юм. объектыг хангалттай дүрслэх. Магадлал-статистикийн загварчлал, тоон бус өгөгдлийн статистикийн үр дүнг ашиглах жишээ болгон бид өгөгдлийн орон зайн хэмжээсийн үнэлгээний үнэн зөвийг зөвтгөдөг. олон хэмжээст масштаб, өмнө нь эвристик шалтгаанаар Крускал санал болгосон. Хэд хэдэн бүтээл дээр загваруудын хэмжээсийг тооцоолох(регрессийн шинжилгээ ба ангиллын онолд). Танин мэдэхүйн автоматжуулсан систем дэх хэмжигдэхүүнийг багасгах алгоритмын талаархи мэдээллийг өгсөн болно.

Холбоотой сэдвүүд математикийн шинжлэх ухааны бүтээлүүд, шинжлэх ухааны бүтээлийн зохиогч - Орлов Александр Иванович, Луценко Евгений Вениаминович

  • Дөчин таван жилийн турш социологийн математик аргууд

  • Тоон бус шинж чанартай олон төрлийн объект

  • Параметрийн тооцоо: Нэг алхамт тооцоологчийг хамгийн их магадлалтай тооцоологчоос илүүд үздэг.

  • Хэрэглээний статистик - Төлөв байдал ба хэтийн төлөв

    2016 / Александр Орлов
  • Хэрэглээний болон онолын статистикийн хөгжлийн төлөв байдал, хэтийн төлөв

    2016 / Александр Орлов
  • Хязгаарын теорем ба Монте Карлогийн аргын хоорондын хамаарал

    2015 / Александр Орлов
  • Тоон бус шинж чанартай объектын статистикийг боловсруулах тухай

    2013 / Александр Орлов
  • Статистикийн аргуудын өсөлтийн цэгүүд

    2014 он / Александр Орлов
  • Хяналтын шинэ ирээдүйтэй математик хэрэгслийн тухай

    2015 / Александр Орлов
  • Статистикийн мэдээллийн орон зайн зай

    2014 он / Александр Орлов

Хэрэглээний статистикийн "өсөлтийн цэгүүдийн" нэг бол статистикийн мэдээллийн хэмжээг багасгах арга юм. Тэдгээрийг социологи гэх мэт тусгай хэрэглээний судалгааны өгөгдөлд дүн шинжилгээ хийхэд улам бүр ашиглагдаж байна. Бид хэмжээст байдлыг багасгах хамгийн ирээдүйтэй аргуудыг судалж байна. Үндсэн бүрэлдэхүүн хэсгүүд нь хэмжээст байдлыг багасгах хамгийн түгээмэл аргуудын нэг юм. Өгөгдлийн харааны шинжилгээнд ихэвчлэн эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх анхны векторуудын төсөөллийг ашигладаг. Ихэвчлэн өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд болон тусад нь хуваарилагдсан векторуудыг тодруулсан байдаг. Үндсэн бүрэлдэхүүн хэсгүүд нь хүчин зүйлийн шинжилгээний нэг арга юм. Үндсэн бүрэлдэхүүн хэсгүүдийн аргатай харьцуулахад хүчин зүйлийн шинжилгээний шинэ санаа нь ачааллаас хамааран хүчин зүйлүүдийг бүлэгт хуваадаг явдал юм. Нэг бүлэг хүчин зүйлд шинэ хүчин зүйл нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг. Дараа нь бүлэг бүр нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөллийг тооцоогоор сонгохын оронд тухайн бүлэгт төвлөрсөн шинэ хүчин зүйл болдог. Багасгасан хэмжээс нь бүлгүүдийн төлөөлөл болох системийн хүчин зүйлд шилжих үед үүсдэг. Бусад хүчин зүйлсийг хаядаг. Онцлог болон өргөн хүрээний ангиллын хоорондох зайг (ойролцооны хэмжүүр, ялгааны үзүүлэлт) ашиглах нь олон хэмжээст масштабын аргууд дээр суурилдаг. Энэ ангиллын аргын үндсэн санаа нь объект бүрийг геометрийн орон зайн (ихэвчлэн 1, 2, 3 хэмжээст) цэг болгон харуулах явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утга бөгөөд тэдгээр нь хангалттай нийлдэг. объектыг дүрслэх. Магадлалын болон статистик загварчлал, тоон бус өгөгдлийн статистикийн үр дүнг ашиглах жишээ болгон бид Крускалын эвристик үзэл баримтлалаас өмнө санал болгосон олон хэмжээст масштаб дахь өгөгдлийн хэмжээсийн тооцоологчдын нийцлийг зөвтгөж байна. Бид загваруудын хэмжээсийн хэд хэдэн тогтмол тооцоог авч үзсэн (регрессийн шинжилгээ ба ангиллын онолын хувьд). Мөн бид автоматжуулсан систем-танин мэдэхүйн шинжилгээнд хэмжээст байдлыг багасгах алгоритмуудын талаар зарим мэдээллийг өгдөг.

Шинжлэх ухааны ажлын текст "Статистик мэдээллийн орон зайн хэмжээг багасгах арга" сэдвээр

UDC 519.2: 005.521:633.1:004.8

01.00.00 Физик-математикийн шинжлэх ухаан

СТАТИСТИКИЙН МЭДЭЭЛЭЛИЙН ОРОН ОРЧИНГ ХЭМЖЭЭС БУУРУУЛАХ АРГА

Орлов Александр Иванович

Эдийн засгийн ухааны доктор, техникийн шинжлэх ухааны доктор, доктор, профессор

RSCI BRSH код: 4342-4994

Москвагийн улсын техникийн

их сургууль. Н.Э. Бауман, Орос, 105005,

Москва, Бауманская 2-р гудамж, 5, [имэйлээр хамгаалагдсан]Т

Луценко Евгений Вениаминович Эдийн засгийн ухааны доктор, доктор, профессор RSCI BRSH-код: 9523-7101 Кубан улсын хөдөө аж ахуйн их сургууль, Краснодар, ОХУ [имэйлээр хамгаалагдсан] com

Хэрэглээний статистикийн "өсөлтийн цэгүүдийн" нэг бол статистик мэдээллийн орон зайн хэмжээг багасгах аргууд юм. Тэдгээрийг тусгай хэрэглээний судалгаанд, жишээлбэл социологийн судалгаанд дүн шинжилгээ хийхэд улам бүр ашиглаж байна. Хэмжээг багасгах хамгийн ирээдүйтэй аргуудыг авч үзье. Үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ нь хэмжээст байдлыг багасгах хамгийн түгээмэл аргуудын нэг юм. Визуал өгөгдлийн шинжилгээнд анхны векторуудын эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх проекцийг ихэвчлэн ашигладаг. Ихэвчлэн өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд, тусад нь хуваарилагдсан векторууд ялгагдана. Үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ нь хүчин зүйлийн шинжилгээний аргуудын нэг юм. Үндсэн бүрэлдэхүүн хэсгийн аргатай харьцуулахад шинэ санаа бол ачаалал дээр үндэслэн хүчин зүйлсийг бүлэгт хуваадаг. Нэг бүлэг нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг хүчин зүйлсийг нэгтгэдэг. Дараа нь бүлэг бүрээс нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөлөгчийг тооцоогоор сонгохын оронд тухайн бүлгийн гол хүчин зүйл болох шинэ хүчин зүйл үүсдэг. Хэмжээг багасгах нь бүлгүүдийн төлөөлөл болох хүчин зүйлсийн системд шилжихэд тохиолддог. Үлдсэн хүчин зүйлсийг хаядаг. Олон хэмжээст масштабын аргуудын өргөн хүрээний анги нь онцлог шинж чанаруудын хоорондох зайг (ойролцооны хэмжүүр, ялгааны үзүүлэлт) ашиглахад суурилдаг. Энэ ангиллын аргуудын гол санаа нь объект бүрийг геометрийн орон зайд (ихэвчлэн 1, 2 эсвэл 3 хэмжээст) цэг болгон дүрслэх явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утгууд юм. хангалттай дүрслэх

UDC 519.2:005.521:633.1:004.8

Физик, математикийн шинжлэх ухаан

СТАТИСТИКИЙН МЭДЭЭЛЭЛИЙН САНСАР ХЭМЖЭЭГ БУУРУУЛАХ АРГА

Александр Орлов

Эдийн засгийн доктор, шинжлэх ухааны доктор, физик-математикийн ухааны доктор,

Бауманы нэрэмжит Москва улсын техникийн их сургууль, Москва, ОХУ

Луценко Евгений Вениаминович Эдийн засгийн доктор, Техникийн ухааны доктор, профессор RSCI SPIN-код: 9523-7101

Кубан улсын хөдөө аж ахуйн их сургууль, Краснодар, ОХУ

[имэйлээр хамгаалагдсан] com

Хэрэглээний статистикийн "өсөлтийн цэгүүдийн" нэг бол статистикийн мэдээллийн хэмжээг багасгах арга юм. Тэдгээрийг социологи гэх мэт тусгай хэрэглээний судалгааны өгөгдөлд дүн шинжилгээ хийхэд улам бүр ашиглагдаж байна. Бид хэмжээст байдлыг багасгах хамгийн ирээдүйтэй аргуудыг судалж байна. Үндсэн бүрэлдэхүүн хэсгүүд нь хэмжээст байдлыг багасгах хамгийн түгээмэл аргуудын нэг юм. Өгөгдлийн харааны шинжилгээнд ихэвчлэн эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх анхны векторуудын төсөөллийг ашигладаг. Ихэвчлэн өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд болон тусад нь хуваарилагдсан векторуудыг тодруулсан байдаг. Үндсэн бүрэлдэхүүн хэсгүүд нь хүчин зүйлийн шинжилгээний нэг арга юм. Үндсэн бүрэлдэхүүн хэсгүүдийн аргатай харьцуулахад хүчин зүйлийн шинжилгээний шинэ санаа нь ачааллаас хамааран хүчин зүйлүүдийг бүлэгт хуваадаг явдал юм. Нэг бүлэг хүчин зүйлд шинэ хүчин зүйл нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг. Дараа нь бүлэг бүр нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөллийг тооцоогоор сонгохын оронд тухайн бүлэгт төвлөрсөн шинэ хүчин зүйл болдог. Багасгасан хэмжээс нь бүлгүүдийн төлөөлөл болох системийн хүчин зүйлд шилжих үед үүсдэг. Бусад хүчин зүйлсийг хаядаг. Онцлог болон өргөн хүрээний ангиллын хоорондох зайг (ойролцооны хэмжүүр, ялгааны үзүүлэлт) ашиглах нь олон хэмжээст масштабын аргууд дээр суурилдаг. Энэ ангиллын аргын үндсэн санаа нь объект бүрийг геометрийн орон зайн (ихэвчлэн 1, 2, 3 хэмжээст) цэг болгон харуулах явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утга бөгөөд тэдгээр нь хангалттай нийлдэг. объектыг дүрслэх. Магадлал ба статистик загварчлал, тоон бус өгөгдлийн статистикийн үр дүнг ашиглах жишээ болгон бид тооцоологчдын тууштай байдлыг зөвтгөж байна.

объект. Магадлал-статистик загварчлалын хэрэглээний жишээ болон тоон бус өгөгдлийн статистикийн үр дүнгийн хувьд бид Крускалын эвристик үзэл баримтлалаас өмнө санал болгосон олон хэмжээст масштабын өгөгдлийн орон зайн хэмжээсийн тооцооны нийцтэй байдлыг зөвтгөж байна. Загварын хэмжээсийг тооцоолох хэд хэдэн ажлыг (регрессийн шинжилгээ ба ангиллын онолд) авч үзсэн болно. Танин мэдэхүйн автоматжуулсан систем дэх хэмжигдэхүүнийг багасгах алгоритмын талаархи мэдээллийг өгсөн болно.

Түлхүүр үг: МАТЕМАТИК, ХЭРЭГЛЭЭНИЙ СТАТИСТИК, МАТЕМАТИК СТАТИСТИК, ӨСӨЛТИЙН ЦЭГ, ҮНДСЭН БҮРДЭЛИЙН АРГА, ХҮЧИН ЗҮЙЛИЙН ШИНЖИЛГЭЭ, ОЛОН ХЭМЖЭЭТ ШАЛГАРУУЛАЛТ, ӨГӨГДЛИЙН ХЭМЖЭЭТ ТООЦОО, ЗАГВАРЫН ХЭМЖЭЭГҮЙ

Крускалын эвристикийн үүднээс өмнө нь санал болгосон олон хэмжээст масштаб дахь өгөгдлийн хэмжээс. Бид загваруудын хэмжээсийн хэд хэдэн тогтмол тооцоог авч үзсэн (регрессийн шинжилгээ ба ангиллын онолын хувьд). Мөн бид автоматжуулсан систем-танин мэдэхүйн шинжилгээнд хэмжээст байдлыг багасгах алгоритмуудын талаар зарим мэдээллийг өгдөг.

Түлхүүр үг: МАТЕМАТИК ХЭРЭГЛЭЭНИЙ СТАТИСТИК МАТЕМАТИК СТАТИСТИК ӨСӨЛТИЙН ҮНДСЭН БҮРДЭЛИЙН ШИНЖИЛГЭЭНИЙ ХҮЧИН ЗҮЙЛИЙН ШИНЖИЛГЭЭНИЙ ОЛОН ХЭМЖЭЭТ ХЭМЖЭЭНИЙ ӨГӨГДӨЛИЙН ХЭМЖЭЭС ЗАГВАРЫН ТОГТОЛЦОО.

1. Танилцуулга

Өмнө дурьдсанчлан хэрэглээний статистикийн "өсөлтийн цэгүүдийн" нэг нь статистик мэдээллийн орон зайн хэмжээг багасгах аргууд юм. Тэдгээрийг тусгай хэрэглээний судалгаанд, жишээлбэл социологийн судалгаанд дүн шинжилгээ хийхэд улам бүр ашиглаж байна. Хэмжээг багасгах хамгийн ирээдүйтэй аргуудыг авч үзье. Магадлал-статистик загварчлалын хэрэглээний жишээ болон тоон бус өгөгдлийн статистикийн үр дүнгийн хувьд бид урьд өмнө Крускалын эвристик үзэл баримтлалаар санал болгосон орон зайн хэмжээсийн тооцооны нийцтэй байдлыг зөвтгөх болно.

Олон хувьсагчийн статистик шинжилгээнд объект бүрийг хэмжээс нь дурын (гэхдээ бүх объектын хувьд ижил) вектороор дүрсэлдэг. Гэсэн хэдий ч хүн зөвхөн тоон өгөгдөл эсвэл онгоцон дээрх цэгүүдийг шууд хүлээн авах боломжтой. Гурван хэмжээст орон зай дахь цэгүүдийн кластерийг шинжлэх нь аль хэдийн илүү хэцүү болсон. Өндөр хэмжээст өгөгдлийг шууд хүлээн авах боломжгүй юм. Тиймээс олон хувьсагчтай түүврээс бага хэмжээст өгөгдөл рүү шилжихийг хүсэх нь зүйн хэрэг бөгөөд ингэснээр “үүнийг

харах". Жишээ нь, маркетер хүн хэд байгааг нүдээр харж болно янз бүрийн төрөлхэрэглэгчийн зан төлөв (жишээ нь зах зээлийн хэдэн сегментийг ялгах нь зүйтэй вэ) болон тэдгээрт ямар хэрэглэгчид (ямар шинж чанартай) багтдаг.

Харагдах хүсэл эрмэлзлээс гадна хэмжээсийг багасгах өөр шалтгаанууд байдаг. Судлаачийн сонирхсон хувьсагчаас хамаарахгүй хүчин зүйлүүд нь зөвхөн статистик дүн шинжилгээ хийхэд саад болдог. Нэгдүгээрт, тэдний тухай мэдээлэл цуглуулахад санхүү, цаг хугацаа, хүний ​​нөөцийг зарцуулдаг. Хоёрдугаарт, тэдгээрийг шинжилгээнд оруулах нь статистикийн процедурын шинж чанарыг улам дордуулдаг (ялангуяа энэ нь тархалтын параметр, шинж чанарын тооцооллын зөрүүг нэмэгдүүлдэг). Тиймээс ийм хүчин зүйлээс салах нь зүйтэй юм.

Олон хувьсагчтай өгөгдөлд дүн шинжилгээ хийхдээ энэ нь ихэвчлэн нэг биш, харин олон асуудал, тухайлбал, бие даасан болон хамааралтай хувьсагчдыг өөр өөрөөр сонгох асуудалд тооцогддог. Иймд хэмжээсийг багасгах асуудлыг дараах томъёонд авч үзье. Олон талт түүврийг өгсөн. Боломжтой бол өгөгдөлд агуулагдах мэдээллийг алдалгүйгээр анхны өгөгдлийн бүтцийг аль болох хадгалж, үүнээс жижиг хэмжээтэй векторуудын багц руу шилжих шаардлагатай. Даалгаврыг тодорхой хэмжээстийг багасгах арга бүрийн хүрээнд тодорхойлсон болно.

2. Үндсэн бүрэлдэхүүн хэсгийн арга

Энэ нь хэмжээсийг багасгах хамгийн түгээмэл аргуудын нэг юм. Үүний гол санаа нь өгөгдөл хамгийн их тархсан чиглэлийг дараалан тодорхойлох явдал юм. Түүвэр нь X = (x(1), x(2), ... , x(n)) вектортой тэнцүү тархсан векторуудаас тогт. Шугаман хослолуудыг авч үзье

7(^(1), X(2), ., l(n)) = X(1)x(1) + X(2)x(2) + ... + l(n)x(n) ,

X2(1) + X2(2) + ... + X2(n) = 1. Энд вектор X = (X(1), X(2), ..., X(n)) нэгж дээр байрладаг. n хэмжээст орон зай дахь бөмбөрцөг.

Үндсэн бүрэлдэхүүн хэсгийн аргын хувьд юуны түрүүнд хамгийн их тархалтын чиглэлийг олдог, өөрөөр хэлбэл. 7(X) = 7(X(1), X(2), ..., X(n)) санамсаргүй хэмжигдэхүүний дисперс хамгийн ихдээ хүрэх ийм X. Дараа нь X вектор нь эхний үндсэн бүрэлдэхүүнийг зааж өгөх ба 7(X) утга нь санамсаргүй байдлаар X векторын эхний үндсэн бүрэлдэхүүн хэсгийн тэнхлэг дээрх проекц юм.

Дараа нь шугаман алгебрийн хувьд эхний үндсэн бүрэлдэхүүн хэсэгтэй перпендикуляр байрлах n хэмжээст орон зай дахь гипер хавтгайг авч үзэх ба түүврийн бүх элементүүдийг энэ гипер хавтгай дээр тусгана. Гипер хавтгайн хэмжээ нь анхны орон зайн хэмжээнээс 1-ээр бага байна.

Харж байгаа гиперплан дээр процедурыг давтана. Хамгийн их тархалтын чиглэл нь үүнээс олддог, i.e. хоёр дахь үндсэн бүрэлдэхүүн хэсэг. Дараа нь эхний хоёр үндсэн бүрэлдэхүүн хэсгүүдэд перпендикуляр гиперпланг хуваарилна. Түүний хэмжээс нь анхны орон зайн хэмжээнээс 2 дахин бага байна. Дараагийнх нь дараагийн давталт юм.

Шугаман алгебрийн үүднээс авч үзвэл n хэмжээст орон зайд орцууд нь үндсэн бүрэлдэхүүн хэсэг болох шинэ суурийг бий болгох тухай ярьж байна.

Шинэ үндсэн бүрэлдэхүүн хэсэг бүрт харгалзах хэлбэлзэл нь өмнөхөөсөө бага байна. Ихэвчлэн тэд өгөгдсөн босго хэмжээнээс бага байх үед зогсдог. Хэрэв k үндсэн бүрэлдэхүүн хэсэг сонгогдвол энэ нь n хэмжээст орон зайгаас k хэмжээст рүү шилжих боломжтой гэсэн үг юм. эх өгөгдлийн бүтцийг гажуудуулахгүйгээр хэмжээсийг p-ээс k хүртэл багасгах.

Визуал өгөгдлийн шинжилгээнд анхны векторуудын эхний хоёр үндсэн бүрэлдэхүүн хэсгийн хавтгай дээрх проекцийг ихэвчлэн ашигладаг. Ихэвчлэн

өгөгдлийн бүтэц нь тодорхой харагдаж, объектуудын авсаархан кластерууд, тус тусад нь ялгагдах векторууд ялгагдана.

3. Хүчин зүйлийн шинжилгээ

Үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ нь хүчин зүйлийн шинжилгээний аргуудын нэг юм. Төрөл бүрийн хүчин зүйлийн шинжилгээний алгоритмуудыг нэгтгэдэг бөгөөд тэдгээр нь бүгд анхны n хэмжээст орон зайд шинэ суурь руу шилждэг. "Хүчин зүйлийн ачаалал" гэсэн ойлголт нь чухал бөгөөд энэ нь шинэ үндэслэлээс тодорхой вектор үүсэхэд анхны хүчин зүйлийн (хувьсагч) гүйцэтгэх үүргийг тодорхойлоход хэрэглэгддэг.

Үндсэн бүрэлдэхүүн хэсгийн аргатай харьцуулахад шинэ санаа бол ачаалал дээр үндэслэн хүчин зүйлсийг бүлэгт хуваадаг. Нэг бүлэг нь шинэ суурийн элементүүдэд ижил төстэй нөлөө үзүүлдэг хүчин зүйлсийг нэгтгэдэг. Дараа нь бүлэг бүрээс нэг төлөөлөгч үлдээхийг зөвлөж байна. Заримдаа төлөөлөгчийг тооцоогоор сонгохын оронд тухайн бүлгийн гол хүчин зүйл болох шинэ хүчин зүйл үүсдэг. Хэмжээг багасгах нь бүлгүүдийн төлөөлөл болох хүчин зүйлсийн системд шилжихэд тохиолддог. Үлдсэн хүчин зүйлсийг хаядаг.

Тайлбарласан процедурыг зөвхөн хүчин зүйлийн шинжилгээний тусламжтайгаар хийж болно. Бид онцлог шинж чанаруудын (хүчин зүйл, хувьсагч) кластерийн шинжилгээний тухай ярьж байна. Онцлогуудыг бүлэгт хуваахын тулд кластерын шинжилгээний янз бүрийн алгоритмуудыг ашиглаж болно. Онцлог шинж чанаруудын хоорондох зайг (ойрын хэмжүүр, ялгааны үзүүлэлт) оруулахад хангалттай. X ба Y хоёр онцлог байг. Тэдгээрийн хоорондох d(X,Y) ялгааг түүврийн корреляцийн коэффициент ашиглан хэмжиж болно.

di(X,Y) = 1 - \rn(X,Y)\, d2(X,Y) = 1 - \pn(X,Y)\, энд rn(X,Y) нь Пирсоны түүврийн шугаман корреляцийн коэффициент, pn(X, Y) - Спирманы түүврийн зэрэглэлийн корреляцийн коэффициент.

4. Олон хэмжээст масштаб.

Олон хэмжээст масштабын аргуудын өргөн хүрээтэй анги нь X ба Y шинж чанаруудын хоорондох зайг (ойролцооны хэмжүүр, ялгааны үзүүлэлтүүд) d (X, Y) ашиглахад суурилдаг. Энэ ангиллын аргын гол санаа нь объект бүрийг геометрийн орон зайн цэгээр (ихэвчлэн 1, 2 эсвэл 3 хэмжээст) дүрслэх явдал бөгөөд тэдгээрийн координатууд нь далд (далд) хүчин зүйлсийн утгууд юм. объектыг хангалттай дүрслэх. Энэ тохиолдолд объектуудын хоорондын харилцааг цэгүүдийн хоорондын харилцаа - тэдгээрийн төлөөлөгчөөр солино. Тиймээс объектуудын ижил төстэй байдлын талаархи өгөгдөл - цэгүүдийн хоорондох зай, давуу байдлын талаархи мэдээлэл - цэгүүдийн харилцан зохицуулалтаар.

5. Хүчин зүйлийн орон зайн бодит хэмжээсийг тооцох асуудал

Социологийн өгөгдлийн шинжилгээний практикт олон хэмжээст масштабын хэд хэдэн өөр өөр загваруудыг ашигладаг. Тэд бүгд хүчин зүйлийн орон зайн бодит хэмжээсийг тооцоолох асуудалтай тулгардаг. Метрийн масштабыг ашиглан объектуудын ижил төстэй байдлын талаархи өгөгдлийг боловсруулах жишээн дээр энэ асуудлыг авч үзье.

0(1), O(2), ..., O(n) n объект байг, 0(/), O(j) хос объект бүрийн хувьд s(ij) ижил төстэй байдлын хэмжүүр өгөгдсөн. Бид үргэлж s(i,j) = s(j,i) гэж үздэг. s(ij) тоонуудын гарал үүсэл нь алгоритмын үйлдлийн тайлбарт хамаагүй. Тэдгээрийг шууд хэмжилтээр, эсвэл мэргэжилтнүүдийн тусламжтайгаар, эсвэл тодорхойлсон шинж чанарын багцаас тооцоолох замаар эсвэл өөр аргаар олж авч болно.

Евклидийн орон зайд авч үзэж буй n объектыг n цэгийн тохиргоогоор илэрхийлэх ёстой ба Евклидийн зай d(i,j)

харгалзах цэгүүдийн хооронд. Объектуудын багц ба тэдгээрийг төлөөлсөн цэгүүдийн хоорондын харгалзах зэргийг ||i(,)|| ижил төстэй матрицуудыг харьцуулан тодорхойлно. ба зай НУМ-метрийн ижил төстэй функц нь хэлбэртэй байна

i = t|*(/, ]) - d(/, М

Функциональ S нь хамгийн бага утгад хүрэхийн тулд геометрийн тохиргоог сонгох ёстой.

Сэтгэгдэл. Метрийн бус масштабын хувьд ойрын болон зайны хэмжүүрүүдийн ойролцоо байхын оронд ойрын хэмжүүр болон харгалзах зайны багц дээрх дарааллын ойролцоо байдлыг харгалзан үздэг. Функциональ S-ийн оронд Спирман ба Кендалл зэрэглэлийн корреляцийн коэффициентүүдийн аналогийг ашигладаг. Өөрөөр хэлбэл, хэмжүүрийн бус масштаб нь ойрын хэмжигдэхүүнийг ординаль масштабаар хэмждэг гэж үздэг.

Евклидийн орон зайг m хэмжигдэхүүнтэй болгоё.Дундаж квадратын алдааны хамгийн бага хэмжээг авч үзье

Энд m хэмжээст Евклидийн орон зайд n цэгийн боломжит бүх тохиргоонд хамгийн бага хэмжээг авна. Зарим тохиргоонд хамгийн багадаа хүрсэн болохыг харуулж байна. m нэмэгдэхийн хэрээр am-ийн утга нэг хэвийн буурах нь тодорхой байна (илүү нарийвчлалтай, өсөхгүй). m > n - 1-ийн хувьд 0-тэй тэнцүү байна (хэрэв хэмжүүр бол). Утгатай тайлбар хийх боломжийг нэмэгдүүлэхийн тулд хамгийн бага хэмжээтэй орон зайд ажиллах нь зүйтэй. Гэхдээ энэ тохиолдолд цэгүүд нь том гажуудалгүйгээр объектуудыг илэрхийлэхийн тулд хэмжээсийг сонгох ёстой. Асуулт гарч ирдэг: орон зайн хэмжээг хэрхэн оновчтой сонгох вэ, i.e. натурал тоо t?

6. Өгөгдлийн орон зайн хэмжээг тооцоолох загвар, арга

Детерминист өгөгдлийн шинжилгээний хүрээнд энэ асуултад үндэслэлтэй хариулт байхгүй бололтой. Тиймээс тодорхой магадлалын загварт am-ийн зан төлөвийг судлах шаардлагатай байна. Хэрэв ойрын хэмжигдэхүүнүүд нь санамсаргүй хэмжигдэхүүнүүд бөгөөд тархалт нь "жинхэнэ хэмжээс" m0 (болон магадгүй бусад параметрүүдээс хамаарна) бол бид сонгодог математик-статистикийн хэв маягаар m0-ийг тооцоолох асуудлыг тавьж болно. тууштай тооцоолол гэх мэт.

Магадлалын загваруудыг бүтээж эхэлцгээе. Объектууд нь k хэмжигдэхүүнтэй Евклидийн орон зайд байгаа цэгүүд гэж бид таамаглаж байна, энд k хангалттай том байна. "Жинхэнэ хэмжээс" нь m0-тэй тэнцүү байна гэдэг нь эдгээр бүх цэгүүд m0 хэмжээст гипер хавтгай дээр байрладаг гэсэн үг юм. Харгалзан үзэж буй цэгүүдийн багц нь o(0) дисперстэй дугуй хэвийн тархалтын түүвэр гэж тодорхой бодъё. Энэ нь 0(1), 0(2), ..., O(n) объектууд нь бие биенээсээ хамааралгүй санамсаргүй векторууд бөгөөд тус бүр нь дараах байдлаар бүтээгдсэн гэсэн үг юм.

Z(1)e(1) + Z(2)e(2) + ... + Z(m0)e(m0), энд e(1), e(2), ... , e(m0) нь m0 хэмжээсийн дэд орон зай дахь ортонормаль суурь бөгөөд үүнд авч үзсэн цэгүүд оршдог ба Z(1), Z(2), , Z(m0) нь харилцан бие даасан нэг хэмжээст хэвийн санамсаргүй хэмжигдэхүүн бөгөөд математикийн хүлээлт 0 ба дисперс o. (0).

Ойролцоох хэмжүүр s(ij) авах хоёр загварыг авч үзье. Тэдгээрийн эхнийх нь s(ij) нь цэгүүд нь гажуудалтай мэдэгдэж байгаа тул харгалзах цэгүүдийн хоорондох Евклидийн зайнаас ялгаатай байна. c(1), c(2), ... , c(n) -ийг авч үзэж буй цэгүүд гэж үзье. Дараа нь

s(i,j) = d(c(i) + e(i), c(j) + s(/)), ij = 1, 2, ... , n,

Энд d нь d хэмжээст орон зайн цэгүүдийн хоорондох Евклидийн зай, e(1), e(2), ... , e(n) векторууд нь d хэмжээст орон зай дахь дугуй хэвийн тархалтаас авсан түүвэр юм. тэг математик хүлээлт ба ковариацын матриц o (1)/, энд I нь таних матриц юм. Өөрөөр хэлбэл,

e(0 = n(1)e(1) + P(2)e(2) + ... + u(k)v(k), энд e(1), e(2), ..., e(k) нь ^ хэмжээст орон зай дахь ортонормаль суурь бөгөөд [^^^), i = 1, 2, ... , n, ? =1, 2, ... , k) - нэг хэмжээст санамсаргүй хэмжигдэхүүнүүдийн багцад хамааралгүй, математикийн тэг хүлээлт ба дисперс o (1).

Хоёрдахь загварт гажуудал нь зайн дээр шууд ногдуулдаг.

Kch) = d(F\ SI)) + £(YX u = 1, 2 . , n, i f j,

хаана ба , эхний интервал дээр энэ нь хоёр дахь интервалаас хурдан буурдаг. Үүнээс үзэхэд статистик

м* = Арг минам+1 - 2цаг + ан-х)

m0-ийн бодит хэмжээсийн тогтвортой тооцоолол юм.

Тиймээс магадлалын онолын дагуу m*-ийг хүчин зүйлийн орон зайн хэмжээсийг тооцоолоход ашиглах зөвлөмж гарч ирэв. Ийм зөвлөмжийг олон хэмжээст масштабыг үндэслэгчдийн нэг Ж.Краскал эвристик байдлаар томъёолсныг анхаарна уу. Тэрээр олон хэмжээст масштаб, тооцооллын туршилтыг практикт ашиглах туршлагаас үндэслэсэн. Магадлалын онол нь энэхүү эвристик зөвлөмжийг батлах боломжийг олгосон.

7. Загварын хэмжээсийн тооцоолол

Хэрэв боломжит дэд олонлогууд нь өргөжиж буй гэр бүлийг бүрдүүлдэг бол, жишээлбэл, олон гишүүнтийн зэрэглэлийг тооцдог бол "загварын хэмжээ" гэсэн нэр томъёог нэвтрүүлэх нь зүйн хэрэг юм (энэ ойлголт нь олон талаараа мэдээллийн орон зайн хэмжигдэхүүнтэй төстэй юм. олон хэмжээст масштаб). Энэхүү нийтлэлийн зохиогч нь загварын хэмжээсийг тооцоолох хэд хэдэн бүтээлийг эзэмшдэг бөгөөд эдгээрийг дээр дурдсан мэдээллийн орон зайн хэмжээсийг тооцоолох ажилтай харьцуулах нь зүйтэй юм.

Эхний ийм ажлыг энэ өгүүллийн зохиогч 1976 онд Францад хийсэн бизнес аялалын үеэр хийсэн. Үүнд регрессийн загвар хэмжигдэхүүний нэг тооцоог, тухайлбал, олон гишүүнтийн зэрэглэлийн тооцоог судалсан болно. хамаарлыг олон гишүүнтээр тодорхойлно. Энэ тооцоог уран зохиолд мэддэг байсан боловч хожим нь энэ нийтлэлийн зохиогчийн буруутай холбоотой байсан бөгөөд тэрээр зөвхөн түүний шинж чанарыг судалж, ялангуяа энэ нь нийцэхгүй байгааг олж мэдээд, түүний хязгаарлагдмал геометрийн тархалтыг олсон байна. Регрессийн загварын хэмжигдэхүүний бусад, аль хэдийн тууштай тооцооллыг нийтлэлд санал болгож, судалсан болно. Энэ мөчлөгийг хэд хэдэн тодруулга агуулсан ажлаар дуусгасан.

Энэ сэдвээр хамгийн сүүлийн үеийн хэвлэлд Монте Карлогийн аргаар олж авсан хязгаарын теоремуудын нэгдэх хурдыг судалсны үр дүнгийн талаархи хэлэлцүүлгийг багтаасан болно.

Холимог хуваах асуудалд (ангилах онолын нэг хэсэг) загвар хэмжээсийн арга зүйн хувьд ижил төстэй тооцооллыг нийтлэлд авч үзсэн болно.

Дээр дурдсан олон хэмжээст масштабын загварчлалын хэмжигдэхүүний тооцоог уг бүтээлд судалсан болно. Үүнтэй ижил бүтээлүүдэд үндсэн бүрэлдэхүүн хэсгийн аргын шинж чанарыг хязгаарлах зан үйлийг тогтоосон (хэт статистикийн асуудлын шийдлүүдийн зан байдлын асимптотик онолыг ашиглан).

8. Автоматжуулсан системийн танин мэдэхүйн шинжилгээнд хэмжээсийг багасгах алгоритмууд

Системийн танин мэдэхүйн автоматжуулсан шинжилгээнд (ASC-анализ) хэмжээсийг багасгах өөр аргыг санал болгож, "Эйдос" системд хэрэгжүүлдэг. Үүнийг 4.2 "Системийн шинжилгээний үндсэн танин мэдэхүйн үйлдлүүдийн алгоритмын тайлбар (BCOSA)" ба 4.3 "BCOSA (ASC шинжилгээ)-ийн нарийвчилсан алгоритмууд" хэсэгт тайлбарласан болно. авчиръя Товч тодорхойлолтхоёр алгоритм - BKOSA-4.1 ба BKOSA-4.2.

BKOSA-4.1. "Хүчин зүйлийн хийсвэрлэл (хүчин зүйлийн семантик орон зайн хэмжээг багасгах)"

Өгөгдсөн хилийн нөхцлийн дагуу дараалсан ойртуулах аргыг (давталтын алгоритм) ашиглан шинж чанарын орон зайн хэмжээсийг түүний эзлэхүүнийг мэдэгдэхүйц бууруулахгүйгээр багасгадаг. Давтагдах үйл явцыг зогсоох шалгуур нь хилийн аль нэг нөхцлүүдэд хүрэх явдал юм.

BKOSA-4.2. "Ангиудыг хийсвэрлэх (ангиудын семантик орон зайн хэмжээг багасгах)"

Өгөгдсөн хилийн нөхцлийн дагуу дараалсан ойртуулах аргыг (давталтын алгоритм) ашиглан ангийн орон зайн хэмжээсийг түүний эзлэхүүнийг мэдэгдэхүйц бууруулахгүйгээр багасгадаг. Давтагдах үйл явцыг зогсоох шалгуур нь хилийн аль нэг нөхцлүүдэд хүрэх явдал юм.

Бэлтгэл ажил (2002) үед хэрэгжиж байсан хувилбарын Eidos системд хэрэгжсэн бүх бодит алгоритмууд энд байна: http://lc.kubagro.ru/aidos/aidos02/4.3.htm

Алгоритмуудын мөн чанар нь дараах байдалтай байна.

1. Объектыг ангиудад тохирох төлөвт шилжүүлэх тухай хүчин зүйлсийн утгын мэдээллийн хэмжээг тооцоолно.

2. Объектыг ангиудаар ялгахад хүчин зүйлийн утгын утгыг тооцоолно. Энэ утга нь зүгээр л хүчин зүйлийн утгуудын мэдээллийн байдлын хувьсах чанар юм (хувьсагчийн олон тооны тоон хэмжүүрүүд байдаг: дунджаас дундаж хазайлт, стандарт хазайлт гэх мэт). Өөрөөр хэлбэл, хүчин зүйлийн утга дунджаар тухайн объект ангид хамаарах эсэх талаар бага мэдээлэл агуулдаг бол энэ утга нь тийм ч үнэ цэнэтэй биш, харин их байвал үнэ цэнэтэй гэсэн үг юм.

3. Объектуудыг ангиллаар нь ялгах дүрслэх хуваарийн утгыг тооцоолно. E.V-ийн бүтээлүүдэд. Луценко одоо үүнийг энэ масштабын зэрэглэлийн утгын дундажаар хийж байна.

4. Дараа нь хүчин зүйлсийн утгууд ба тайлбарлах масштабын Парето оновчлолыг гүйцэтгэнэ.

Хүчин зүйлийн утгыг (тайлбарлах хуваарийн зэрэглэл) утгын буурах дарааллаар эрэмбэлж, 45 ° Парето муруй руу шүргэгч баруун талд байрлах хамгийн бага үнэ цэнийг загвараас хассан;

Хүчин зүйлсийг (дүрслэх хуваарь) үнэ цэнийн буурах дарааллаар эрэмбэлж, 45° Парето муруй руу шүргэгчийн баруун талд орох хамгийн бага үнэ цэнэтэй хүчин зүйлсийг загвараас хасна.

Үүний үр дүнд дүрсэлсэн масштаб дээр баригдсан орон зайн хэмжээс нь бие биентэйгээ хамааралтай масштабыг арилгасны улмаас мэдэгдэхүйц багасдаг. Үнэндээ энэ бол мэдээллийн хэмжүүр дэх орон зайн ортонормаци юм.

Энэ процессыг давтаж болно, i.e. давталттай байх, байхад шинэ хувилбар"Eidos" системийн давталтуудыг гараар эхлүүлдэг.

Ангиудын мэдээллийн орон зайг үүнтэй адилаар ортонормачилдаг.

Хуваарь ба тэдгээрийн зэрэглэл нь тоон байж болно (энэ тохиолдолд интервалын утгуудыг боловсруулдаг), мөн текст хэлбэртэй байж болно (дан эсвэл бүр нэрлэсэн).

Тиймээс BKOSA (ASK-analysis) алгоритмын тусламжтайгаар орон зайн хэмжээсийг аль болох багасгаж, мэдээллийн алдагдал багатай болгодог.

Хэрэглээний статистикийн статистик мэдээлэлд дүн шинжилгээ хийхэд зориулж өөр хэд хэдэн хэмжээстийг бууруулах алгоритмуудыг боловсруулсан. Энэ нийтлэлийн зорилгод ийм алгоритмуудын бүх төрлийн тайлбарыг оруулаагүй болно.

Уран зохиол

1. Орлов А.И. Статистикийн аргын өсөлтийн цэгүүд // Кубан улсын хөдөө аж ахуйн их сургуулийн политематик сүлжээ цахим шинжлэх ухааны сэтгүүл. 2014. No 103. P. 136-162.

2. Kraskal J. Олон хэмжээст масштаб ба кластер шинжилгээний хоорондын хамаарал // Ангилал ба кластер. М.: Мир, 1980. С.20-41.

4. Harman G. Modern хүчин зүйлийн шинжилгээ. М.: Статистик, 1972. 489 х.

5. Орлов А.И. Ангиллын онолын талаархи тэмдэглэл. / Социологи: арга зүй, арга зүй, математик загвар. 1991. No 2. С.28-50.

6. Орлов А.И. Ангиллын математикийн онолын үндсэн үр дүн // Кубан улсын хөдөө аж ахуйн их сургуулийн политематик сүлжээ цахим шинжлэх ухааны сэтгүүл. 2015. No 110. S. 219-239.

7. Орлов А.И. Ангилалын онолын математик аргууд // Кубан улсын хөдөө аж ахуйн их сургуулийн политематик сүлжээ цахим шинжлэх ухааны сэтгүүл. 2014. No 95. P. 23 - 45.

8. Терехина А.Ю. Олон хэмжээст масштабын аргаар өгөгдөлд дүн шинжилгээ хийх. -М.: Наука, 1986. 168 х.

9. Перекрест V. T. Нийгэм-эдийн засгийн мэдээллийн шугаман бус типологийн шинжилгээ: Математик ба тооцооллын аргууд. - Л.: Наука, 1983. 176 х.

10. Тюрин Ю.Н., Литвак Б.Г., Орлов А.И., Сатаров Г.А., Шмерлинг Д.С. Тоон бус мэдээллийн дүн шинжилгээ. М .: ЗХУ-ын ШУА-ийн "Кибернетикийн цогц асуудлын талаархи шинжлэх ухааны зөвлөл", 1981. - 80 х.

11. Орлов А.И. Тоон бус шинж чанартай объектуудын статистикийн талаархи ерөнхий үзэл бодол // Социологийн судалгаанд тоон бус мэдээллийн дүн шинжилгээ. - М.: Наука, 1985. С.58-92.

12. Орлов А.И. Регрессийн суурь функцүүдийн тооны нэг тооцооны тархалтыг хязгаарлах // Хэрэглээний олон хувьсагчийн статистикийн шинжилгээ. Статистикийн шинжлэх ухааны тэмдэглэл, v.33. - М.: Наука, 1978. С.380-381.

13. Орлов А.И. Регрессийн загвар хэмжээсийн тооцоо // Алгоритм ба програм хангамжхэрэглээний статистик шинжилгээ. Статистикийн шинжлэх ухааны тэмдэглэл, v.36. - М.: Наука, 1980. S. 92-99.

14. Орлов А.И. Регрессийн зарим загварын хэмжигдэхүүний асимптотик // Хэрэглээний статистик. Статистикийн шинжлэх ухааны тэмдэглэл, v.45. - М.: Наука, 1983. С.260-265.

15. Орлов А.И. Регрессийн олон гишүүнтийг тооцоолох тухай // Заводская лаборатори. материалын оношлогоо. 1994. V.60. No 5. P.43-47.

16. Орлов А.И. Ангиллын онолын зарим магадлалын асуултууд // Хэрэглээний статистик. Статистикийн шинжлэх ухааны тэмдэглэл, v.45. - М.: Наука, 1983. С.166-179.

17. Орлов А.И. Тоон бус объектын статистикийг боловсруулах тухай // Туршилтын загвар ба мэдээллийн дүн шинжилгээ: Шинэ чиг хандлага ба үр дүн. - М.: АНТАЛ, 1993. Р.52-90.

18. Орлов А.И. Хэмжээг багасгах аргууд // Номын 1-р хавсралт: Толстова Ю.Н. Олон хэмжээст масштабын үндэс: Зааварих дээд сургуулиудад зориулсан. - М .: KDU хэвлэлийн газар, 2006. - 160 х.

19. Орлов А.И. Экстремаль статистикийн асуудлын шийдлийн асимптотикууд // Системийн судалгаанд тоон бус мэдээллийн дүн шинжилгээ. Бүтээлийн цуглуулга. Асуудал. 10. - М .: Системийн судалгааны Бүх холбооны шинжлэх ухааны судалгааны хүрээлэн, 1982. S. 412.

20. Орлов А.И. Зохион байгуулалт, эдийн засгийн загварчлал: сурах бичиг: 3 цагт 1-р хэсэг: Тоон бус статистик. - М .: MSTU im-ийн хэвлэлийн газар. Н.Э. Бауман. - 2009. - 541 х.

21. Луценко Е.В. Идэвхтэй объектуудыг удирдахад автоматжуулсан систем-танин мэдэхүйн шинжилгээ (мэдээллийн системийн онол ба түүнийг эдийн засаг, нийгэм-сэтгэл зүй, технологи, зохион байгуулалт-техникийн системийг судлахад ашиглах): Монограф (шинжлэх ухааны хэвлэл). -Краснодар: КубГАУ. 2002. - 605 х. http://elibrary.ru/item.asp?id=18632909

1. Орлов А.И. Точки роста статистиких методов // Политематический сетевож жэлектронный научный журнал Кубанского государственного аграрного университета. 2014. No 103. S. 136-162.

2. Краскал Ж. Взаймосвжаз" между многомерным шкалированием и кластер-анализом // Классификация и кластер. М.: Мир, 1980. С.20-41.

3. Kruskal J.B., Wish M. Multidimensional scaling // Sage University paper series: Нийгмийн шинжлэх ухаан дахь чанарын хэрэглээ. 1978. № 11.

4. Harman G. Sovremennyj faktornyj analiz. М.: Статистика, 1972. 489 с.

5. Орлов А.И. Онолын ангиллын тэмдэглэл. / Социологи: арга зүй, арга зүй, математикийн загвар. 1991. No 2. С.28-50.

6. Орлов А.И. Базовые резул "таты математической теория классификации // Политематический сетевож электронный научный журнал Кубанского государственного аграрного университета. 2015. No 110. С. 219-239.

7. Орлов А.И. Математические методы теоре классификации // Политематический сетевож электронный научный журнал Кубанского государственного аграрного университета. 2014. No 95. S. 23 - 45.

8. Тэрэхина А.Жу. Анализ данных методами многомерного шкалированижа. - М.: Наука, 1986. 168 с.

9. Перекрест В.Т. Нийгмийн "но-жекономическийн мэдээлэл: Математические и вычислителя" аргачлал. - Л.: Наука, 1983. 176 с.

10. Tjurin J.N., Litvak B.G., Orlov A.I., Satarov G.A., Shmerling D.S. Анализ мэдээлэл. М.: Научный Совет АН СССР по комплексный проблемы "Кибернетика", 1981. - 80 с.

11. Орлов А.И. Obshhij vzgljad na statisticu ob#ektov nechislovoj prirody // Analiz nechislovoj informacii v sociologicheskih issledovanijah. - М.: Наука, 1985. С.58-92.

12. Орлов А.И. Предель "noe raspredelenie odnoj ocenki chisla bazisnyh funkcij v regressii // Прикладной многомерный статистикическиж анализ. Ученье записки по статистик, т.33. - М.: Наука, 1978. С.380-381.

13. Орлов А.И. Ocenka razmernosti model v regressii // Algoritmicheskoe i programmnoe obespechenie prikladnogo statisticheskogo analiz. Ученье записки по статистик, т.36. - М.: Наука, 1980. С.92-99.

14. Орлов А.И. Asimptotika nekotoryh ocenok razmernosti model v regressii // Прикладнажа статистика. Ученье записки по статистик, т.45. - М.: Наука, 1983. С.260-265.

15. Орлов А.И. Ob ocenivanii regressionnogo polinoma // Заводская лаборатори. Оношлогооны материал. 1994. Т.60. No 5. S.43-47.

16. Орлов А.И. Некоторие верожатность вопросы теория классификации // Прикладная статистика. Ученье записки по статистик, т.45. - М.: Наука, 1983. С.166-179.

17. Орлов А.И. Тоон бус объектын статистикийг боловсруулах тухай // Туршилтын загвар ба мэдээллийн дүн шинжилгээ: Шинэ чиг хандлага ба үр дүн. - М.: АНТАЛ, 1993. Р.52-90.

18. Орлов А.И. Методи snizhenija razmernosti // Приложение 1 к ном: Толстова Жу.Н. Основы многомерного шкалированижа: Учебное пособие для вузов. - М.: Издател "ство КДУ, 2006. - 160 с.

19. Орлов А.И. Asimptotika reshenij jekstremal "ных статистикческих задач // Анализ нечисловых данных в системных исследованиж. Сборник трудов. Вып.10. - М.: Всеожузный научно-иследовател" skij institutny issledovanij, 1942.- С.

20. Орлов А.И. Organizacionno-jekonomicheskoe modelrovanie: uchebnik: v 3 ch. Част" 1: Нечисловажа статистика. - М.: Изд-во МГТУ им. Н.Же. Баумана. - 2009. - 541 с.

21. Лученко Е.В. Автоматизацированный системно-когнитивный анализ в управлении активными об#эктами (системнажа теория информации и ее применение в исследований jekonomicheskih, social "no-psihologicheskih, tehnologicheskih i organizacionno-tehnicheskih (http://6-tehnologicheskih ). .ru/item.asp?id=18632909

Хэмжээг багасгах (Өгөгдөл багасгах)

IN аналитик технологиӨгөгдлийн хэмжээсийг багасгах нь өгөгдлийг дүн шинжилгээ хийх, тайлбарлахад хамгийн тохиромжтой хэлбэрт шилжүүлэх үйл явц гэж ойлгогддог. Ихэнхдээ энэ нь тэдний эзлэхүүнийг багасгах, ашигласан функцүүдийн тоо, тэдгээрийн утгын олон янз байдлыг багасгах замаар хийгддэг.

Шинжилгээнд хамрагдсан өгөгдөл нь судалж буй бизнесийн үйл явцын хамаарал, хэв маягийг муу тусгасан тохиолдолд ихэнхдээ бүрэн бус байдаг. Үүний шалтгаан нь ажиглалтын тоо хангалтгүй, объектын чухал шинж чанарыг тусгасан шинж тэмдгүүд байхгүй байж болно. Энэ тохиолдолд өгөгдлийг баяжуулах аргыг хэрэглэнэ.

Хэмжээг багасгах нь эсрэг тохиолдолд өгөгдөл илүүдэлтэй үед хэрэгжинэ. Шинжилгээний асуудлыг ижил түвшний үр ашиг, нарийвчлалтайгаар шийдэж болох боловч өгөгдлийн жижиг хэмжээсийг ашиглах үед илүүдэл үүсдэг. Энэ нь асуудлыг шийдвэрлэхэд зарцуулах цаг хугацаа, тооцооллын зардлыг багасгах, өгөгдөл, тэдгээрийн шинжилгээний үр дүнг хэрэглэгчдэд илүү ойлгомжтой, ойлгомжтой болгох боломжийг олгодог.

Бага хэмжээтэй түүвэр дээр харьцуулж болохуйц чанарын шийдлийг олж авах боломжтой бол өгөгдлийн ажиглалтын тоог бууруулж, тооцоолол, цаг хугацааны зардлыг бууруулна. Бүртгэлийн тоог бага зэрэг бууруулснаар тооцооллын цаг ихээхэн нэмэгдэхэд энэ нь ялангуяа өргөтгөх боломжгүй алгоритмуудын хувьд үнэн юм.

Асуудлыг чанарын хувьд шийдвэрлэхэд шаардлагатай мэдээлэл нь тодорхой дэд шинж чанаруудад агуулагдаж байгаа бөгөөд тэдгээрийг бүгдийг нь ашиглах шаардлагагүй бол функцүүдийн тоог багасгах нь зүйтэй юм. Энэ нь ялангуяа хамааралтай шинж чанаруудын хувьд үнэн юм. Жишээлбэл, "Нас", "Ажлын туршлага" гэсэн шинж чанарууд нь үндсэндээ ижил мэдээллийг агуулдаг тул тэдгээрийн аль нэгийг нь хасч болно.

Онцлогуудын тоог багасгах хамгийн үр дүнтэй арга бол хүчин зүйлийн шинжилгээ ба үндсэн бүрэлдэхүүн хэсгүүдийн шинжилгээ юм.

Онцлогын утгын олон янз байдлыг багасгах нь жишээлбэл, өгөгдлийн дүрслэлийн нарийвчлал хэт их байвал загварын чанарыг алдагдуулахгүйгээр бодит утгын оронд бүхэл тоон утгыг ашиглаж болно. Гэхдээ үүнтэй зэрэгцэн өгөгдөлд эзлэх санах ойн хэмжээ, тооцооллын зардал буурах болно.

Хэмжээст байдлын бууралтын үр дүнд олж авсан өгөгдлийн дэд багц нь асуудлыг өгөгдсөн нарийвчлалтайгаар шийдвэрлэхэд шаардлагатай хэмжээний мэдээллийг эх багцаас өвлөн авах ёстой бөгөөд өгөгдлийг багасгахад зарцуулсан тооцооллын болон цаг хугацааны зардал нь үүнээс олж авсан үр ашгийг бууруулж болохгүй.

Багасгасан багц өгөгдөл дээр суурилсан аналитик загвар нь анхны багц дээр бүтээгдсэн загвараас илүү боловсруулах, хэрэгжүүлэх, ойлгоход хялбар байх ёстой.

Хэмжээст байдлыг багасгах аргыг сонгох шийдвэр нь шийдэгдэж буй асуудлын онцлог, хүлээгдэж буй үр дүн, хязгаарлагдмал цаг хугацаа, тооцоолох нөөцийн талаархи априори мэдлэг дээр суурилдаг.



Ачааж байна...
Топ