Mi az adatbányászat. Adatbányászati technológia

Az OLAP rendszerek lehetőséget adnak az elemzőnek a hipotézisek tesztelésére az adatok elemzésekor, vagyis az elemző fő feladata hipotézisek generálása, amelyeket tudása és tapasztalata alapján old meg, azonban nem csak az ember rendelkezik tudással, hanem az elemzett felhalmozott adatok. Az ilyen ismereteket hatalmas mennyiségű információ tartalmazza, amelyet az ember önmagában nem képes feltárni. Ebben a tekintetben fennáll annak a lehetősége, hogy olyan hipotéziseket hagynak ki, amelyek jelentős előnyökkel járhatnak.

A "rejtett" tudás felderítésére speciális automatikus elemzési módszereket alkalmaznak, amelyek segítségével gyakorlatilag az információ "blokkjaiból" kell tudást kinyerni. Ehhez az irányhoz az „adatbányászat (DataMining)” vagy „adatbányászat” kifejezést rendelték.

A DataMiningnek számos definíciója létezik, amelyek kiegészítik egymást. Itt van néhány közülük.

A DataMining nem triviális és gyakorlatilag hasznos minták felfedezésének folyamata az adatbázisokban. (alapcsoport)

Az adatbányászat nagy mennyiségű adat kinyerésének, feltárásának és modellezésének folyamata, hogy korábban ismeretlen mintákat (mintákat) fedezzenek fel az üzleti előnyök elérése érdekében (SAS Institute)

A DataMining egy olyan folyamat, amelynek célja új jelentős összefüggések, minták és trendek felfedezése nagy mennyiségű tárolt adat átszűrésével mintafelismerő technikák, valamint statisztikai és matematikai módszerek alkalmazásával (GartnerGroup).

A DataMining egy „gép” (algoritmusok, mesterséges intelligencia eszközök) által végzett kutatás és felfedezés olyan rejtett tudás nyers adataiban,korábban ismeretlen, nem triviális, gyakorlatilag hasznos, értelmezhetőember. (A. Bargesyan "Technologies for Data elemzés")

Az adatbányászat az üzleti életről szóló hasznos ismeretek felfedezésének folyamata. (N.M. Abdikeev "KBA")

A felfedezhető tudás tulajdonságai

Tekintsük a feltárandó tudás tulajdonságait.

A tudásnak újnak, korábban ismeretlennek kell lennie. A felhasználó által már ismert tudás felfedezésére fordított erőfeszítés nem térül meg. Ezért az új, korábban ismeretlen tudás az, ami értékes.
A tudásnak nem triviálisnak kell lennie. Az elemzés eredményeinek nem nyilvánvalót, váratlant kell tükrözniükminták az adatokban, amelyek az úgynevezett rejtett tudást alkotják. Több elérhető eredmény egyszerű módokon(például szemrevételezéssel) nem indokolják a hatékony DataMining módszerek használatát.
A tudásnak gyakorlatilag hasznosnak kell lennie. A talált ismereteknek elegendően alkalmazhatónak kell lenniük, beleértve az új adatokat is magas fok megbízhatóság. A hasznosság abban rejlik, hogy ez a tudás némi haszonnal járhat az alkalmazásában.
A tudásnak hozzáférhetőnek kell lennie az emberi megértés számára. A talált mintáknak logikailag magyarázhatónak kell lenniük, különben fennáll annak a lehetősége, hogy véletlenszerűek. Emellett a feltárt tudást ember számára érthető formában kell bemutatni.

A DataMiningben modelleket használnak a megszerzett tudás reprezentálására. A modellek típusai a létrehozásuk módszerétől függenek. A leggyakoribbak a szabályok, a döntési fák, a klaszterek és a matematikai függvények.

Adatbányászati feladatok

Emlékezzünk vissza, hogy a DataMining technológia a minták fogalmán alapul, amelyek szabályszerűségek. Ezen szabad szem elől rejtett törvényszerűségek felfedezésének eredményeként a DataMining problémák megoldódnak. Különböző típusú minták, amelyek ember által olvasható formában is kifejezhetők, megfelelnek bizonyos DataMining feladatoknak.

Nincs egyetértés abban, hogy milyen feladatokat kell a DataMininghez rendelni. A legtöbb hiteles forrás a következőket sorolja fel: osztályozás,

klaszterezés, előrejelzés, asszociáció, vizualizáció, elemzés és felfedezés

eltérések, értékelés, kapcsolatok elemzése, lektorálás.

Az alábbi leírás célja, hogy áttekintést adjon a DataMining problémáiról, összehasonlítsunk néhányat, valamint bemutassam azokat a módszereket, amelyekkel ezeket a problémákat megoldják. A leggyakoribb DataMining feladatok az osztályozás, a klaszterezés, az asszociáció, az előrejelzés és a vizualizáció. Így a feladatok az előállított információ típusa szerint vannak felosztva, ez a DataMining feladatok legáltalánosabb osztályozása.

Osztályozás

Az objektumok vagy megfigyelések halmazának felosztása a priori adott csoportokra, úgynevezett osztályokra, amelyek mindegyikén belül feltételezzük, hogy hasonlóak egymáshoz, megközelítőleg azonos tulajdonságokkal és jellemzőkkel rendelkeznek. Ebben az esetben a megoldást az alapján kapjuk meg elemzés attribútum (jellemző) értékek.

Az osztályozás az egyik legfontosabb feladat adatbányászat . Be van alkalmazva marketing a hitelfelvevők hitelképességének felmérése során meghatározva vásárlói hűség, mintafelismerés , orvosi diagnosztika és sok más alkalmazás. Ha az elemző ismeri az egyes osztályok objektumainak tulajdonságait, akkor amikor egy új megfigyelés egy adott osztályhoz tartozik, ezek a tulajdonságok automatikusan érvényesek rá.

Ha az osztályok száma kettőre korlátozódik, akkorbináris osztályozás , amelyre számos összetettebb probléma redukálható. Például a "Magas", "Közepes" vagy "Alacsony" hitelkockázati fokozatok meghatározása helyett csak kettőt használhat: "Kiadás" vagy "Elutasítás".

A DataMiningben történő osztályozáshoz számos különböző modellt használnak: neurális hálózatok, döntési fák , támogatási vektor gépek, k-legközelebbi szomszédok, lefedettségi algoritmusok stb., amelyek felügyelt tanulással jönnek létre, amikorkimeneti változó(osztálycímke ) minden megfigyelésnél megadva. Formálisan az osztályozás a partíción alapuljellemző terek területeken, amelyek mindegyikén belültöbbdimenziós vektorok azonosnak tekintendők. Más szóval, ha egy objektum egy bizonyos osztályhoz tartozó térrégióba esett, akkor ahhoz tartozik.

Klaszterezés

Rövid leírás. A klaszterezés az ötlet logikus folytatása

osztályozás. Ez a feladat bonyolultabb, a klaszterezés sajátossága, hogy az objektumok osztályai kezdetben nincsenek előre meghatározottak. A klaszterezés eredménye az objektumok csoportokra osztása.

Példa egy klaszterezési probléma megoldási módszerére: speciális tanulás "tanár nélkül". neurális hálózatok- Kohonen önszerveződő térképek.

Egyesület (egyesületek)

Rövid leírás. Az asszociációs szabályok keresésének problémája során a minták között találunk kapcsolódó események az adatkészletben.

Az asszociáció és a két korábbi DataMining feladat között az a különbség, hogy a minták keresése nem az elemzett objektum tulajdonságain alapul, hanem több, egyidejűleg bekövetkező esemény között. Az asszociációs szabályok megtalálásának problémájának megoldására a legismertebb algoritmus az Apriori algoritmus.

Sorozat vagy szekvenciális asszociáció

Rövid leírás. A szekvencia lehetővé teszi a tranzakciók közötti időbeli minták megtalálását. A sorozat feladata hasonló az asszociációhoz, de célja, hogy ne egyidejűleg bekövetkező események, hanem időben összefüggő (vagyis bizonyos időintervallumban bekövetkező) események között mintázzon. Más szóval, a sorrendet az időben összefüggő események láncolatának nagy valószínűsége határozza meg. Valójában az asszociáció egy nulla időeltolódású sorozat speciális esete. Ezt a DataMining problémát szekvenciális minta problémának is nevezik.

Sorrend szabály: X esemény után egészen pontos idő Y esemény bekövetkezik.

Példa. A lakásvásárlás után a bérlők az esetek 60%-ában két héten belül hűtőt, két hónapon belül pedig az esetek 50%-ában tévét vásárolnak. A probléma megoldását széles körben alkalmazzák a marketingben és a menedzsmentben, például az ügyfél életciklusának kezelésében (CustomerLifecycleManagement).

Regresszió, előrejelzés (előrejelzés)

Rövid leírás. Az előrejelzési probléma megoldása eredményeként a múltbeli adatok jellemzői alapján megbecsülik a célszámszerű mutatók hiányzó vagy jövőbeli értékeit.

Az ilyen problémák megoldására széles körben alkalmazzák a matematikai statisztikai módszereket, a neurális hálózatokat stb.

További feladatok

Eltérések vagy kiugró értékek meghatározása (DeviationDetection), variancia- vagy kiugró elemzés

Rövid leírás. A probléma megoldásának célja az általános adathalmaztól leginkább eltérő adatok felderítése, elemzése, az úgynevezett jellegtelen minták azonosítása.

Becslés

A becslés feladata egy jellemző folytonos értékeinek előrejelzésére redukálódik.

Linkelemzés (LinkAnalysis)

Függőségek keresésének feladata egy adathalmazban.

Vizualizáció (vizualizáció, GraphMining)

A vizualizáció eredményeként az elemzett adatokról grafikus kép jön létre. A vizualizációs probléma megoldására grafikus módszerekkel mutatják be a minták jelenlétét az adatokban.

A vizualizációs technikák egyik példája az adatok 2D és 3D dimenziókban történő bemutatása.

Összegzés

A feladat, melynek célja az elemzett adathalmazból meghatározott objektumcsoportok leírása.

A fenti osztályozáshoz egészen közel áll a DataMining feladatok felosztása a következőkre: kutatás és felfedezés, előrejelzés és osztályozás, magyarázat és leírás.

Automatikus kutatás és felfedezés (ingyenes keresés)

Feladatpélda: új piaci szegmensek felfedezése.

A problémák ezen osztályának megoldására klaszterelemzési módszereket alkalmaznak.

Előrejelzés és osztályozás

Mintaprobléma: az eladások növekedésének előrejelzése a jelenlegi értékek alapján.

Módszerek: regresszió, neurális hálózatok, genetikai algoritmusok, döntési fák.

Az osztályozás és az előrejelzés feladatai az úgynevezett induktív modellezés egy csoportját alkotják, amely az elemzett objektum vagy rendszer vizsgálatát eredményezi. Ezen problémák megoldása során egy adatsor alapján a általános modell vagy egy hipotézis.

Magyarázat és leírás

Mintaprobléma: a vásárlók jellemzése demográfiai és vásárlási előzmények alapján.

Módszerek: döntési fák, szabályrendszerek, asszociációs szabályok, linkelemzés.

Ha az ügyfél jövedelme több mint 50 konvencionális egység, életkora pedig meghaladja a 30 évet, akkor az ügyfél osztálya az első.

Klaszterezés és osztályozás összehasonlítása

Jellegzetes	Osztályozás	Klaszterezés
A tanulás irányíthatósága	ellenőrzött	ellenőrizhetetlen
Stratégiák	Tanulás tanárral	Tanulás tanár nélkül
Osztálycímke jelenléte	Edzőkészlet felirattal kísérve az osztály, amelyhez tartozik megfigyelés	Osztálycímkék tanítása ismeretlen halmazok
Az osztályozás alapja	Az új adatok osztályozása az edzéskészlet alapján történik	Sok adatot adott erre a célra a létezés megállapítása osztályok vagy adatklaszterek

A DataMining hatókörei

Meg kell jegyezni, hogy ma a DataMining technológiát a legszélesebb körben használják üzleti problémák megoldására. Ennek oka talán az, hogy ebben az irányban a DataMining eszközök használatának megtérülése egyes források szerint akár 1000%-ot is elérhet, és a megvalósítás költségei gyorsan megtérülhetnek.

Részletesen megvizsgáljuk a DataMining technológia négy fő alkalmazását: a tudományt, az üzleti életet, a kormányzati kutatást és a webet.

üzleti feladatokat. Főbb területek: bank, pénzügy, biztosítás, CRM, gyártás, távközlés, e-kereskedelem, marketing, tőzsde és mások.

Kiad-e kölcsönt az ügyfélnek

Piaci szegmentáció

Új ügyfelek vonzása

Hitelkártya-csalás

A DataMining alkalmazása a állami szintű problémák megoldása. Főbb irányok: adóelkerülők felkutatása; jelenti a terrorizmus elleni küzdelemben.

A DataMining alkalmazása a tudományos kutatás . Főbb területek: orvostudomány, biológia, molekuláris genetika és géntechnológia, bioinformatika, csillagászat, alkalmazott kémia, drogfüggőség kutatás és mások.

A DataMining alkalmazása megoldásra Webes feladatok. Fő irányok: keresőmotorok (keresők), számlálók és mások.

E-kereskedelem

Az e-kereskedelem területén a DataMininget használják generálásra

Ez a besorolás lehetővé teszi a vállalatok számára, hogy azonosítsák az ügyfelek meghatározott csoportjait, és az ügyfelek azonosított érdekeinek és igényeinek megfelelően marketingpolitikákat hajtsanak végre. Az e-kereskedelemhez használt DataMining technológia szorosan kapcsolódik a WebMining technológiához.

A DataMining fő feladatai az ipari termelésben:

termelési helyzetek komplex rendszerelemzése;

· a termelési helyzetek alakulásának rövid és hosszú távú előrejelzése;

optimalizálási megoldások lehetőségeinek kidolgozása;

Egy termék minőségének előrejelzése bizonyos paraméterek függvényében

technológiai folyamat;

rejtett trendek és termelési fejlődési minták észlelése

folyamatok;

a termelési folyamatok fejlődési mintáinak előrejelzése;

rejtett befolyásoló tényezők kimutatása;

közötti korábban ismeretlen kapcsolatok felderítése és azonosítása

termelési paraméterek és befolyásoló tényezők;

a termelési folyamatok interakciós környezetének elemzése és előrejelzés

jellemzőiben bekövetkezett változások;

folyamatok;

elemzési eredmények megjelenítése, előzetes jelentések, projektek elkészítése

megvalósítható megoldások a lehetséges megvalósítások megbízhatóságára és hatékonyságára vonatkozó becslésekkel.

Marketing

A marketing területén a DataMininget széles körben használják.

Alapvető marketing kérdések "Mi eladó?", "Hogyan eladó?", "Ki az

fogyasztó?"

Az osztályozási és klaszterezési problémákról szóló előadásban részletesen bemutatásra kerül a klaszteranalízis alkalmazása marketing problémák megoldására, például fogyasztói szegmentációra.

A marketing problémák megoldásának másik elterjedt módszerei az asszociációs szabályok keresésének módszerei és algoritmusai.

Itt is sikeresen alkalmazzák az időbeli minták keresését.

Kiskereskedelem

A kiskereskedelemben, akárcsak a marketingben, alkalmazza:

Algoritmusok asszociációs szabályok keresésére (gyakran előforduló halmazok meghatározására

áruk, amelyeket a vásárlók egyidejűleg vásárolnak). Az ilyen szabályok azonosítása segít

árukat helyezzen el a kereskedési padlók polcain, áruvásárlási stratégiákat dolgozzon ki

és raktári elhelyezésük stb.

idősorok használata például annak meghatározására

a szükséges mennyiségű készlet a raktárban.

osztályozási és klaszterezési módszerek az ügyfelek csoportjainak vagy kategóriáinak azonosítására,

amelyek ismerete hozzájárul az áruk sikeres promóciójához.

Tőzsde

Az alábbiakban felsoroljuk azokat a tőzsdei problémákat, amelyek Data technológia segítségével megoldhatók

Bányászat: Pénzügyi eszközök és mutatók jövőbeli értékeinek előrejelzése

múltbeli értékek;

a pénzügyi trend (jövőbeni mozgási irány - növekedés, esés, lapos) előrejelzése

hangszer és erőssége (erős, közepesen erős stb.);

a piac, iparág, szektor klaszterszerkezetének egy adott halmaz szerinti allokációja

jellemzők;

· dinamikus vezérlés portfólió

volatilitás előrejelzés;

kockázatértékelés;

a válság kialakulásának és fejlődésének előrejelzése;

eszközök kiválasztása stb.

A fent leírt tevékenységi területeken túl a DataMining technológia a legkülönfélébb üzleti területeken alkalmazható, ahol adatelemzésre van szükség és bizonyos mennyiségű visszamenőleges információ halmozódott fel.

A DataMining alkalmazása CRM-ben

A DataMining egyik legígéretesebb alkalmazása ennek a technológiának az analitikus CRM-ben való alkalmazása.

CRM (Customer Relationship Management) - ügyfélkapcsolat-kezelés.

Nál nél megosztás ezek közül a technológiák közül a tudásbányászatot kombinálják az ügyféladatokból származó "pénzbányászattal".

A marketing és értékesítési osztályok munkájában fontos szempont a felkészülésa vevők holisztikus szemlélete, információik jellemzőiről, jellemzőiről, az ügyfélkör felépítéséről. A CRM az úgynevezett profilalkotást használjaügyfelek, teljes képet adva az ügyfelekkel kapcsolatos összes szükséges információról.

Az ügyfélprofilalkotás a következő összetevőket tartalmazza: vevőszegmentáció, vevői jövedelmezőség, vevőmegtartás, vevői válaszelemzés. Ezen komponensek mindegyike feltárható a DataMining segítségével, és ezek együttes elemzése profilalkotó komponensként olyan tudást eredményezhet, amelyet nem lehet az egyes jellemzőkből megszerezni.

webbányászat

A WebMining úgy fordítható, hogy "adatbányászat a weben". WebIntelligence vagy Web.

Az Intelligence készen áll arra, hogy "új fejezetet nyisson" az e-business gyors fejlődésében. Komoly és kritikus versenyelőny az e-kereskedelmi piacon, hogy az egyes látogatók érdeklődését és preferenciáit viselkedésük megfigyelésével meghatározhatjuk.

A WebMining rendszerek számos kérdésre adhatnak választ, például arra, hogy a látogatók közül ki a webáruház potenciális ügyfele, a webáruház mely vásárlói köre hozza a legtöbb bevételt, mi az érdeklődési köre egy-egy látogatónak vagy látogatói csoportnak.

Mód

A módszerek osztályozása

A módszereknek két csoportja van:

az átlagosan felhalmozott tapasztalatok felhasználásán alapuló statisztikai módszerek, amelyek visszamenőleges adatokban jelennek meg;
kibernetikai módszerek, köztük sok heterogén matematikai megközelítés.

Az ilyen osztályozás hátránya, hogy mind a statisztikai, mind a kibernetikai algoritmusok valamilyen módon a statisztikai tapasztalatok összehasonlítására támaszkodnak a jelenlegi helyzet megfigyelésének eredményeivel.

Az ilyen osztályozás előnye az értelmezési kényelem - a modern megközelítés matematikai eszközeinek leírására szolgál, amelyek a kezdeti (operatív és retrospektív) megfigyelések tömbjéből nyerik ki az ismereteket, pl. az adatbányászati feladatokban.

Nézzük meg közelebbről a fenti csoportokat.

Statisztikai módszerek Adatbányászat

Ezekben A módszerek négy egymással összefüggő szakaszból állnak:

a statisztikai adatok jellegének előzetes elemzése (stacionaritás, normalitás, függetlenség, homogenitás hipotéziseinek tesztelése, eloszlásfüggvény típusának, paramétereinek értékelése stb.);
linkek azonosítása és minták(lineáris és nemlineáris regresszióanalízis, korrelációanalízis stb.);
többváltozós statisztikai elemzés (lineáris és nemlineáris diszkriminanciaanalízis, klaszteranalízis, komponensanalízis, faktoranalízis satöbbi.);
dinamikus modellek és idősorok alapján előrejelzés.

A statisztikai módszerek arzenálja Az adatbányászat négy módszercsoportba sorolható:

A kiindulási adatok leíró elemzése és leírása.
Kapcsolatelemzés (korrelációs és regresszióanalízis, faktoranalízis, varianciaanalízis).
Többváltozós statisztikai elemzés (komponensanalízis, diszkriminanciaanalízis, többváltozós regresszióanalízis, kanonikus korrelációk stb.).
Idősor elemzés (dinamikus modellek és előrejelzés).

Kibernetikus adatbányászati módszerek

Az adatbányászat második iránya a számítógépes matematika gondolata és a mesterséges intelligencia elméletének alkalmazása által egyesített megközelítések összessége.

Ez a csoport a következő módszereket tartalmazza:

mesterséges neurális hálózatok (felismerés, klaszterezés, előrejelzés);
evolúciós programozás (beleértve az argumentumok csoportos elszámolási módszerének algoritmusait);
genetikai algoritmusok (optimalizálás);
asszociatív memória (analógok, prototípusok keresése);
zavaros logika;
döntési fák;
szakértői tudásfeldolgozó rendszerek.

klaszteranalízis

A klaszterezés célja meglévő struktúrák keresése.

A klaszterezés leíró eljárás, nem von le statisztikai következtetéseket, de lehetőséget ad feltáró elemzések lefolytatására, „az adatok szerkezetének” tanulmányozására.

Maga a „klaszter” fogalma kétértelműen definiált: minden tanulmánynak megvannak a maga „klaszterei”. A klaszter (klaszter) fogalmát „klaszternek”, „csomónak” fordítják. A fürt olyan objektumok csoportjaként írható le, amelyek közös tulajdonságokkal rendelkeznek.

A klaszternek két jellemzője van:

belső homogenitás;
külső szigetelés.

Az elemzők számos problémában felteszik azt a kérdést, hogyan lehet az adatokat vizuális struktúrákba rendezni, pl. taxonómiákat bővíteni.

Kezdetben a klaszterezést olyan tudományokban használták a legszélesebb körben, mint a biológia, az antropológia és a pszichológia. A klaszterezést a gazdasági adatok és jelenségek sajátosságai miatt hosszú ideje kevesen alkalmazták gazdasági problémák megoldására.

A klaszterek lehetnek nem átfedőek, vagy kizárólagosak (nem átfedő, kizárólagos) és egymást metszőek (átfedőek).

Megjegyzendő, hogy a különböző klaszterelemzési módszerek alkalmazásával különböző alakú klaszterek nyerhetők. Például "lánc" típusú klaszterek lehetségesek, amikor a klasztereket hosszú "láncok", megnyúlt klaszterek stb. képviselik, és egyes módszerek tetszőleges alakú klasztereket hozhatnak létre.

Különféle módszerek célozhatnak bizonyos méretű (pl. kicsi vagy nagy) klaszterek létrehozását, vagy különböző méretű klasztereket feltételezhetnek az adathalmazban. Egyes klaszterelemzési módszerek különösen érzékenyek a zajra vagy a kiugró értékekre, míg mások kevésbé. Különböző klaszterezési módszerek alkalmazásával eltérő eredményeket lehet kapni, ez normális, és egy adott algoritmus működésének sajátossága. Ezeket a jellemzőket figyelembe kell venni a klaszterezési módszer kiválasztásakor.

Adjunk rövid leírást a klaszterezés megközelítéseiről.

Adatparticionáláson alapuló algoritmusok (Partitioningalgorithms), beleértve ismétlődő:

objektumok felosztása k klaszterre;
objektumok iteratív újraelosztása a klaszterezés javítása érdekében.
Hierarchikus algoritmusok (Hierarchyalgoritms):
agglomeráció: minden objektum kezdetben egy klaszter, klaszterek,
egymással összekapcsolódva nagyobb klasztert alkotnak stb.

Az objektumok koncentrációján alapuló módszerek (sűrűség alapú módszerek):

az objektumok összekapcsolhatósága alapján;
figyelmen kívül hagyja a zajokat, tetszőleges alakú klasztereket találva.

Rács - módszerek (grid alapú módszerek):

objektumok kvantálása rácsszerkezetekben.

Modell módszerek (modell alapú):

a modell segítségével megtalálja az adatokhoz legjobban illeszkedő klasztereket.

Klaszteranalízis módszerei. iteratív módszerek.

Nagyszámú megfigyelés esetén a klaszteranalízis hierarchikus módszerei nem megfelelőek. Ilyen esetekben nem hierarchikus, felosztáson alapuló módszereket alkalmaznak, amelyek az eredeti sokaság felosztásának iteratív módszerei. A felosztási folyamat során új klaszterek jönnek létre, amíg a leállítási szabály teljesül.

Az ilyen nem hierarchikus klaszterezés egy adathalmaz bizonyos számú különálló klaszterre való felosztásából áll. Két megközelítés létezik. Az első a klaszterek határainak meghatározása a kiindulási adatok többdimenziós terében a legsűrűbb területekként, azaz. egy olyan klaszter meghatározása, ahol nagy a "pontok koncentrációja". A második megközelítés az objektumok közötti különbség mértékének minimalizálása

Algoritmus k-means (k-means)

A nem hierarchikus módszerek közül a legelterjedtebb a k-means algoritmus, más néven gyors klaszterelemzés. Teljes leírás algoritmus megtalálható Hartigan és Wong (1978) munkájában. A hierarchikus módszerekkel ellentétben, amelyek nem igényelnek előzetes feltételezéseket a klaszterek számáról, a módszer használatához szükség van egy hipotézisre a klaszterek legvalószínűbb számáról.

A k-mean algoritmus k klasztert épít fel, amelyek egymástól a lehető legtávolabb vannak. A k-means algoritmus által megoldott problémák fő típusa a klaszterek számával kapcsolatos feltételezések (hipotézisek) jelenléte, miközben ezeknek a lehető legkülönbözőbbeknek kell lenniük. A k szám kiválasztása lehet korábbi kutatások, elméleti megfontolások vagy megérzések alapján.

Az algoritmus általános gondolata: egy adott fix számú megfigyelési klasztert úgy hasonlítanak össze a klaszterekkel, hogy a klaszterben (minden változónál) a lehető legnagyobb mértékben eltérjenek az átlagok egymástól.

Az algoritmus leírása

1. Az objektumok kezdeti elosztása klaszterek szerint.

A k számot választjuk, és első lépésben ezeket a pontokat tekintjük a klaszterek „középpontjának”.
Minden klaszter egy központnak felel meg.

A kezdeti centroidok kiválasztása a következőképpen történhet:

k-megfigyelések kiválasztása a kezdeti távolság maximalizálása érdekében;
a k-megfigyelések véletlenszerű kiválasztása;
az első k-megfigyelések kiválasztása.

Ennek eredményeként minden objektum egy adott fürthöz van hozzárendelve.

2. Iteratív folyamat.

Kiszámítjuk a klaszterek középpontjait, amelyeket ezután és a továbbiakban a klaszterek koordinátaközépeinek tekintünk. Az objektumok újra elosztásra kerülnek.

A központok kiszámításának és az objektumok újraelosztásának folyamata mindaddig folytatódik, amíg az alábbi feltételek egyike teljesül:

a klaszterközpontok stabilizálódtak, i.e. minden megfigyelés abba a klaszterbe tartozik, amelyhez az aktuális iteráció előtt tartozott;
az iterációk száma megegyezik az iterációk maximális számával.

Az ábra egy példát mutat a k-közép algoritmus működésére, ha k egyenlő kettővel.

Példa a k-közép algoritmusra (k=2)

A klaszterek számának megválasztása összetett kérdés. Ha nincs feltételezés erről a számról, akkor ajánlatos 2 klasztert létrehozni, majd az eredményeket összehasonlítva 3, 4, 5 stb.

A klaszterezés minőségének ellenőrzése

A k-means módszerrel végzett klaszteranalízis eredményeinek megszerzése után ellenőrizni kell a klaszterezés helyességét (azaz értékelni kell, hogy a klaszterek miben térnek el egymástól).

Ehhez az egyes klaszterek átlagos értékeit kiszámítják. A jó klaszterezés minden méréshez, vagy legalábbis a legtöbb méréshez nagyon eltérő eszközöket eredményez.

A k-means algoritmus előnyei:

egyszerű használat;
a használat sebessége;
az algoritmus egyértelműsége és átláthatósága.

A k-means algoritmus hátrányai:

az algoritmus túl érzékeny a kiugró értékekre, amelyek torzíthatják az átlagot.

Lehetséges megoldás ez a probléma az algoritmus -k-medián algoritmus egy módosításának használata;

az algoritmus lassú lehet nagy adatbázisokon. A probléma lehetséges megoldása az adatmintavételezés.

Bayesi hálózatok

A valószínűségelméletben az információfüggőség fogalmát a feltételes függőség (vagy szigorúan: a feltételes függetlenség hiánya) modellezi, amely azt írja le, hogy hogyan változik meg bizonyos esemény kimenetelébe vetett bizalmunk, amikor új ismereteket szerezünk a tényekről, ha már tudtuk. néhány egyéb tény.

Kényelmes és intuitív az elemek közötti függőségek ábrázolása egy irányított útvonal segítségével, amely ezeket az elemeket összeköti egy gráfban. Ha az x és y elemek közötti kapcsolat nem közvetlen, és a harmadik z elemen keresztül valósul meg, akkor logikus, hogy az x és y közötti úton lesz egy z elem. Az ilyen közvetítő csomópontok "levágják" az x és y közötti függőséget, azaz. modellezni a köztük lévő feltételes függetlenség helyzetét a közvetlen befolyásoló tényezők ismert értékével.Ilyen modellező nyelvek a Bayes-hálózatok, amelyek egy bizonyos témakör fogalmai közötti feltételes függőségek leírására szolgálnak.

A Bayes-hálózatok olyan grafikus struktúrák, amelyek nagyszámú változó közötti valószínűségi kapcsolatokat ábrázolnak, és ezeken a változókon alapuló valószínűségi következtetéseket hajtanak végre.A „naiv" (bayesi) osztályozás meglehetősen átlátható és érthető osztályozási módszer. „Naiv"-nak nevezik, mert a kölcsönösség feltételezéséből indul ki.jellemző függetlenség.

Osztályozási tulajdonságok:

1. Az összes változó használata és a köztük lévő összes függőség meghatározása.

2. Két feltételezés a változókkal kapcsolatban:

minden változó egyformán fontos;
minden változó statisztikailag független, azaz. Az egyik változó értéke semmit sem mond a másik értékéről.

A Bayes-hálózatok használatának két fő forgatókönyve van:

1. Leíró elemzés. A témakör grafikonként jelenik meg, melynek csomópontjai fogalmakat, a nyilakkal megjelenített irányított ívek pedig e fogalmak közötti közvetlen kapcsolatokat szemléltetik. Az x és y közötti kapcsolat azt jelenti, hogy az x értékének ismerete segít jobban kitalálni y értékét. A fogalmak közötti közvetlen kapcsolat hiánya modellezi a köztük lévő feltételes függetlenséget, tekintettel egy bizonyos "elválasztó" fogalmak ismert értékeire. Például a gyermek cipőmérete nyilvánvalóan összefügg a gyermek olvasási képességével az életkorban. Így a nagyobb cipőméret nagyobb magabiztosságot ad abban, hogy a gyerek már olvas, de ha már ismerjük az életkort, akkor a cipőméret ismerete már nem ad nekünk további információ a gyermek olvasási képességéről.

Egy másik, ellentétes példaként vegyük figyelembe az olyan kezdetben független tényezőket, mint a dohányzás és a megfázás. De ha ismerünk egy tünetet, például azt, hogy egy személy reggeli köhögéstől szenved, akkor annak tudata, hogy valaki nem dohányzik, növeli a bizalmunkat, hogy az ember megfázott.

2. Osztályozás és előrejelzés. A Bayes-hálózat, amely lehetővé teszi számos fogalom feltételes függetlenségét, lehetővé teszi a közös eloszlási paraméterek számának csökkentését, lehetővé téve azok megbízható becslését a rendelkezésre álló adatmennyiségek alapján. Tehát 10 változónál, amelyek mindegyike 10 értéket vehet fel, a közös eloszlási paraméterek száma 10 milliárd - 1. Ha feltételezzük, hogy ezek között a változók között csak 2 változó függ egymástól, akkor a paraméterek száma 8 * ( 10-1) + (10 * 10-1) = 171. A számítási erőforrások szempontjából reális közös eloszlási modell birtokában megjósolhatjuk például egy fogalom ismeretlen értékét, mint ennek legvalószínűbb értékét. koncepció más fogalmak ismert értékeivel.

Megjegyzik a Bayes-hálózatok, mint a DataMining módszer előnyeit:

A modellben az összes változó közötti függőség definiálva van, így egyszerűkezelni azokat a helyzeteket, amelyekben egyes változók értéke ismeretlen;

A Bayes-hálózatokat meglehetősen egyszerűen értelmezik, és lehetővé teszik a szakaszbana prediktív modellezéssel könnyen elvégezhető a „mi lenne, ha” forgatókönyv elemzése;

A Bayes-módszer lehetővé teszi a minták természetes kombinálását,adatokból és például kifejezetten megszerzett szakértői tudásból származnak;

A Bayes-hálózatok használatával elkerülhető a túlillesztés problémája(overfitting), vagyis a modell túlzott bonyolítása, ami gyengeségszámos módszer (például döntési fák és neurális hálózatok).

A naiv bayesi megközelítésnek a következő hátrányai vannak:

A feltételes valószínűségek szorzása csak akkor helyes, ha minden bemeneta változók valóban statisztikailag függetlenek; bár ez a módszer gyakranelég jó eredményeket mutat, ha a statisztika állapotafüggetlenség, de elméletileg egy ilyen helyzetet összetettebben kellene kezelnia Bayes-hálózatok képzésén alapuló módszerek;

A folytonos változók közvetlen feldolgozása lehetetlen – szükségesekátalakítás intervallumskálára, hogy az attribútumok diszkrétek legyenek; azonban olyanaz átalakulások néha az értelmes minták elvesztéséhez vezethetnek;

Az osztályozás eredményét a naiv bayesi megközelítésben csak az befolyásoljabemeneti változók egyedi értékei, párok együttes hatása illitt nem vesszük figyelembe a különböző attribútumok értékhármasait. Ez javíthataz osztályozási modell minősége prediktív pontossága szempontjából,azonban növelné a tesztelt változatok számát.

Mesterséges idegi hálózat

A mesterséges neurális hálózatok (a továbbiakban: neurális hálózatok) lehetnek szinkronok és aszinkronok.Szinkron neurális hálózatokban minden időpillanatban csak egy neuron. Aszinkronban - az állapot azonnal megváltozik a neuronok egész csoportjában, általában mindennél réteg. Két alapvető architektúra különböztethető meg - réteges és teljesen összekapcsolt hálózatok.A réteges hálózatok kulcsfogalma a réteg fogalma.Réteg - egy vagy több neuron, amelyek bemenetei ugyanazzal a közös jellel vannak ellátva.A réteges neurális hálózatok olyan neurális hálózatok, amelyekben a neuronok külön csoportokra (rétegekre) vannak osztva, így az információfeldolgozás rétegekben történik.A réteges hálózatokban az i-edik réteg neuronjai bemenő jeleket kapnak, átalakítják, majd az elágazási pontokon keresztül továbbítják a réteg neuronjaihoz (i + 1). És így tovább a k-edik rétegig, ami adkimeneti jelek a tolmács és a felhasználó számára. Az egyes rétegekben lévő neuronok száma nem függ össze a többi rétegben lévő neuronok számával, tetszőleges lehet.Egy rétegen belül az adatok feldolgozása párhuzamosan történik, a teljes hálózaton pedig szekvenciálisan – rétegről rétegre – történik a feldolgozás. A réteges neurális hálózatok közé tartoznak például a többrétegű perceptronok, a radiális bázisfüggvények hálózatai, a kognitron, a nonkognitron, az asszociatív memóriahálózatok.A jel azonban nem mindig vonatkozik a réteg minden neuronjára. Egy kognitronban például az aktuális réteg minden neuronja csak az előző rétegben hozzá közeli neuronoktól kap jeleket.

A réteges hálózatok pedig lehetnek egyrétegűek és többrétegűek.

Egyrétegű hálózat- egy rétegből álló hálózat.

Többrétegű hálózat- több rétegű hálózat.

Egy többrétegű hálózatban az első réteget bemeneti rétegnek, a következő rétegeket belsőnek vagy rejtettnek, az utolsó réteget pedig kimeneti rétegnek nevezik. Így a köztes rétegek egy többrétegű neurális hálózat összes rétege, kivéve a bemenetet és a kimenetet.A hálózat bemeneti rétege valósítja meg a kapcsolatot a bemeneti adatokkal, a kimeneti réteg - a kimenettel.Így a neuronok lehetnek bemeneti, kimeneti és rejtett.A bemeneti réteg bemeneti neuronokból szerveződik, amelyek adatokat fogadnak, és elosztják azokat a hálózat rejtett rétegében lévő neuronok bemenetei között.A rejtett neuron egy olyan neuron, amely benne található rejtett réteg neurális hálózat.A kimeneti neuronok, amelyekből a hálózat kimeneti rétege szerveződik, termelneka neurális hálózat eredményei.

Teljesen összekapcsolt hálózatokban minden neuron továbbítja kimenő jelét a többi neuronnak, beleértve önmagát is. A hálózat kimenőjelei lehetnek a neuronok kimenőjelei, vagy azok egy része a hálózat több órajelciklusa után.

Minden bemeneti jel az összes neuronba kerül.

Neurális hálózatok képzése

A neurális hálózat használata előtt betanítani kell.A neurális hálózat tanulási folyamata abból áll, hogy belső paramétereit egy adott feladathoz igazítja.A neurális hálózat algoritmusa iteratív, lépéseit korszakoknak vagy ciklusoknak nevezzük.Epocha - egy iteráció a tanulási folyamatban, beleértve az összes példa bemutatását a betanítási készletből, és esetleg a képzés minőségének ellenőrzését a vezérlőn készlet. A tanulási folyamat az oktatókészleten történik.A betanítási minta tartalmazza a bemeneti értékeket és a hozzájuk tartozó kimeneti értékeket az adatkészletből. A képzés során a neurális háló megtalálja a kimeneti mezők bizonyos függőségét a bemeneti mezőktől.Így azzal a kérdéssel állunk szemben, hogy milyen beviteli mezőkre (szolgáltatásokra) van szükségünkhasználatához szükséges. Kezdetben a választás heurisztikusan történik, majda bemenetek száma módosítható.

A komplexitás felveheti az adathalmazban található megfigyelések számának kérdését. És bár vannak szabályok, amelyek leírják a szükséges megfigyelések száma és a hálózat mérete közötti összefüggést, ezek helyessége nem bizonyított.A szükséges megfigyelések száma a megoldandó probléma összetettségétől függ. A jellemzők számának növekedésével a megfigyelések száma nem lineárisan növekszik, ezt a problémát a "dimenzionalitás átkának" nevezik. Elégtelen mennyiséggeladatok, lineáris modell használata javasolt.

Az elemzőnek meg kell határoznia a hálózat rétegeinek számát és az egyes rétegekben lévő neuronok számát.Ezután olyan súlyozási és torzítási értékeket kell hozzárendelnie, amelyek képesekminimalizálja a döntési hibákat. A súlyok és a torzítások automatikusan úgy vannak beállítva, hogy minimálisra csökkentsék a kívánt és a kimeneti jelek közötti különbséget, amit edzéshibának nevezünk.A felépített neurális hálózat tanulási hibáját összehasonlítással számítjuk kikimeneti és cél (kívánt) értékek. A kapott különbségekből alakul ki a hibafüggvény.

A hibafüggvény egy célfüggvény, amelyet minimálisra kell csökkenteni a folyamat soránirányított neurális hálózati tanulás.A hibafüggvény segítségével kiértékelheti a neurális hálózat minőségét a képzés során. Például gyakran használják a hibák négyzetes összegét.A kiosztott feladatok megoldásának képessége a neurális hálózatok képzésének minőségétől függ.

Neurális hálózat átképzése

A neurális hálózatok képzése során gyakran felmerül egy komoly nehézség, úntúlillesztési probléma.Túlillesztés, vagy túlillesztés - túlillesztésa neurális hálózatot a képzési példák egy meghatározott halmazához, amelyben a hálózat veszítáltalánosító képesség.A túlméretezés akkor fordul elő, ha az edzés túl hosszú, de nem elégképzési példák vagy túlbonyolított neurális hálózati struktúra.Overfitting annak a ténynek köszönhető, hogy a választás a képzés (képzés) megvéletlenszerű. Az edzés első lépéseitől kezdve a hiba csökken. Továbbtovábbi lépéseket a hiba (objektív függvény) paramétereinek csökkentése érdekébenaz edzéskészlet jellemzőihez igazítva. Ez azonban megtörténik"igazítás" nem a sorozat általános mintáihoz, hanem a rész jellemzőihez -képzési részhalmaz. Ebben az esetben az előrejelzés pontossága csökken.A hálózati átképzés kezelésének egyik lehetősége a képzési minta két részre osztásakészletek (képzés és teszt).Az oktatókészleten a neurális hálózat betanítása történik. A tesztkészleten a megépített modellt ellenőrzik. Ezek a halmazok nem metszhetik egymást.A modell paraméterei minden lépésnél változnak, de állandó csökkenésa célfüggvény értéke pontosan a képzési halmazon fordul elő. A halmaz két részre bontásakor a teszthalmaz előrejelzési hibájának változását figyelhetjük meg párhuzamosan a gyakorlóhalmaz megfigyeléseivel. Néhányaz előrejelzési hibalépések száma mindkét halmazon csökken. Azonban továbbegy bizonyos lépésnél a tesztkészlet hibája növekedni kezd, míg a tanítókészlet hibája tovább csökken. Ezt a pillanatot tekintik az átképzés kezdetének.

Adatbányászati eszközök

A globális szoftverpiac DataMining szektorában a fejlődést világhírű vezetők és új feltörekvő cégek egyaránt foglalkoztatják. A DataMining eszközök önálló alkalmazásként vagy a fő termék kiegészítőjeként is bemutathatók.Ez utóbbi lehetőséget számos szoftverpiaci vezető valósítja meg.Így már hagyománnyá vált, hogy az univerzális statisztikai csomagok fejlesztői a hagyományos statisztikai elemzési módszerek mellett a csomagba beépítika DataMining metódusok bizonyos halmaza. Ezek olyan csomagok, mint SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Egyes OLAP-megoldások fejlesztői egy sor DataMining technikát is kínálnak, például a Cognos termékcsaládot. Vannak olyan szolgáltatók, amelyek a DataMining megoldásokat is beépítik a DBMS funkciói közé: ezek a Microsoft (MicrosoftSQLServer), az Oracle, az IBM (IBMintelligentMinerforData).

Bibliográfia

Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Üzleti folyamatok újratervezése. MBA tanfolyam”, Moszkva: Eksmo Kiadó, 2005. - 592 p. - (MBA)

Abdikeev N.M., Kiselev A.D. "Tudásmenedzsment a vállalatokban és az üzleti újratervezés" - M.: Infra-M, 2011.- 382 p. – ISBN 978-5-16-004300-5

Barseghyan A.A., Kupriyanov M.S., Stepanenko V.V., Holod I.I. "Az adatelemzés módszerei és modelljei: OLAP és adatbányászat", St. Petersburg: BHV-Petersburg, 2004, 336 pp., ISBN 5-94157-522-X

Herceg BAN BEN., Samoilenko A., "Adatbányászat.„SPb: Piter, 2001, 386s.

Chubukova I.A., Adatbányászati tanfolyam, http://www.intuit.ru/department/database/datamining/

IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Adatbányászat: Gyakorlati gépi tanulási eszközök és technikák (harmadik kiadás), ISBN 978-0-12-374856-0

Petrushin V.A. , Khan L., Multimédiás adatbányászat és tudásfeltárás

Adatbányászat

Az adatbányászat olyan módszer és folyamat, amellyel nagy mennyiségű, felhalmozódó adatot lehet felfedezni információs rendszerek korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető vállalatok az emberi tevékenység különböző területein történő döntéshozatalhoz szükséges ismeretek értelmezéséhez. Az adatbányászat a nagyobb tudásfeltárás az adatbázisokban módszertan egyik szakasza.

Az adatbányászat során feltárt tudásnak nem triviálisnak és korábban ismeretlennek kell lennie. A nem trivialitás azt sugallja, hogy az ilyen tudás nem fedezhető fel egyszerű vizuális elemzéssel. Le kell írniuk az üzleti objektumok tulajdonságai közötti kapcsolatokat, meg kell jósolniuk egyes jellemzők értékeit mások alapján stb. A megtalált tudást új tárgyakra kell alkalmazni.

Az ismeretek gyakorlati hasznosságát az örökbefogadást támogató folyamatban való felhasználásuk lehetősége adja vezetői döntések valamint a cég tevékenységének javítása.

A tudást a speciális matematikai képzettséggel nem rendelkező felhasználók számára érthető formában kell bemutatni. Például a „ha, akkor” logikai konstrukciókat az ember legkönnyebben érzékeli. Ezenkívül az ilyen szabályok különféle DBMS-ekben használhatók SQL-lekérdezésekként. Abban az esetben, ha a kinyert tudás nem átlátható a felhasználó számára, olyan utófeldolgozási módszereket kell alkalmazni, amelyek lehetővé teszik azok értelmezhető formába hozását.

Az adatbányászat nem egy, hanem számos különböző tudásfeltárási módszer kombinációja. Minden adatbányászati módszerrel megoldott feladat feltételesen hat típusra osztható:

Az adatbányászat multidiszciplináris jellegű, hiszen magában foglalja a numerikus módszerek, a matematikai statisztika és valószínűségszámítás, az információelmélet és a matematikai logika, a mesterséges intelligencia és a gépi tanulás elemeit.

Az üzleti elemzés feladatai többféleképpen fogalmazódnak meg, de legtöbbjük megoldása egyik-másik adatbányászati feladaton vagy ezek kombinációján múlik. Például a kockázatértékelés egy regressziós vagy osztályozási probléma megoldása, a piaci szegmentáció klaszterezés, a kereslet-ösztönzés az asszociációs szabályok. Valójában az adatbányászati feladatok olyan elemek, amelyekből a legtöbb valós üzleti probléma megoldását "összeállíthatja".

A fenti problémák megoldására az adatbányászat különféle módszereit és algoritmusait alkalmazzák. Tekintettel arra, hogy az adatbányászat olyan tudományágak metszéspontjában fejlődött és fejlődik, mint pl matematikai statisztika, információelmélet, gépi tanulás és adatbázisok, teljesen természetes, hogy az adatbányászat algoritmusainak és módszereinek többségét ezekből a tudományágakból származó különféle módszerek alapján fejlesztették ki. Például a k-means klaszterezési algoritmust a statisztikákból kölcsönöztük.

Üdvözöljük az Adatbányászati Portálon – egy egyedülálló portálon, amely a modern adatbányászati módszereknek szentelt.

Az adatbányászati technológiák a modern üzleti intelligencia és adatbányászat hatékony eszközei a rejtett minták felfedezésére és a prediktív modellek felépítésére. Az adatbányászat vagy a tudásbányászat nem spekulatív érvelésen alapul, hanem valós adatokon.

Rizs. 1. Az adatbányászat alkalmazási vázlata

Problémameghatározás - Probléma meghatározása: adatok osztályozása, szegmentálás, prediktív modellek felépítése, előrejelzés.
Adatgyűjtés és -előkészítés - Adatgyűjtés és -előkészítés, tisztítás, ellenőrzés, ismétlődő rekordok eltávolítása.
Modellkészítés – Modell készítés, pontosság felmérése.
Knowledge Deployment - A modell alkalmazása a probléma megoldására.

Az adatbányászatot nagyszabású elemzési projektek megvalósítására használják az üzleti élet, a marketing, az internet, a telekommunikáció, az ipar, a geológia, az orvostudomány, a gyógyszeripar és más területeken.

Az adatbányászat lehetővé teszi, hogy elindítsa a jelentős összefüggések és kapcsolatok felkutatásának folyamatát a hatalmas mennyiségű adat átvizsgálása következtében. modern módszerek mintafelismerés és egyedi alkalmazása elemző technológiák, beleértve a döntési és osztályozási fákat, a klaszterezést, a neurális hálózati módszereket és másokat.

Az adatbányászati technológiát először felfedező felhasználót lenyűgözi a rengeteg módszer és hatékony algoritmus, amelyek lehetővé teszik, hogy megoldásokat találjanak a nagy mennyiségű adat elemzésével kapcsolatos bonyolult problémák megoldására.

Általánosságban az adatbányászat olyan technológiaként írható le, amelyet nagy mennyiségű adat keresésére terveztek. nem nyilvánvaló, célkitűzésés gyakorlatilag hasznos minták.

Az adatbányászat hatékony módszereken és algoritmusokon alapul, amelyeket nagy volumenű és méretű strukturálatlan adatok elemzésére fejlesztettek ki.

A lényeg az, hogy a nagy volumenű és nagy dimenziójú adatok struktúrától és összefüggésektől mentesnek tűnnek. Az adatbányászati technológia célja, hogy azonosítsa ezeket a struktúrákat, és olyan mintákat találjon, ahol első pillantásra káosz és önkény uralkodik.

Itt van egy tényleges példa az adatbányászat alkalmazására a gyógyszeriparban és a gyógyszeriparban.

A kábítószer-kölcsönhatások egyre nagyobb problémát jelentenek a modern egészségügyben.

Idővel növekszik a felírt gyógyszerek (recept nélkül és mindenféle kiegészítők) száma, így egyre valószínűbb, hogy a gyógyszerek közötti kölcsönhatások olyan súlyos mellékhatásokat okozhatnak, amelyekről az orvosok és a betegek nem is tudnak.

Ez a terület a posztklinikai vizsgálatokra vonatkozik, amikor a gyógyszer már forgalomban van, és széles körben használják.

A klinikai vizsgálatok a gyógyszer hatékonyságának értékelésére vonatkoznak, de rosszul veszik figyelembe ennek a gyógyszernek a kölcsönhatásait a piacon lévő más gyógyszerekkel.

A kaliforniai Stanford Egyetem kutatói az FDA (Food and Drug Administration) gyógyszermellékhatások adatbázisát tanulmányozták, és megállapították, hogy két gyakran használt gyógyszer – az antidepresszáns paroxetin és a koleszterinszint csökkentésére használt pravasztatin – együtt szedve növeli a cukorbetegség kialakulásának kockázatát.

Egy hasonló, az FDA adatain alapuló elemzési tanulmány 47 korábban ismeretlen káros interakciót azonosított.

Ez figyelemre méltó, azzal a kitétellel, hogy a betegek által észlelt negatív hatások közül sok nem észlelhető. Ebben az esetben a hálózati keresés képes a legjobban megmutatni magát.

Közelgő adatbányászati tanfolyamok a StatSoft Adatelemző Akadémián 2020-ban

Az Adatbányászattal való ismerkedésünket az Adatelemző Akadémia csodálatos videóival kezdjük.

Feltétlenül nézze meg videóinkat, és megérti, mi az adatbányászat!

Videó 1. Mi az adatbányászat?

2. videó: Az adatbányászat áttekintése: döntési fák, általános prediktív modellek, klaszterezés és egyebek

A JavaScript le van tiltva a böngészőjében

Egy kutatási projekt megkezdése előtt meg kell szerveznünk a külső forrásokból származó adatok beszerzésének folyamatát, most megmutatjuk, hogyan történik ez.

A videó bemutatja az egyedülálló technológiát STATISZTIKA Helyi adatbázis-feldolgozás és Data Mining kapcsolat valós adatokkal.

Videó 3. Az adatbázisokkal való interakció sorrendje: grafikus felület SQL lekérdezések készítéséhez Helyi adatbázis-feldolgozási technológia

A JavaScript le van tiltva a böngészőjében

Most megismerkedünk azokkal az interaktív fúrási technológiákkal, amelyek hatékonyak a feltáró adatelemzésben. Maga a fúrás kifejezés az adatbányászati technológia és a geológiai feltárás közötti kapcsolatot tükrözi.

4. videó: Interaktív fúrás: Feltárási és ábrázolási módszerek az interaktív adatfeltáráshoz

A JavaScript le van tiltva a böngészőjében

Most megismerkedünk az asszociációk elemzésével (asszociációs szabályok), ezek az algoritmusok lehetővé teszik a valós adatokban létező kapcsolatok megtalálását. A kulcspont az algoritmusok hatékonysága nagy mennyiségű adat esetén.

A linkelemző algoritmusok, például az Apriori algoritmus eredménye az, hogy a vizsgált objektumok linkjeinek szabályait egy adott, például 80%-os megbízhatósággal találják meg.

A geológiában ezek az algoritmusok alkalmazhatók ásványok kutatási elemzésére, például arra, hogy az A jellemző hogyan kapcsolódik a B és C tulajdonságokhoz.

megtalálhatod konkrét példák ilyen megoldások a linkjeinken:

A kiskereskedelemben az Apriori algoritmusok vagy azok módosításai lehetővé teszik a különböző termékek kapcsolatának feltárását, például parfümök (parfüm - lakk - szempillaspirál stb.) vagy különböző márkájú termékek értékesítése során.

Az oldal legérdekesebb szakaszainak elemzése asszociációs szabályok segítségével is hatékonyan elvégezhető.

Tehát nézze meg következő videónkat.

Videó 5. Egyesületi szabályzat

A JavaScript le van tiltva a böngészőjében

Adjunk példákat az adatbányászat konkrét területeken történő alkalmazására.

Internetes kereskedés:

a vásárlói pályák elemzése a helyszín látogatásától az áruvásárlásig
szolgáltatás hatékonyságának értékelése, áruhiány miatti meghibásodások elemzése
a látogatók érdeklődésére számot tartó termékek összekapcsolása

Kiskereskedelem: Vevői információk elemzése alapján bankkártyák, kedvezménykártyák stb.

Az adatbányászati eszközökkel megoldott tipikus kiskereskedelmi feladatok:

bevásárlókosár elemzés;
prediktív modellek létrehozása a vásárlók és a vásárolt áruk osztályozási modelljei;
vásárlói profilok létrehozása;
CRM, különböző kategóriák vásárlói lojalitásának felmérése, hűségprogramok tervezése;
idősoros kutatásés időfüggések, szezonális tényezők kiválasztása, a promóciók hatékonyságának értékelése valós adatok széles skáláján.

A távközlési szektor korlátlan lehetőségeket nyit az adatbányászati módszerek, valamint a modern big data technológiák alkalmazására:

ügyfelek besorolása a hívások legfontosabb jellemzői (gyakorisága, időtartama stb.), SMS gyakorisága alapján;
a vásárlói hűség azonosítása;
csalás meghatározása stb.

Biztosítás:

kockázatelemzés. A kifizetett kárigényekhez kapcsolódó tényezők kombinációinak azonosításával a biztosítók csökkenthetik felelősségi veszteségeiket. Ismert eset, amikor egy biztosítótársaság felfedezte, hogy a házasok kérelmére kifizetett összegek kétszerese az egyedülállók kérelmének. A cég erre reagálva felülvizsgálta a családi vásárlókra vonatkozó kedvezménypolitikáját.
csalások felderítése. A biztosítótársaságok csökkenthetik a csalást, ha olyan sztereotípiákat keresnek a kárigényekben, amelyek az ügyvédek, orvosok és igénylők közötti kapcsolatokat jellemzik.

Az adatbányászat gyakorlati alkalmazását és konkrét problémák megoldását mutatjuk be következő videónkban.

Webinárium 1. Webinárium "Az adatbányászat gyakorlati feladatai: problémák és megoldások"

A JavaScript le van tiltva a böngészőjében

Webinar 2. Webinar "Adatbányászat és szövegbányászat: Példák valós problémák megoldására"

A JavaScript le van tiltva a böngészőjében

Az adatbányászat módszertanáról és technológiájáról a StatSoft tanfolyamokon szerezhet mélyebb ismereteket.

Az Orosz Föderáció Oktatási és Tudományos Minisztériuma

Szövetségi Állami Költségvetési Szakmai Felsőoktatási Intézmény

"ORSZÁGOS KUTATÁSI TOMSZKI MŰSZAKI EGYETEM"

Kibernetikai Intézet

Irányinformatika és Számítástechnika

VT osztály

Teszt

az informatika és számítástechnika tudományágban

Téma: Adatbányászati módszerek

Bevezetés

adatbányászat. Alapfogalmak és definíciók

1 Az adatbányászati folyamat szakaszai

2 Adatbányászati rendszerek összetevői

3 Adatbányászati módszerek az adatbányászatban

Adatbányászati módszerek

1 Társulási szabályzat levezetése

2 Neurális hálózati algoritmusok

3 Legközelebbi szomszéd és k-legközelebbi szomszéd módszer

4 Döntési fák

5 Klaszterezési algoritmusok

6 Genetikai algoritmusok

Alkalmazások

Az adatbányászati eszközök gyártói

A módszerek kritikája

Következtetés

Bibliográfia

Bevezetés

Az információs technológia fejlődésének eredménye az elektronikus formában felhalmozódott, rohamos ütemben növekvő adatmennyiség. Ugyanakkor az adatok általában heterogén szerkezettel rendelkeznek (szövegek, képek, hangok, videók, hipertext dokumentumok, relációs adatbázisok). számára felhalmozott hosszútávú az adatok olyan mintákat, trendeket és összefüggéseket tartalmazhatnak, amelyek értékes információk a tervezésben, előrejelzésben, döntéshozatalban és folyamatirányításban. Egy személy azonban fizikailag nem képes hatékonyan elemezni ilyen mennyiségű heterogén adatot. A hagyományos matematikai statisztika módszerei régóta igénylik az adatelemzés fő eszközének szerepét. Új hipotézisek szintézisét azonban nem teszik lehetővé, csak előre megfogalmazott hipotézisek megerősítésére és „durva” feltáró elemzésre használhatók, amely az online analitikai feldolgozás (OLAP) alapját képezi. Gyakran egy hipotézis megfogalmazása bizonyul a legnehezebb feladatnak a későbbi döntéshozatali elemzés során, mivel az adatokban nem minden mintázat nyilvánvaló első pillantásra. Ezért az adatbányászati technológiákat az egyik legfontosabb és legígéretesebb kutatási és alkalmazási témának tekintik az információs technológiai iparban. Ebben az esetben adatbányászaton azt a folyamatot értjük, amelynek során nagy adathalmazok alapján új, helyes és potenciálisan hasznos ismereteket határozunk meg. Így az MIT Technology Review az adatbányászatot a világot megváltoztató tíz feltörekvő technológia egyikeként írta le.

1. Adatbányászat. Alapfogalmak és definíciók

Az adatbányászat olyan, korábban ismeretlen, nem triviális, gyakorlatilag hasznos és hozzáférhető tudás feltárásának folyamata a nyers adatokban, amelyek az emberi tevékenység különböző területein szükséges döntések meghozatalához szükségesek.

A Data Mining technológia lényege és célja a következőképpen fogalmazható meg: ez egy olyan technológia, amelyet arra terveztek, hogy nagy mennyiségű adatban keressen nem nyilvánvaló, objektív és praktikus mintákat.

A nem nyilvánvaló minták olyan minták, amelyeket az információfeldolgozás szabványos módszereivel vagy szakértővel nem lehet észlelni.

Az objektív törvények alatt a valósággal teljes összhangban álló törvényeket kell érteni, ellentétben a mindig szubjektív szakértői véleményekkel.

Az adatelemzés ezen koncepciója a következőket sugallja:

§ adatok lehetnek pontatlanok, hiányosak (hiányosak), ellentmondásosak, heterogének, közvetettek, ugyanakkor gigantikus terjedelműek; ezért az adatok megértése konkrét alkalmazásokban jelentős intellektuális erőfeszítést igényel;

§ maguk az adatelemző algoritmusok is rendelkezhetnek „intelligencia elemekkel”, különösen a precedensekből való tanulás képességével, azaz konkrét megfigyelések alapján általános következtetések levonásával; az ilyen algoritmusok kidolgozása szintén jelentős intellektuális erőfeszítést igényel;

§ A nyers adatok információvá és az információ tudássá feldolgozása nem hajtható végre manuálisan, és automatizálást igényel.

Az adatbányászati technológia a sablonok (minták) koncepcióján alapul, tükrözve az adatok többdimenziós kapcsolatainak töredékeit. Ezek a minták az adatok részmintáiban rejlő minták, amelyek tömören, ember által olvasható formában kifejezhetők.

A sablonok keresése olyan módszerekkel történik, amelyeket nem korlátoznak a minta szerkezetére és az elemzett mutatók értékeinek eloszlásának típusára vonatkozó előzetes feltételezések.

Fontos tulajdonság Az adatbányászat a kívánt minták nem szabványos és nem nyilvánvaló. Vagyis az adatbányászati eszközök abban különböznek a statisztikai adatfeldolgozó eszközöktől és az OLAP-eszközöktől, hogy a felhasználók által feltételezett kölcsönös függőségek ellenőrzése helyett a rendelkezésre álló adatok alapján önállóan is meg tudják találni az ilyen kölcsönös függőségeket, és hipotéziseket állítanak fel a természetükről. Az adatbányászati módszerek öt szabványos mintatípust azonosítanak:

asszociáció - az események egymással való összekapcsolásának nagy valószínűsége. Az asszociációra példa az üzletben található cikkek, amelyeket gyakran együtt vásárolnak;

szekvencia - az időben összekapcsolt események láncolatának nagy valószínűsége. Példa a sorozatra az a helyzet, amikor az egyik termék beszerzését követő bizonyos időn belül nagy valószínűséggel egy másik terméket vásárolnak meg;

Osztályozás - vannak olyan jelek, amelyek azt a csoportot jellemzik, amelyhez ez vagy az esemény vagy tárgy tartozik;

klaszterezés - az osztályozáshoz hasonló mintázat, amely abban különbözik, hogy maguk a csoportok nincsenek megadva - az adatfeldolgozás során automatikusan észlelik őket;

· időbeli minták – minták jelenléte bizonyos adatok viselkedésének dinamikájában. Az időbeli mintázat tipikus példája bizonyos áruk vagy szolgáltatások iránti kereslet szezonális ingadozása.

1.1 Az adatbányászati folyamat lépései

Az adatbányászat folyamatában hagyományosan a következő szakaszokat különböztetik meg:

1. A tantárgyi terület tanulmányozása, melynek eredményeként megfogalmazódnak az elemzés főbb céljai.

2. Adatgyűjtés.

Adatok előfeldolgozása:

a. Adattisztítás - ellentmondások és véletlenszerű "zaj" kiküszöbölése az eredeti adatokból

b. Adatintegráció – több lehetséges forrásból származó adatok egyesítése egyetlen adattárban. Adatkonverzió. Ebben a szakaszban az adatok elemzésre alkalmas formába kerülnek. Gyakran használják az adatok összesítését, az attribútumok diszkretizálását, az adattömörítést és a méretcsökkentést.

4. Adatelemzés. Ezen a szakaszon belül bányászati algoritmusokat alkalmaznak a minták kinyerésére.

5. Talált minták értelmezése. Ez a szakasz magában foglalhatja a kinyert minták megjelenítését, az igazán hasznos minták azonosítását valamilyen hasznossági függvény alapján.

Új ismeretek felhasználása.

1.2 Bányászati rendszerek összetevői

Az adatbányászati rendszerekben jellemzően a következő fő összetevőket különböztetik meg:

1. Adatbázis, adattárház vagy egyéb információtár. Ez lehet egy vagy több adatbázis, adattárház, táblázatok, egyéb típusú tárolók, amelyek tisztíthatók és integrálhatók.

2. Adatbázis vagy adattárház szerver. A megadott szerver felelős a releváns adatok kinyeréséért a felhasználó kérése alapján.

Tudásbázis. A tartományismeret jelzi, hogyan kell keresni és értékelni a kapott minták hasznosságát.

Tudásbányászati szolgáltatás. Az adatbányászati rendszer szerves része, és funkcionális modulokat tartalmaz olyan feladatokhoz, mint a jellemzés, az asszociációkeresés, az osztályozás, a klaszteranalízis és a varianciaanalízis.

Mintaértékelési modul. Ez a komponens kiszámítja a minták érdeklődését vagy hasznosságát.

Grafikus felhasználói felület. Ez a modul felelős a felhasználó és az adatbányászati rendszer közötti kommunikációért, a minták különféle formájú megjelenítéséért.

1.3 Adatbányászati módszerek

Az adatbányászati technológiában használt analitikai módszerek többsége jól ismert matematikai algoritmusok és módszerek. Alkalmazásukban újdonság, hogy a hardver és szoftver feltörekvő képességei miatt bizonyos speciális problémák megoldásában is alkalmazhatók. Megjegyzendő, hogy az adatbányászati módszerek többségét a mesterséges intelligencia elméletének keretein belül fejlesztették ki. Fontolja meg a legszélesebb körben használt módszereket:

Társulási szabályzat levezetése.

2. Neurális hálózati algoritmusok, amelyek ötlete az idegszövet működésével való analógián alapul, és abban a tényben rejlik, hogy a kezdeti paramétereket olyan jeleknek tekintik, amelyek a "neuronok" között meglévő kapcsolatoknak megfelelően átalakulnak. ", és a teljes hálózat válasza az elemzés eredményeként kapott válasznak minősül kezdeti adatok.

Az eredeti adatok közeli analógjának kiválasztása a már rendelkezésre álló történeti adatok közül. A legközelebbi szomszéd módszernek is nevezik.

A döntési fák egy olyan hierarchikus struktúra, amely olyan kérdéseken alapul, amelyekre "igen" vagy "nem" választ kell adni.

A fürtmodellek a hasonló események csoportokba csoportosítására szolgálnak egy adatkészlet több mezőjének hasonló értékei alapján.

A következő fejezetben ezeket a módszereket ismertetjük részletesebben.

2. Adatbányászati módszerek

2.1 Társulási szabályzat levezetése

A társulási szabályok "ha...akkor..." alakú szabályok. Ilyen szabályok keresése egy adathalmazban rejtett kapcsolatokat tár fel a látszólag nem kapcsolódó adatokban. Az asszociációs szabályok keresésének egyik leggyakrabban idézett példája a stabil kapcsolatok megtalálásának problémája a kosárban. Ez a probléma annak meghatározása, hogy a vásárlók mely termékeket vásárolják együtt, hogy a marketingesek megfelelően el tudják helyezni ezeket a termékeket az üzletben az eladások növelése érdekében.

Az asszociációs szabályokat az (X1,X2,…,Xn) -> Y formájú utasításokként határozzuk meg, ahol érthető, hogy Y jelen lehet egy tranzakcióban, feltéve, hogy X1,X2,…,Xn ugyanabban a tranzakcióban van jelen. Vegye figyelembe, hogy a "lehet" szó azt sugallja, hogy a szabály nem azonosság, hanem csak bizonyos valószínűséggel érvényes. Ezenkívül Y lehet elemek halmaza, nem csak egy elem. Az X1,X2,…,Xn elemeket tartalmazó tranzakcióban Y megtalálásának valószínűségét bizalomnak nevezzük. A szabályt tartalmazó tranzakciók százalékos arányát az összes tranzakcióból támogatásnak nevezzük. A bizonyosság szintjét, amelynek meg kell haladnia a szabály bizonyosságát, érdekességnek nevezzük.

Különféle típusú társulási szabályok léteznek. A legegyszerűbb formában az egyesületi szabályok csak a társulás meglétéről vagy hiányáról számolnak be. Az ilyen szabályokat logikai asszociációs szabályoknak nevezzük. Példa egy ilyen szabályra: „azok a vásárlók, akik joghurtot vásárolnak, alacsony zsírtartalmú vajat is vásárolnak”.

Azokat a szabályokat, amelyek több társítási szabályt gyűjtenek össze, többszintű vagy általánosított társítási szabályoknak nevezzük. Az ilyen szabályok megalkotásakor az elemeket általában hierarchia szerint csoportosítják, és a keresés a legmagasabb fogalmi szinten történik. Például "a tejet vásárló vásárlók kenyeret is vásárolnak". Ebben a példában a tej és a kenyér hierarchiát tartalmaz különféle típusokés márkák, de az alacsonyabb szintű keresések nem hoznak fel érdekes szabályokat.

Egy összetettebb szabálytípus a mennyiségi asszociációs szabályok. Az ilyen típusú szabályok keresése mennyiségi (pl. ár) vagy kategorikus (pl. nem) attribútumok használatával történik, és a következőképpen definiálható: ( , ,…,} -> . Például: "30 és 35 év közötti, évi 75 000 feletti bevétellel rendelkező ügyfelek 20 000-nél nagyobb értékű autót vásárolnak."

A fenti típusú szabályok nem befolyásolják azt a tényt, hogy a tranzakciók jellegüknél fogva időfüggőek. Például egy termék eladásra kerülése előtt vagy a piacról való eltűnése után történő keresés hátrányosan befolyásolja a támogatási küszöböt. Ezt szem előtt tartva az attribútum élettartama fogalmát bevezetik az Időbeli asszociációs szabályok keresési algoritmusaiba.

Az asszociációs szabályok megtalálásának problémája nagyjából két részre bontható: gyakran előforduló elemhalmazok keresése, és a talált gyakran előforduló halmazok alapján szabályok generálása. A korábbi kutatások többnyire ezeket az irányvonalakat követték, és különböző irányokba terjesztették ki.

Az Apriori algoritmus megjelenése óta ez az algoritmus a leggyakrabban használt első lépésben. Számos fejlesztés, például a sebesség és a skálázhatóság, az Apriori algoritmus javítását célozza, annak a hibás tulajdonságának kijavítását, hogy túl sok jelöltet generál a leggyakrabban előforduló elemkészletekhez. Az Apriori a tételkészleteket csak az előző lépésben talált nagyobb tételkészletek felhasználásával állítja elő, a tranzakciók újratekintése nélkül. A módosított AprioriTid algoritmus úgy javítja az Apriorit, hogy csak az első lépésben használja az adatbázist. A további lépésekben végzett számítások csak az első lépésben létrehozott adatokat használják fel, amelyek sokkal kisebbek, mint az eredeti adatbázis. Ez a termelékenység jelentős növekedését eredményezi. Az algoritmus továbbfejlesztett változata, az AprioriHybrid úgy érhető el, hogy az Apriorit az első lépésekben használjuk, majd a későbbi menetekben, amikor a k-adik jelölthalmaz már teljesen elhelyezhető a számítógép memóriájában, átváltva AprioriTid-re.

Az Apriori algoritmus továbbfejlesztésére tett további erőfeszítések az algoritmus párhuzamosításával (Count Distribution, Data Distribution, Candidate Distribution stb.), skálázásával (Intelligent Data Distribution, Hibrid Distribution), új adatstruktúrák, például fák bevezetésével kapcsolatosak. gyakran előforduló elemek (FP-növekedés ).

A második lépést elsősorban a hitelesség és az érdekesség jellemzi. Az új módosítások hozzáadják a fent leírt dimenziót, minőséget és időbeli támogatást a hagyományos logikai szabályokhoz. Evolúciós algoritmust gyakran használnak a szabályok megtalálására.

2.2 Neurális hálózati algoritmusok

A mesterséges neurális hálózatok a matematikai apparátusnak az emberi idegrendszer működésének tanulmányozására történő alkalmazása eredményeként jelentek meg annak reprodukálása érdekében. Nevezetesen: az idegrendszer képessége a tanulásra és a hibák kijavítására, aminek lehetővé kell tennie az emberi agy munkájának, bár meglehetősen nyersen, modellezését. A neurális hálózat fő szerkezeti és funkcionális része a formális neuron, az ábrán látható. 1, ahol x0 , x1,..., xn a bemeneti jelek vektorának komponensei, w0 ,w1,...,wn a neuron bemeneti jeleinek súlyának értékei, y pedig a neuron kimeneti jele.

Rizs. 1. Formális neuron: szinapszisok (1), összeadó (2), konverter (3).

A formális neuron 3 típusú elemből áll: szinapszisokból, összeadóból és konverterből. A szinapszis két neuron közötti kapcsolat erősségét jellemzi.

Az összeadó elvégzi az előzőleg a megfelelő súlyokkal megszorzott bemeneti jelek összeadását. A konverter egy argumentum – az összeadó kimenetének – funkcióját valósítja meg. Ezt a funkciót az idegsejt aktiválási funkciójának vagy átviteli függvényének nevezik.

A fent leírt formális neuronok úgy kombinálhatók, hogy egyes neuronok kimenőjelei bemennek másokhoz. Az így létrejövő, összekapcsolt idegsejtek halmazát mesterséges neurális hálózatoknak (ANN) vagy röviden neurális hálózatoknak nevezzük.

A neuronoknak a következő három általános típusa van, attól függően, hogy a neurális hálózatban elhelyezkednek:

Bemeneti neuronok, amelyekre bemeneti jelek vonatkoznak. Az ilyen neuronoknak általában egy egységsúlyú bemenetük van, nincs torzítás, és a neuron kimeneti értéke megegyezik a bemeneti jellel;

Kimeneti csomópontok, amelyek kimeneti értékei a neurális hálózat eredő kimeneti jeleit jelentik;

Azok a rejtett csomópontok, amelyeknek nincs közvetlen kapcsolata a bemeneti jelekkel, míg a rejtett neuronok kimeneti jeleinek értékei nem az ANN kimeneti jelei.

Az interneuronális kapcsolatok szerkezete szerint az ANN-ok két osztályát különböztetjük meg:

A közvetlen terjedés ANN, amelyben a jel csak a bemeneti neuronoktól a kimeneti neuronokhoz terjed.

Ismétlődő ANN - ANN visszajelzéssel. Az ilyen ANN-okban a jelek bármely neuron között továbbíthatók, függetlenül azok elhelyezkedésétől az ANN-ban.

Két általános megközelítés létezik az ANN-ok képzésére:

Képzés tanárral.

Tanulás tanár nélkül.

A felügyelt tanulás magában foglalja a képzési példák előre kialakított halmazát. Mindegyik példa a bemeneti jelek vektorát és a referencia kimeneti jelek megfelelő vektorát tartalmazza, amelyek az adott feladattól függenek. Ezt a készletet edzéskészletnek vagy edzéskészletnek nevezzük. A neurális hálózat képzése az ANN kapcsolatok súlyának olyan megváltoztatására irányul, amelyben az ANN kimeneti jeleinek értéke a lehető legkisebb mértékben tér el az adott vektorhoz szükséges kimeneti jelek értékétől. bemeneti jelek.

Felügyelet nélküli tanulásban a kapcsolati súlyokat vagy a neuronok közötti versengés eredményeként, vagy a kapcsolattal rendelkező idegsejtek kimeneti jeleinek korrelációját figyelembe véve módosítják. Felügyelet nélküli tanulás esetén az oktatókészlet nem kerül felhasználásra.

A neurális hálózatokat számos probléma megoldására használják, például az űrsiklók hasznos terheinek tervezésére és az árfolyamok előrejelzésére. Az adatbányászati rendszerekben azonban nem gyakran használják őket a modell összetettsége (több száz interneuronális kapcsolat súlyaként rögzített tudás egy személy számára teljesen lehetetlen elemezni és értelmezni), valamint a hosszú edzési idő miatt egy nagy edzésen. készlet. Másrészt a neurális hálózatok olyan előnyökkel rendelkeznek az adatelemzési feladatokban, mint a zajos adatokkal szembeni ellenállás és a nagy pontosság.

2.3 Legközelebbi szomszéd és k-legközelebbi szomszéd módszerek

A legközelebbi szomszéd algoritmus és a k-legközelebbi szomszéd algoritmus (KNN) az objektumok hasonlóságán alapul. A legközelebbi szomszéd algoritmus az összes ismert objektum közül kiválasztja azt az objektumot, amely a lehető legközelebb van (az objektumok közötti távolság metrikája, például az euklideszi mérőszám segítségével) egy új, korábban ismeretlen objektumhoz. A legközelebbi szomszéd módszerrel a fő probléma a képzési adatok kiugró értékeire való érzékenysége.

A leírt probléma elkerülhető a KNN algoritmussal, amely megkülönbözteti a k-os legközelebbi szomszédokat minden olyan megfigyeléstől, amely hasonló egy új objektumhoz. A legközelebbi szomszédok osztályai alapján születik döntés az új objektumról. Ennek az algoritmusnak egy fontos feladata a k együttható kiválasztása - a hasonlónak tekintett rekordok száma. Az algoritmus módosítása, amelyben a szomszéd hozzájárulása arányos az új objektum távolságával (k-súlyozott legközelebbi szomszédok módszere), lehetővé teszi a nagyobb osztályozási pontosság elérését. A k legközelebbi szomszédok módszere lehetővé teszi az előrejelzés pontosságának értékelését is. Például, ha mind a k legközelebbi szomszéd azonos osztályú, akkor annak a valószínűsége, hogy az ellenőrzött objektum azonos osztályú lesz, nagyon nagy.

Az algoritmus jellemzői közül érdemes megemlíteni az anomális kiugró értékekkel szembeni ellenállást, mivel kicsi annak a valószínűsége, hogy egy ilyen rekord a k-közelebbi szomszédok számába essen. Ha ez megtörténik, akkor a szavazásra gyakorolt hatás (különösen súlyozottan) (k>2 esetén) szintén elhanyagolható, következésképpen a besorolás kimenetelére gyakorolt hatás is csekély lesz. Emellett az előnyök közé tartozik az egyszerű megvalósítás, az algoritmus eredményének könnyű értelmezhetősége, az algoritmus módosításának lehetősége a legmegfelelőbb kombinációs függvények és metrikák használatával, amely lehetővé teszi az algoritmus egy adott feladathoz való igazítását. A KNN algoritmusnak számos hátránya is van. Először is, az algoritmushoz használt adatkészletnek reprezentatívnak kell lennie. Másodszor, a modell nem választható el az adatoktól: minden példát fel kell használni egy új példa osztályozásához. Ez a funkció erősen korlátozza az algoritmus használatát.

2.4 Döntési fák

A "döntési fák" kifejezés az osztályozási szabályok hierarchikus, szekvenciális struktúrában történő megjelenítésén alapuló algoritmusok családjára utal. Ez az adatbányászati problémák megoldására szolgáló algoritmusok legnépszerűbb osztálya.

A döntési fák felépítésére szolgáló algoritmuscsalád lehetővé teszi egy adott esetre vonatkozó paraméter értékének előrejelzését más hasonló esetekre vonatkozó nagy mennyiségű adat alapján. Ennek a családnak az algoritmusait általában olyan problémák megoldására használják, amelyek lehetővé teszik az összes kezdeti adat több különálló csoportra való felosztását.

Ha döntési fa algoritmusokat alkalmaz egy kezdeti adathalmazra, az eredmény faként jelenik meg. Az ilyen algoritmusok lehetővé teszik az ilyen szétválasztás több szintű végrehajtását, az így létrejövő csoportokat (faágakat) más jellemzők alapján kisebbre bontva. Az osztás addig folytatódik, amíg a megjósolandó értékek megegyeznek (vagy a megjósolt paraméter folyamatos értéke esetén be nem zárnak) minden fogadott csoportra (a fa leveleire). Ezeket az értékeket használják a modell alapján történő előrejelzésekhez.

A döntési fák felépítésére szolgáló algoritmusok működése regressziós és korrelációs elemzési módszerek alkalmazásán alapul. Ennek a családnak az egyik legnépszerűbb algoritmusa a CART (Classification and Regression Trees), amely egy faág adatainak két gyermekágra való felosztásán alapul; az egyik vagy másik ág további felosztása attól függ, hogy ez az ág mennyi kezdeti adatot ír le. Néhány más hasonló algoritmus lehetővé teszi egy ág felosztását több gyermekágra. Ebben az esetben az osztás az elágazás által leírt adatok legmagasabb korrelációs együtthatója alapján történik az osztás szerinti paraméter és a tovább jósolandó paraméter között.

A megközelítés népszerűsége a láthatósággal és az érthetőséggel függ össze. De a döntési fák alapvetően nem képesek megtalálni a „legjobb” (legteljesebb és legpontosabb) szabályokat az adatokban. A jelek egymás utáni nézésének naiv elvét valósítják meg, és ténylegesen megtalálják a valós minták részeit, csak a logikus következtetés illúzióját keltve.

2.5 Klaszterezési algoritmusok

A fürtözés az objektumok halmazának fürtöknek nevezett csoportokba történő particionálásának feladata. A fő különbség a klaszterezés és az osztályozás között az, hogy a csoportok listája nincs egyértelműen meghatározva, és az algoritmus során kerül meghatározásra.

A klaszteranalízis általános alkalmazása a következő lépésekre korlátozódik:

objektumok mintájának kiválasztása klaszterezéshez;

változókészlet meghatározása, amellyel a mintában lévő objektumok kiértékelődnek. Ha szükséges - a változó értékek normalizálása;

az objektumok közötti hasonlósági mérési értékek kiszámítása;

a klaszteranalízis módszer alkalmazása hasonló objektumok (klaszterek) csoportjainak létrehozására;

· az elemzés eredményeinek bemutatása.

Az eredmények fogadása és elemzése után lehetőség van a kiválasztott metrika és klaszterezési módszer módosítására az optimális eredmény eléréséig.

A klaszterező algoritmusok között hierarchikus és lapos csoportokat különböztetünk meg. A hierarchikus algoritmusok (más néven taxonómia-algoritmusok) nem a minta egyetlen partícióját építik fel diszjunkt klaszterekké, hanem egymásba ágyazott partíciók rendszerét. Így az algoritmus kimenete egy klaszterfa, melynek gyökere a teljes minta, a levelek pedig a legkisebb klaszterek. A lapos algoritmusok az objektumok egy partícióját nem metsző klaszterekbe építik fel.

A klaszterezési algoritmusok másik osztályozása az éles és fuzzy algoritmusok közé tartozik. Az egyértelmű (vagy nem átfedő) algoritmusok minden mintaobjektumhoz fürtszámot rendelnek, vagyis minden objektum csak egy fürthöz tartozik. A fuzzy (vagy metsző) algoritmusok minden objektumhoz valódi értékek halmazát rendelik, amelyek megmutatják az objektum és a klaszterek közötti kapcsolat mértékét. Így minden objektum bizonyos valószínűséggel minden klaszterhez tartozik.

A hierarchikus klaszterező algoritmusoknak két fő típusa van: a növekvő és a csökkenő algoritmusok. A felülről lefelé irányuló algoritmusok felülről lefelé haladva működnek: először az összes objektumot egy klaszterbe helyezik, amelyet aztán egyre kisebb klaszterekre osztanak fel. Gyakoribbak az alulról felfelé építkező algoritmusok, amelyek kezdetben az egyes jellemzőket egy külön fürtbe helyezik, majd a fürtöket egyre nagyobb fürtökbe vonják össze, amíg az összes mintavételezett jellemző ugyanabban a fürtben nem található. Így létrejön a beágyazott partíciók rendszere. Az ilyen algoritmusok eredményeit általában fa formájában mutatják be.

A hierarchikus algoritmusok hátránya a teljes partíciók rendszere, amely a megoldandó probléma kontextusában redundáns lehet.

Nézzük most a lapos algoritmusokat. Ebben az osztályban a legegyszerűbbek a másodfokú hibaalgoritmusok. Ezen algoritmusok klaszterezési problémája az objektumok optimális csoportosításának felépítése. Ebben az esetben az optimalitás úgy definiálható, mint az a követelmény, hogy minimálisra csökkentsük a négyzetgyökér particionálási hibát:

Ahol c j - a klaszter "tömegközéppontja". j(pont az adott klaszter jellemzőinek átlagos értékeivel).

Ebben a kategóriában a leggyakoribb algoritmus a k-közép módszer. Ez az algoritmus adott számú, egymástól a lehető legtávolabb elhelyezkedő klasztert épít fel. Az algoritmus munkája több szakaszra oszlik:

Véletlenszerűen válasszon k pontok, amelyek a klaszterek kezdeti "tömegközéppontjai".

2. Rendeljen minden objektumot egy klaszterhez a legközelebbi "tömegközépponttal".

Ha az algoritmus leállításának feltétele nem teljesül, térjen vissza a 2. lépéshez.

Az algoritmus működésének leállításának kritériumaként általában az átlagos négyzetes hiba minimális változását választják. Lehetőség van az algoritmus leállítására is, ha a 2. lépésben nem voltak olyan objektumok, amelyek fürtről fürtre kerültek. Ennek az algoritmusnak a hátrányai közé tartozik, hogy meg kell adni a felosztáshoz szükséges klaszterek számát.

A legnépszerűbb fuzzy klaszterezési algoritmus a c-means algoritmus. Ez a k-közép módszer módosítása. Az algoritmus lépései:

1. Válasszon ki egy kezdeti fuzzy partíciót n tárgyakat k klasztereket tagsági mátrix kiválasztásával U méret n x k.

2. Az U mátrix segítségével keresse meg a fuzzy hibakritérium értékét:

Ahol c k - egy fuzzy klaszter "tömegközéppontja". k:

3. Csoportosítsa át az objektumokat a fuzzy hibakritérium értékének csökkentése érdekében.

4. Térjen vissza a 2. lépéshez, amíg a mátrix meg nem változik U nem lesz jelentéktelen.

Ez az algoritmus nem biztos, hogy megfelelő, ha a klaszterek száma nem ismert előre, vagy ha minden objektumot egyedileg kell hozzárendelni egy klaszterhez.

Az algoritmusok következő csoportját a gráfelméletre épülő algoritmusok alkotják. Az ilyen algoritmusok lényege, hogy az objektumok kiválasztását gráfként ábrázoljuk G=(V, E), amelynek csúcsai objektumoknak felelnek meg, és éleinek súlya megegyezik az objektumok közötti "távolsággal". A gráfklaszterező algoritmusok előnye a láthatóság, a viszonylagos könnyű implementáció és a geometriai megfontolások alapján történő különféle fejlesztések lehetősége. A fő algoritmusok az összekapcsolt komponensek kinyerésére szolgáló algoritmus, a minimális feszítő (feszítő) fa felépítésére szolgáló algoritmus és a réteges klaszterezés algoritmusa.

Paraméter kiválasztásához Ráltalában a páronkénti távolságok eloszlásának hisztogramját készítik. A jól meghatározott klaszter adatszerkezetű feladatoknál a hisztogramnak két csúcsa lesz – az egyik a fürtön belüli távolságoknak, a második a fürtközi távolságoknak felel meg. Paraméter R a csúcsok közötti minimum zónából van kiválasztva. Ugyanakkor meglehetősen nehéz szabályozni a klaszterek számát a távolsági küszöb segítségével.

A minimális feszítőfa algoritmus először létrehoz egy minimális feszítőfát a gráfon, majd sorban eltávolítja a legnagyobb súlyú éleket. A rétegről rétegre klaszterező algoritmus az objektumok (csúcsok) közötti bizonyos távolságok szintjén összefüggő gráfkomponensek kiválasztásán alapul. A távolság szintjét a távolsági küszöb határozza meg c. Például, ha az objektumok közötti távolság , akkor .

A réteges klaszterező algoritmus gráf részgráfok sorozatát állítja elő G, amelyek a klaszterek közötti hierarchikus kapcsolatokat tükrözik:

Ahol G t = (V, E t ) - szintgrafikon Val vel t , ,

Val vel t - t-edik távolsági küszöb, m - hierarchiaszintek száma,
G 0 = (V, o), o - a gráfélek üres halmaza, amelyet úgy kapunk, hogy t 0 = 1,
G m = G, azaz objektumok gráfja a távolságra (a gráf éleinek hosszára) vonatkozó korlátozások nélkül, mivel t m = 1.

A távolsági küszöbök megváltoztatásával ( Val vel 0 , …, Val vel m ), ahol 0 = Val vel 0 < Val vel 1 < …< Val vel m = 1, akkor szabályozható a kapott klaszterek hierarchiájának mélysége. Így a rétegről rétegre klaszterező algoritmus képes egy lapos és egy hierarchikus adatpartíciót is létrehozni.

A klaszterezés a következő célokat éri el:

A szerkezeti csoportok azonosításával javítja az adatok megértését. A minta hasonló objektumok csoportjaira bontása lehetővé teszi a további adatfeldolgozás és döntéshozatal egyszerűsítését azáltal, hogy minden klaszterre saját elemzési módszert alkalmaz;

Lehetővé teszi az adatok kompakt tárolását. Ehhez a teljes minta tárolása helyett minden klaszterből egy tipikus megfigyelés hagyható;

· új atipikus objektumok észlelése, amelyek nem kerültek semmilyen klaszterbe.

Általában a klaszterezést az adatelemzés segédmódszereként használják.

2.6 Genetikai algoritmusok

A genetikai algoritmusok az univerzális optimalizálási módszerek közé tartoznak, amelyek különböző típusú (kombinatorikus, általános problémák korlátozásokkal és korlátozás nélkül) és különböző bonyolultságú problémák megoldását teszik lehetővé. Ugyanakkor a genetikai algoritmusokra jellemző az egykritériumú és többszempontú keresés is nagy térben, amelynek tájképe nem egyenletes.

Ez a módszercsoport a modellek generációinak sorozatának iteratív evolúciós folyamatát használja, beleértve a szelekciót, a mutációt és a keresztezést. Az algoritmus kezdetén a populációt véletlenszerűen alakítjuk ki. A kódolt megoldások minőségének felmérésére a fitnesz függvényt használják, amely az egyes egyének alkalmasságának kiszámításához szükséges. Az egyedek értékelésének eredményei alapján kiválasztják közülük a legalkalmasabbakat a keresztezésre. A kiválasztott egyedeknek a genetikai crossover operátor segítségével történő keresztezése eredményeként utódok jönnek létre, amelyek genetikai információi a szülő egyedek közötti kromoszómális információcsere eredményeként jönnek létre. A létrejött leszármazottak új populációt alkotnak, és a leszármazottak egy része mutálódik, ami genotípusuk véletlenszerű változásában fejeződik ki. Azt a szakaszt, amely magában foglalja a „Népesség becslése” – „Kiválasztás” – „Keresztezés” – „Mutáció” sorozatot, generációnak nevezzük. Egy populáció evolúciója ilyen generációk sorozatából áll.

A következő algoritmusokat különböztetjük meg az egyének kiválasztásához a keresztezéshez:

Panmixia. A szülőpárt alkotó mindkét egyed véletlenszerűen kerül kiválasztásra a teljes populációból. Bármely egyén több pár tagjává válhat. Ez a megközelítés univerzális, de az algoritmus hatékonysága a populáció növekedésével csökken.

· Kiválasztás. Az átlagosnál nem alacsonyabb edzettségű egyének válhatnak szülővé. Ez a megközelítés gyorsabb konvergenciát biztosít az algoritmusban.

Beltenyésztés. A módszer szoros kapcsolaton alapuló párképzésen alapul. A rokonság itt egy populáció tagjai közötti távolságra vonatkozik, mind a paramétertérben lévő egyedek geometriai távolsága, mind a genotípusok közötti Heming-távolság értelmében. Ezért létezik genotípusos és fenotípusos beltenyésztés. A keresztezéshez a pár első tagját véletlenszerűen választják ki, a második pedig valószínűbb, hogy a hozzá legközelebb álló személy lesz. A beltenyésztés a keresés helyi csomópontokban való koncentrálódásának tulajdonságával jellemezhető, ami tulajdonképpen a populáció különálló lokális csoportokra való szétválását eredményezi a táj szélsőséges gyanús területei körül.

Kitenyésztés. Páralakítás távoli kapcsolat alapján, a legtávolabbi egyedek számára. Az outbreeding célja, hogy megakadályozza az algoritmus konvergenciáját a már megtalált megoldásokhoz, új, feltáratlan területek feltárására kényszerítve az algoritmust.

Algoritmusok egy új populáció kialakításához:

Kiválasztás elmozdulással. Az azonos genotípusú egyedek közül azokat részesítik előnyben, akiknek az alkalmassága magasabb. Így két cél teljesül: a legjobban megtalált, különböző kromoszómakészletű megoldások nem vesznek el, a populációban folyamatosan megmarad a kellő genetikai diverzitás. Az elmozdulás egy új, távoli egyedek populációját képezi, ahelyett, hogy az egyedek a jelenlegi megoldás köré csoportosulnának. Ezt a módszert multiextremális problémák esetén alkalmazzák.

Elit válogatás. Az elit kiválasztási módszerek biztosítják, hogy a populáció legjobb tagjai biztosan életben maradjanak, ha kiválasztják. Ugyanakkor a legjobb egyedek egy része változás nélkül átmegy a következő generációba. Az elitszelekció által biztosított gyors konvergenciát a szülőpárok megfelelő kiválasztásának módszerével lehet kompenzálni. Ebben az esetben gyakran alkalmazzák az outbreeding-et. Ez a "tenyésztés - elit szelekció" kombinációja az egyik leghatékonyabb.

· Versenyválasztás. A versenykiválasztás n versenyt valósít meg n személy kiválasztásához. Minden verseny a lakosság k elemének kiválasztására épül, és közülük a legjobb személy kiválasztására. A k = 2-vel rendelkező bajnokság kiválasztása a leggyakoribb.

A genetikai algoritmusok egyik legkeresettebb alkalmazása az adatbányászat területén a legoptimálisabb modell keresése (egy adott terület sajátosságainak megfelelő algoritmus keresése). A genetikai algoritmusokat elsősorban a neurális hálózatok topológiájának és súlyozásának optimalizálására használják. Azonban önálló eszközként is használhatók.

3. Alkalmazások

Az adatbányászati technológiának igen széles körű alkalmazásai vannak, valójában egy univerzális eszközkészlet minden típusú adat elemzéséhez.

Marketing

Az egyik legelső olyan terület, ahol az adatbányászati technológiákat alkalmazták, a marketing volt. Azt a feladatot, amellyel az adatbányászati módszerek fejlesztése elkezdődött, bevásárlókosár elemzésnek nevezzük.

Ez a feladat azon termékek azonosítása, amelyeket a vásárlók hajlamosak együtt vásárolni. A bevásárlókosár ismerete szükséges a reklámkampányokhoz, az ügyfeleknek szóló személyes ajánlások kialakításához, az árukészletek létrehozására vonatkozó stratégia kidolgozásához és a kereskedési padlókban való elhelyezésének módjaihoz.

A marketingben is olyan feladatokat oldanak meg, mint egy adott termék célközönségének meghatározása a sikeresebb promóció érdekében; időbeli mintázatok kutatása, amely segíti a vállalkozásokat a készletekkel kapcsolatos döntések meghozatalában; prediktív modellek létrehozása, amelyek lehetővé teszik a vállalkozások számára, hogy felismerjék az ügyfelek különböző kategóriáinak szükségleteit bizonyos viselkedéssel; a vásárlói hűség előrejelzése, amely lehetővé teszi, hogy viselkedésének elemzésekor előre azonosítsa az ügyfél távozásának pillanatát, és esetleg megelőzze egy értékes ügyfél elvesztését.

Ipar

Ezen a területen az egyik fontos terület a monitoring és minőség-ellenőrzés, ahol elemző eszközök segítségével előre jelezhető a berendezés meghibásodása, a meghibásodások megjelenése, megtervezhető a javítási munkák. Az egyes funkciók népszerűségének előrejelzése és annak ismerete, hogy mely jellemzőket általában együtt rendelik, segít a termelés optimalizálásában, a fogyasztók valós igényeihez igazítva.

Gyógyszer

Az orvostudományban az adatelemzést is meglehetősen sikeresen alkalmazzák. A feladatokra példa lehet a vizsgálati eredmények elemzése, diagnosztika, a kezelések és gyógyszerek hatékonyságának összehasonlítása, betegségek és terjedésük elemzése, mellékhatások azonosítása. Az olyan adatbányászati technológiákat, mint az asszociációs szabályok és a szekvenciális minták sikeresen alkalmazták a kábítószer-használat és a mellékhatások közötti kapcsolatok azonosítására.

Molekuláris genetika és géntechnológia

A kísérleti adatok törvényszerűségeinek feltárásának talán a legégetőbb és egyben legvilágosabb feladata a molekuláris genetika és a géntechnológia. Itt a markerek definíciójaként van megfogalmazva, amelyek genetikai kódok alatt értendők, amelyek egy élő szervezet bizonyos fenotípusos tulajdonságait szabályozzák. Az ilyen kódok több száz, ezer vagy több kapcsolódó elemet tartalmazhatnak. Az adatok analitikus elemzésének eredménye egyben a genetikusok által feltárt kapcsolat az emberi DNS-szekvencia változásai és a különböző betegségek kialakulásának kockázata között.

Alkalmazott kémia

Az adatbányászati módszereket az alkalmazott kémia területén is alkalmazzák. Itt gyakran felmerül a kérdés, hogy meg kell tisztázni bizonyos vegyületek kémiai szerkezetének tulajdonságait, amelyek meghatározzák a tulajdonságaikat. Ez a feladat különösen fontos összetett kémiai vegyületek elemzésénél, amelyek leírása több száz és ezer szerkezeti elemet és azok kötéseit tartalmazza.

Küzdelem a bűnözés ellen

A biztonság területén a Data Mining eszközöket viszonylag nemrégiben alkalmazzák, de már születtek olyan gyakorlati eredmények, amelyek megerősítik az adatbányászat hatékonyságát ezen a területen. Svájci tudósok kifejlesztettek egy rendszert a tiltakozási tevékenység elemzésére, hogy előre jelezzék a jövőbeni incidenseket, valamint egy rendszert a feltörekvő kiberfenyegetések és a hackerek akcióinak nyomon követésére a világon. Ez utóbbi rendszer lehetővé teszi a kiberfenyegetések és egyéb információbiztonsági kockázatok előrejelzését. Ezenkívül az adatbányászati módszereket sikeresen használják a hitelkártya-csalás felderítésére. A múltbeli tranzakciók elemzésével, amelyekről később kiderült, hogy csalás, a bank azonosítja az ilyen csalás sztereotípiáit.

Egyéb alkalmazások

· Kockázatelemzés. Például a kifizetett kárigényekhez kapcsolódó tényezők kombinációjának azonosításával a biztosítók csökkenthetik felelősségi veszteségeiket. Van egy jól ismert eset az Egyesült Államokban, amikor egy nagy biztosítótársaság megállapította, hogy a házasságban élők kérelmére kifizetett összegek kétszerese az egyedülállók kérelmének. A cég erre az új tudásra reagálva felülvizsgálta általános családi kedvezménypolitikáját.

· Meteorológia. Időjárás előrejelzése neurális hálózati módszerekkel, különösen Kohonen önszerveződő térképeivel.

· Személyzeti politika. Az elemző eszközök segítenek a HR osztályoknak az önéletrajzi adatok elemzése alapján kiválasztani a legsikeresebb jelölteket, modellezni az adott pozícióra ideális munkatársak jellemzőit.

4. Adatbányászati eszközök előállítói

Az adatbányászati eszközök hagyományosan a drága szoftvertermékek közé tartoznak. Ezért ennek a technológiának a fő fogyasztói a közelmúltig bankok, pénzügyi és biztosító társaságok, nagy kereskedelmi vállalkozások voltak, az adatbányászat alkalmazását igénylő fő feladatok pedig a hitel- és biztosítási kockázatok felmérése, valamint a marketingpolitika, tarifa kidolgozása volt. terveket és az ügyfelekkel való munka egyéb elveit. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: viszonylag olcsó Data Mining eszközök, sőt ingyenes terjesztési rendszerek jelentek meg a szoftverpiacon, ami ezt a technológiát a kis- és középvállalkozások számára is elérhetővé tette.

Az adatelemzés fizetős eszközei és rendszerei közül a SAS Institute (SAS Enterprise Miner), az SPSS (SPSS, Clementine) és a StatSoft (STATISTICA Data Miner) a vezető. A jól ismert megoldások az Angoss (Angoss KnowledgeSTUDIO), az IBM (IBM SPSS Modeler), a Microsoft (Microsoft Analysis Services) és az (Oracle) Oracle Data Mining termékei.

Az ingyenes szoftverek választéka is változatos. Vannak olyan univerzális elemző eszközök, mint a JHepWork, KNIME, Orange, RapidMiner, és speciális eszközök, mint például a Carrot2 - egy keretrendszer szöveges adatok és keresési lekérdezések eredményeinek klaszterezésére, Chemicalize.org - megoldás az alkalmazott kémia területén, NLTK (Natural Language Toolkit) természetes nyelv feldolgozó eszköze.

5. A módszerek kritikája

Az adatbányászat eredményei nagymértékben az adatok előkészítésének szintjétől függenek, és nem valamely algoritmus vagy algoritmuskészlet "csodálatos képességeitől". Az adatbányászattal kapcsolatos munka körülbelül 75%-a adatgyűjtésből áll, amelyre még az elemző eszközök használata előtt kerül sor. Az eszközök írástudatlan használata a vállalat potenciáljának, sőt néha több millió dolláros pazarlásához vezet.

Herb Edelstein, az adatbányászat, adattárház- és CRM-szakértő világhírű szakértőjének véleménye: „A Two Crows legutóbbi tanulmánya kimutatta, hogy az adatbányászat még a fejlesztés korai szakaszában van. Sok szervezet érdeklődik a technológia iránt, de csak néhányan hajtanak végre ilyen projekteket. Egy másik fontos szempont is világossá vált: az adatbányászat gyakorlati megvalósításának folyamata a vártnál bonyolultabbnak bizonyul.A csapatokat elragadta az a mítosz, hogy az adatbányászati eszközöket könnyű használni. Feltételezzük, hogy elég egy ilyen eszközt egy terabájtos adatbázison futtatni, és azonnal megjelennek a hasznos információk. Valójában egy sikeres adatbányászati projekthez szükség van a tevékenység lényegének megértésére, az adatok és eszközök ismeretére, valamint az adatelemzés folyamatára. Az adatbányászati technológia alkalmazása előtt tehát alaposan elemezni kell a módszerek által támasztott korlátokat és a hozzá kapcsolódó kritikus kérdéseket, valamint józanul fel kell mérni a technológia adottságait. A kritikus kérdések a következők:

1. A technológia nem tud választ adni a fel nem tett kérdésekre. Nem helyettesítheti az elemzőt, csak hatékony eszközt ad neki munkájának megkönnyítésére és javítására.

2. Az Adatbányászati alkalmazás fejlesztésének és működésének összetettsége.

Mivel ez a technológia egy multidiszciplináris terület, az adatbányászatot is magában foglaló alkalmazás fejlesztéséhez különböző szakterületek szakembereinek bevonása, valamint minőségi interakciójuk biztosítása szükséges.

3. Felhasználói képesítés.

A különféle adatbányászati eszközöknek eltérő fokú "barátságos" a felülete, és bizonyos felhasználói készségeket igényelnek. Ezért a szoftvernek meg kell felelnie a felhasználó képzettségi szintjének. Az adatbányászat használatát elválaszthatatlanul össze kell kapcsolni a felhasználó képességeinek fejlesztésével. Jelenleg azonban kevés olyan adatbányászati szakember van, aki jártas az üzleti folyamatokban.

4. Hasznos információk kinyerése lehetetlen az adatok lényegének alapos megértése nélkül.

A modell gondos kiválasztására és a talált függőségek vagy minták értelmezésére van szükség. Ezért az ilyen eszközökkel való munkavégzés szoros együttműködést igényel a tartományszakértő és az adatbányászati eszközök szakértője között. A perzisztens modelleket jól integrálni kell az üzleti folyamatokba, hogy képesek legyenek értékelni és frissíteni a modelleket. Az utóbbi időben az adatbányászati rendszereket az adattárház technológia részeként szállítják.

5. Az adatok előkészítésének összetettsége.

A sikeres elemzéshez jó minőségű adat-előfeldolgozás szükséges. Elemzők és adatbázis-felhasználók szerint az előfeldolgozási folyamat a teljes adatbányászati folyamat akár 80%-át is igénybe veheti.

Így ahhoz, hogy a technológia magától működjön, sok erőfeszítést és időt igényel az előzetes adatelemzés, a modellválasztás és annak beállítása.

6. Hamis, megbízhatatlan vagy haszontalan eredmények nagy százaléka.

A Data Mining technológiák segítségével valóban nagyon értékes információkat találhat, amelyek jelentős előnyt jelenthetnek a további tervezésben, menedzsmentben, döntéshozatalban. Az adatbányászati módszerekkel kapott eredmények azonban gyakran tartalmaznak hamis és értelmetlen következtetéseket. Sok szakértő azzal érvel, hogy az adatbányászati eszközök hatalmas mennyiségű statisztikailag megbízhatatlan eredményt tudnak produkálni. Az ilyen eredmények százalékos arányának csökkentése érdekében ellenőrizni kell a kapott modellek megfelelőségét a tesztadatokon. A hamis következtetéseket azonban lehetetlen teljesen elkerülni.

7. Magas költség.

A jó minőségű szoftvertermék a fejlesztő jelentős munkaerőköltségei eredménye. Ezért a Data Mining szoftvert hagyományosan drága szoftvertermékeknek nevezik.

8. Elegendő reprezentatív adat rendelkezésre állása.

Az adatbányászati eszközök a statisztikai eszközökkel ellentétben elméletileg nem igényelnek szigorúan meghatározott mennyiségű történelmi adatot. Ez a funkció megbízhatatlan, hamis modellek észlelését és ennek eredményeként azok alapján helytelen döntések meghozatalát okozhatja. A feltárt tudás statisztikai szignifikanciájának ellenőrzése szükséges.

neurális hálózati algoritmus klaszterező adatbányászat

Következtetés

Rövid leírást adunk az alkalmazási területekről, valamint ismertetjük az adatbányászati technológiával kapcsolatos kritikákat és az e terület szakértőinek véleményét.

Listairodalom

1. Han és Micheline Kamber. Adatbányászat: fogalmak és technikák. második kiadás. - Illinoisi Egyetem, Urbana-Champaign

Berry, Michael J. A. Adatbányászati technikák: marketinghez, értékesítéshez és ügyfélkapcsolat-kezeléshez – 2. kiadás.

Siu Ning Lam. Társítási szabályok felfedezése az adatbányászatban. - Az Illinoisi Egyetem Számítástechnikai Tanszéke, Urbana-Champaign

Mi az adatbányászat

Bármely modern vállalat vállalati adatbázisa általában tartalmaz egy táblakészletet, amely bizonyos tényekről vagy tárgyakról (például árukról, értékesítésükről, vevőkről, számlákról) tárol rekordokat. Általános szabály, hogy egy ilyen táblázatban minden bejegyzés egy adott objektumot vagy tényt ír le. Például egy bejegyzés az értékesítési táblázatban azt tükrözi, hogy ilyen és olyan terméket adott el ilyen és ilyen ügyfélnek egy ilyen vagy olyan menedzser, és nagyjából nem tartalmaz mást, mint ezt az információt. Az ilyen, több év alatt felhalmozott rekordok nagyszámú felhalmozódása azonban további, sokkal értékesebb információk forrásává válhat, amelyek nem szerezhetők be egyetlen rekord alapján, nevezetesen az adatok mintázatairól, trendjeiről vagy összefüggéseiről szóló információk. . Ilyen információk például az arra vonatkozó információk, hogy egy adott termék eladásai hogyan függenek a hét napjától, a napszaktól vagy az évszaktól, a vásárlók mely kategóriái vásárolnak leggyakrabban egy adott terméket, egy adott termék vásárlóinak mekkora hányada vásárol egy másik terméket. , mely ügyfélkategória a leggyakrabban nem fizeti vissza időben a hitelt.

Az ilyen jellegű információkat általában előrejelzésben, stratégiai tervezésben, kockázatelemzésben használják fel, és értéke a vállalat számára igen magas. Nyilván ezért hívták a keresési folyamatot Data Miningnek (a bányászat angolul „bányászatot” jelent, és a tényleges adatok hatalmas halmazában való minták keresése valóban ehhez hasonló). Az adatbányászat kifejezés nem annyira egy konkrét technológiára vonatkozik, mint inkább arra a folyamatra, amely során különféle matematikai és statisztikai algoritmusok segítségével keresünk összefüggéseket, trendeket, összefüggéseket és mintákat: klaszterezés, részminták létrehozása, regressziós és korrelációs elemzés. A keresés célja az adatok olyan formában történő bemutatása, amely egyértelműen tükrözi az üzleti folyamatokat, valamint olyan modell felépítése, amellyel előre jelezhetőek az üzleti tervezés szempontjából kritikus folyamatok (például bizonyos áruk iránti kereslet dinamikája, ill. szolgáltatások vagy vásárlásuk bizonyos fogyasztói jellemzőktől való függősége).

Megjegyzendő, hogy a hagyományos matematikai statisztika, amely sokáig az adatelemzés fő eszköze maradt, valamint az online analitikai feldolgozó (OLAP) eszközök, amelyekről már sokszor írtunk (lásd a CD-n található anyagokat a témában) nem mindig használható sikeresen az ilyen problémák megoldására. Általában statisztikai módszereket és OLAP-t használnak az előre megfogalmazott hipotézisek tesztelésére. Gyakran azonban a hipotézis megfogalmazása bizonyul a legnehezebb feladatnak a későbbi döntéshozatalhoz szükséges üzleti elemzés végrehajtása során, mivel az adatokban nem minden mintázat egyértelmű első pillantásra.

A modern adatbányászati technológia alapja a minták koncepciója, amelyek tükrözik az adatalmintákban rejlő mintákat. A minták keresése olyan módszerekkel történik, amelyek nem használnak a priori feltételezéseket ezekről a részmintákról. Míg a statisztikai elemzés vagy az OLAP-alkalmazások általában olyan kérdéseket fogalmaznak meg, mint például: „Átlagosan mennyi a kifizetetlen számlák száma ennek a szolgáltatásnak az ügyfelei által?”, addig az adatbányászat általában olyan kérdésekre ad választ, mint „Van-e olyan tipikus ügyfélkategória, aki nem számlákat fizetni?” Ugyanakkor a második kérdésre adott válasz az, amely gyakran nem triviális megközelítést ad a marketingpolitikához és az ügyfelekkel való munka megszervezéséhez.

Az adatbányászat egyik fontos jellemzője, hogy a keresett minták nem szabványosak és nem nyilvánvalóak. Vagyis az adatbányászati eszközök abban különböznek a statisztikai adatfeldolgozó eszközöktől és az OLAP-eszközöktől, hogy a felhasználók által feltételezett kölcsönös függőségek ellenőrzése helyett a rendelkezésre álló adatok alapján önállóan is meg tudják találni az ilyen kölcsönös függőségeket, és hipotéziseket állítanak fel a természetükről.

Meg kell jegyezni, hogy az adatbányászati eszközök használata nem zárja ki a statisztikai eszközök és az OLAP eszközök használatát, mivel az utóbbiak felhasználásával végzett adatfeldolgozás eredményei általában hozzájárulnak a szükséges minták természetének jobb megértéséhez. meg kell keresni.

Az adatbányászat kezdeti adatai

Az Adatbányászat alkalmazása akkor indokolt, ha kellően nagy mennyiségű adat áll rendelkezésre, ideális esetben egy megfelelően kialakított adattárházban (sőt, maguk az adattárházak általában a döntéstámogatáshoz kapcsolódó elemzési és előrejelzési problémák megoldására jönnek létre). Az adattárházak építésének elveiről is többször írtunk; a vonatkozó anyagok megtalálhatók a CD-n, ezért ezen a kérdésen nem térünk ki. Csak emlékeztetünk arra, hogy a tárhelyen lévő adatok egy feltöltött készlet, amely az egész vállalkozásra jellemző, és lehetővé teszi, hogy bármikor képet kapjon a tevékenységéről. Vegye figyelembe azt is, hogy a tárolási adatstruktúra úgy van kialakítva, hogy a hozzá intézett kérések végrehajtása a lehető leghatékonyabban történjen. Léteznek azonban olyan Data Mining eszközök, amelyek nem csak adattárházakban, hanem OLAP kockákban, azaz előre feldolgozott statisztikai adatok halmazaiban is kereshetnek mintákat, összefüggéseket, trendeket.

Az adatbányászati módszerekkel feltárt minták típusai

V.A.Dyuk szerint az adatbányászati módszerekkel öt szabványos mintatípus létezik:

Társulás - az események összekapcsolásának nagy valószínűsége (például egy terméket gyakran vásárolnak egy másikkal együtt);

Sorozat - időben összefüggő események láncolatának nagy valószínűsége (például egy termék megvásárlását követő bizonyos időszakon belül nagy valószínűséggel egy másikat vásárolnak meg);

Osztályozás - vannak olyan jelek, amelyek azt a csoportot jellemzik, amelyhez ez vagy az az esemény vagy objektum tartozik (általában bizonyos szabályokat a már besorolt események elemzése alapján fogalmaznak meg);

A klaszterezés az osztályozáshoz hasonló mintázat, és abban különbözik attól, hogy maguk a csoportok ebben az esetben nincsenek beállítva - az adatfeldolgozás során automatikusan észlelik őket;

Időbeli minták - minták jelenléte bizonyos adatok viselkedésének dinamikájában (tipikus példa bizonyos áruk vagy szolgáltatások iránti kereslet szezonális ingadozása), amelyeket előrejelzésre használnak.

Adatbányászati módszerek az adatbányászatban

Manapság meglehetősen sok különböző adatbányászati módszer létezik. A V.A. Dyuk által javasolt fenti besorolás alapján ezek a következők:

Regressziós, diszperziós és korrelációs elemzés (a legtöbb modern statisztikai csomagban megvalósítva, különösen a SAS Institute, StatSoft stb. termékeiben);

Egy adott tárgykörben empirikus modelleken alapuló elemzési módszerek (gyakran alkalmazzák pl. olcsó pénzügyi elemzési eszközökben);

Neurális hálózati algoritmusok, amelyek ötlete az idegszövet működésével való analógián alapul, és abban a tényben rejlik, hogy a kezdeti paramétereket olyan jeleknek tekintik, amelyek a "neuronok" közötti meglévő kapcsolatoknak megfelelően átalakulnak. az elemzésből adódó válaszként pedig a teljes hálózat válasza a kiindulási adatokra. A linkek ebben az esetben úgynevezett hálózati tanulással jönnek létre, nagy mintán keresztül, amely tartalmazza az eredeti adatokat és a helyes válaszokat is;

Algoritmusok - az eredeti adatok közeli analógjának kiválasztása a már rendelkezésre álló történelmi adatokból. A legközelebbi szomszéd módszernek is nevezik;

Döntési fák – olyan kérdések halmazán alapuló hierarchikus struktúra, amelyek „igen” vagy „nem” választ tartalmaznak; annak ellenére, hogy ez az adatfeldolgozási módszer nem mindig ideálisan találja meg a meglévő mintákat, a kapott válasz egyértelműsége miatt meglehetősen gyakran használják előrejelző rendszerekben;

A fürtmodellek (néha szegmentációs modelleknek is nevezik) arra szolgálnak, hogy a hasonló eseményeket csoportokba csoportosítsák egy adatkészlet több mezőjének hasonló értékei alapján; nagyon népszerűek az előrejelző rendszerek létrehozásában is;

Korlátozott keresési algoritmusok, amelyek kiszámítják az egyszerű logikai események kombinációinak gyakoriságát adatalcsoportokban;

Evolúciós programozás - az adatok egymásra utaltságát kifejező algoritmus keresése és generálása egy kezdetben meghatározott, a keresési folyamatban módosított algoritmus alapján; időnként a kölcsönös függőségek keresése bizonyos típusú függvények (például polinomok) között történik.

Ezekről és más adatbányászati algoritmusokról, valamint az azokat megvalósító eszközökről további részletek találhatók V.A. „Data Mining: a training course” című könyvében. Ma egyike azon kevés orosz nyelvű könyveknek, amelyek ennek a problémának szentelték.

Az adatbányászati eszközök vezető gyártói

Az adatbányászati eszközök, mint a legtöbb Business Intelligence eszköz, hagyományosan a drága szoftvereszközök közé tartoznak – némelyikük ára eléri a több tízezer dollárt. Ezért ennek a technológiának a fő fogyasztói a közelmúltig bankok, pénzügyi és biztosító társaságok, nagy kereskedelmi vállalkozások voltak, az adatbányászat alkalmazását igénylő fő feladatok pedig a hitel- és biztosítási kockázatok felmérése, valamint a marketingpolitika, tarifa kidolgozása volt. terveket és az ügyfelekkel való munka egyéb elveit. Az elmúlt években a helyzet bizonyos változásokon ment keresztül: több gyártó viszonylag olcsó Data Mining eszközei jelentek meg a szoftverpiacon, amelyek olyan kis- és középvállalkozások számára is elérhetővé tették ezt a technológiát, amelyek korábban nem gondoltak rá.

A modern üzleti intelligencia eszközök közé tartoznak a jelentéskészítők, az elemző adatfeldolgozó eszközök, a BI-megoldás-fejlesztő eszközök (BI Platformok) és az úgynevezett Enterprise BI Suite-ok – az egész vállalatra kiterjedő adatelemző és -feldolgozó eszközök, amelyek lehetővé teszik a adatelemzés és jelentéskészítés, és gyakran tartalmazzák a BI-eszközök és a BI-alkalmazás-fejlesztő eszközök integrált készletét. Ez utóbbiak általában tartalmaznak jelentéskészítő eszközöket és OLAP eszközöket, és gyakran adatbányászati eszközöket is.

A Gartner Group elemzői szerint a Business Objects, a Cognos, az Information Builders vezető szerepet tölt be a vállalati szintű adatelemzés és -feldolgozás piacán, és a Microsoft és az Oracle is vezető szerepet vállalt (1. ábra). Ami a BI-megoldások fejlesztőeszközeit illeti, ezen a területen a vezető szerepért a Microsoft és a SAS Institute a fő versenyzők (2. ábra).

Vegye figyelembe, hogy a Microsoft Business Intelligence eszközei viszonylag olcsó termékek, amelyek a vállalatok széles köre számára elérhetők. Éppen ezért a cikk további részeiben meg fogunk vizsgálni néhány gyakorlati szempontot az adatbányászat használatának, ennek a cégnek a termékeinek felhasználásával.

Irodalom:

1. Duke V.A. Data Mining - adatbányászat. - http://www.olap.ru/basic/dm2.asp.

2. Dyuk V.A., Samoylenko A.P. Adatbányászat: képzés. - Szentpétervár: Péter, 2001.

3. B. de Ville. Microsoft adatbányászat. Digitális sajtó, 2001.

A felfedezhető tudás tulajdonságai

Adatbányászati ​​feladatok

Osztályozás

Klaszterezés

Egyesület (egyesületek)

Sorozat vagy szekvenciális asszociáció

Regresszió, előrejelzés (előrejelzés)

További feladatok

Klaszterezés és osztályozás összehasonlítása

A DataMining hatókörei

Mód

A módszerek osztályozása

klaszteranalízis

Algoritmus k-means (k-means)

Bayesi hálózatok

Mesterséges idegi hálózat

Adatbányászati ​​eszközök

Bibliográfia

Közelgő adatbányászati ​​tanfolyamok a StatSoft Adatelemző Akadémián 2020-ban

Videó 1. Mi az adatbányászat?

2. videó: Az adatbányászat áttekintése: döntési fák, általános prediktív modellek, klaszterezés és egyebek

Videó 3. Az adatbázisokkal való interakció sorrendje: grafikus felület SQL lekérdezések készítéséhez Helyi adatbázis-feldolgozási technológia

4. videó: Interaktív fúrás: Feltárási és ábrázolási módszerek az interaktív adatfeltáráshoz

Videó 5. Egyesületi szabályzat

Webinárium 1. Webinárium "Az adatbányászat gyakorlati feladatai: problémák és megoldások"

Webinar 2. Webinar "Adatbányászat és szövegbányászat: Példák valós problémák megoldására"

1.2 Bányászati ​​rendszerek összetevői

1.3 Adatbányászati ​​módszerek

2.1 Társulási szabályzat levezetése

2.2 Neurális hálózati algoritmusok

2.3 Legközelebbi szomszéd és k-legközelebbi szomszéd módszerek

2.4 Döntési fák

2.5 Klaszterezési algoritmusok

Az adatbányászat kezdeti adatai

Az adatbányászati ​​módszerekkel feltárt minták típusai

Adatbányászati ​​módszerek az adatbányászatban

Az adatbányászati ​​eszközök vezető gyártói

Adatbányászati feladatok

Adatbányászati eszközök

Közelgő adatbányászati tanfolyamok a StatSoft Adatelemző Akadémián 2020-ban

1.2 Bányászati rendszerek összetevői

1.3 Adatbányászati módszerek

Az adatbányászati módszerekkel feltárt minták típusai

Adatbányászati módszerek az adatbányászatban

Az adatbányászati eszközök vezető gyártói