Ce este data mining. Tehnologia de extragere a datelor

Sistemele OLAP oferă analistului un mijloc de testare a ipotezelor atunci când analizează datele, adică sarcina principală a analistului este de a genera ipoteze, pe care le rezolvă pe baza cunoștințelor și experienței sale.Cu toate acestea, nu numai o persoană are cunoștințe, ci și datele acumulate care sunt analizate . O astfel de cunoaștere este conținută într-o cantitate imensă de informații pe care o persoană nu este capabilă să le exploreze singură. În acest sens, există posibilitatea de a lipsi ipoteze care pot aduce beneficii semnificative.

Pentru detectarea cunoștințelor „ascunse” se folosesc metode speciale de analiză automată, cu ajutorul cărora trebuie să se extragă practic cunoștințe din „blocațiile” informațiilor. Termenul „mining de date (DataMining)” sau „exploatare de date” a fost atribuit acestei direcții.

Există multe definiții ale DataMining care se completează reciproc. Aici sunt câțiva dintre ei.

DataMining este procesul de descoperire a modelelor netriviale și practic utile în bazele de date. (grup de bază)

Data Mining este procesul de extragere, explorare și modelare a unor cantități mari de date pentru a descoperi modele (modeluri) necunoscute anterior pentru a obține beneficii de afaceri (SAS Institute)

DataMining-ul este un proces care urmărește să descopere noi corelații, modele și tendințe semnificative prin analizarea unor cantități mari de date stocate folosind tehnici de recunoaștere a modelelor plus aplicarea metodelor statistice și matematice (GartnerGroup)

DataMining este studiul și descoperirea de către o „mașină” (algoritmi, instrumente de inteligență artificială) în date brute ale cunoștințelor ascunse carenecunoscut anterior, nebanal, practic util, disponibil pentru interpretareuman (A. Bargesyan „Tehnologii pentru analiza datelor”)

DataMining este procesul de descoperire a cunoștințelor utile despre afaceri (N.M. Abdikeev „KBA”)

Proprietățile cunoștințelor descoperite

Luați în considerare proprietățile cunoștințelor de descoperit.

  • Cunoștințele trebuie să fie noi, necunoscute anterior. Efortul depus pentru descoperirea cunoștințelor deja cunoscute utilizatorului nu dă roade. Prin urmare, cunoștințele noi, necunoscute anterior, au valoare.
  • Cunoștințele nu trebuie să fie banale. Rezultatele analizei ar trebui să reflecte neevidente, neașteptatetipare în datele care alcătuiesc așa-numitele cunoștințe ascunse. Rezultate care s-ar putea obține mai mult moduri simple(de exemplu, prin inspecție vizuală) nu justifică utilizarea unor metode puternice de DataMining.
  • Cunoștințele ar trebui să fie practic utile. Cunoștințele găsite ar trebui să fie aplicabile, inclusiv asupra datelor noi, cu suficient un grad înalt fiabilitate. Utilitatea constă în faptul că aceste cunoștințe pot aduce unele beneficii în aplicarea lor.
  • Cunoașterea trebuie să fie accesibilă înțelegerii umane. Modelele găsite trebuie să fie explicabile logic, altfel există posibilitatea ca acestea să fie aleatorii. În plus, cunoștințele descoperite ar trebui prezentate într-o formă ușor de înțeles de om.

În DataMining, modelele sunt folosite pentru a reprezenta cunoștințele dobândite. Tipurile de modele depind de metodele de creare a acestora. Cele mai comune sunt: ​​reguli, arbori de decizie, clustere și funcții matematice.

Sarcini de extragere a datelor

Amintiți-vă că tehnologia DataMining se bazează pe conceptul de tipare, care sunt regularități. Ca urmare a descoperirii acestor regularități ascunse cu ochiul liber, problemele de DataMining sunt rezolvate. Diferite tipuri de modele, care pot fi exprimate într-o formă care poate fi citită de om, corespund anumitor sarcini DataMining.

Nu există un consens cu privire la sarcinile care trebuie atribuite DataMining. Cele mai multe surse autorizate enumeră următoarele: clasificare,

grupare, predicție, asociere, vizualizare, analiză și descoperire

abateri, evaluare, analiza relatiilor, debriefing.

Scopul descrierii care urmează este de a oferi o imagine de ansamblu asupra problemelor DataMining, de a compara unele dintre ele, precum și de a prezenta câteva dintre metodele prin care aceste probleme sunt rezolvate. Cele mai comune sarcini de DataMining sunt clasificarea, gruparea, asocierea, predicția și vizualizarea. Astfel, sarcinile sunt împărțite în funcție de tipurile de informații produse, aceasta este cea mai generală clasificare a sarcinilor DataMining.

Clasificare

Sarcina de a împărți un set de obiecte sau observații în grupuri date a priori, numite clase, în cadrul cărora se presupune că sunt similare între ele, având aproximativ aceleași proprietăți și caracteristici. În acest caz, soluția se obține pe baza analiză valori ale atributelor (trăsăturii).

Clasificarea este una dintre cele mai importante sarcini datamining . Se aplica in marketing la evaluarea bonităţii debitorilor, determinând loialitatea clienților, recunoasterea formelor , diagnosticare medicală și multe alte aplicații. Dacă analistul cunoaște proprietățile obiectelor fiecărei clase, atunci când o nouă observație aparține unei anumite clase, aceste proprietăți se aplică automat acesteia.

Dacă numărul de clase este limitat la două, atunciclasificare binară , la care pot fi reduse multe probleme mai complexe. De exemplu, în loc să definiți astfel de grade de risc de credit ca „Ridicat”, „Mediu” sau „Scăzut”, puteți utiliza doar două - „Problemă” sau „Refuz”.

Pentru clasificarea în DataMining, sunt utilizate multe modele diferite: rețele neuronale, arbori de decizie , suportă mașini vectoriale, k-mai apropiati vecini, algoritmi de acoperire etc., care sunt construite folosind învățarea supravegheată atunci cândvariabila de iesire(eticheta clasei ) este dat pentru fiecare observație. În mod formal, clasificarea se bazează pe partițiespații caracteristice în zone, în cadrul fiecăruia dintre acesteavectori multidimensionali sunt considerate identice. Cu alte cuvinte, dacă un obiect a căzut într-o regiune a spațiului asociată cu o anumită clasă, acesta îi aparține.

Clustering

Scurta descriere. Clusteringul este o continuare logică a ideii

clasificare. Această sarcină este mai complicată, particularitatea grupării este că clasele de obiecte nu sunt inițial predeterminate. Rezultatul grupării este împărțirea obiectelor în grupuri.

Un exemplu de metodă pentru rezolvarea unei probleme de clustering: învățarea „fără profesor” de un tip special rețele neuronale- Hărți auto-organizate Kohonen.

Asociație (Asociații)

Scurta descriere. În cursul rezolvării problemei căutării regulilor de asociere, se găsesc modele între evenimente conexeîn setul de date.

Diferența dintre asociere și cele două sarcini DataMining anterioare este că căutarea modelelor nu se bazează pe proprietățile obiectului analizat, ci între mai multe evenimente care apar simultan. Cel mai cunoscut algoritm pentru rezolvarea problemei găsirii regulilor de asociere este algoritmul Apriori.

Secvență sau asociere secvențială

Scurta descriere. Secvența vă permite să găsiți modele temporale între tranzacții. Sarcina unei secvențe este similară cu o asociere, dar scopul ei este de a stabili modele nu între evenimente care apar simultan, ci între evenimente legate în timp (adică, care au loc la un anumit interval de timp). Cu alte cuvinte, succesiunea este determinată de probabilitatea mare a unui lanț de evenimente legate în timp. De fapt, o asociere este un caz special al unei secvențe cu decalaj de timp zero. Această problemă de DataMining se mai numește și problema modelului secvenţial.

Regula secvenței: după evenimentul X până la anumit timp evenimentul Y va avea loc.

Exemplu. După cumpărarea unui apartament, chiriașii în 60% din cazuri achiziționează un frigider în termen de două săptămâni, iar în două luni, în 50% din cazuri, este achiziționat un televizor. Soluția la această problemă este utilizată pe scară largă în marketing și management, de exemplu, în gestionarea ciclului de viață al clientului (CustomerLifecycleManagement).

Regresie, prognoză (Forecasting)

Scurta descriere. Ca urmare a soluționării problemei de prognoză, pe baza caracteristicilor datelor istorice, se estimează valorile lipsă sau viitoare ale indicatorilor numerici țintă.

Pentru rezolvarea unor astfel de probleme sunt utilizate pe scară largă metode de statistică matematică, rețele neuronale etc.

Sarcini suplimentare

Determinarea abaterilor sau a valorii aberante (DeviationDetection), analiza variației sau a valorii aberante

Scurta descriere. Scopul rezolvării acestei probleme este detectarea și analiza datelor care diferă cel mai mult de setul general de date, identificarea așa-numitelor modele necaracteristice.

Estimare

Sarcina de estimare se reduce la prezicerea valorilor continue ale unei caracteristici.

Analiza legăturii (LinkAnalysis)

Sarcina de a găsi dependențe într-un set de date.

Vizualizare (Vizualizare, GraphMining)

Ca rezultat al vizualizării, este creată o imagine grafică a datelor analizate. Pentru a rezolva problema de vizualizare, se folosesc metode grafice pentru a arăta prezența modelelor în date.

Un exemplu de tehnici de vizualizare este prezentarea datelor în dimensiuni 2-D și 3-D.

Rezumat

Sarcina, al cărei scop este descrierea unor grupuri specifice de obiecte din setul de date analizat.

Destul de aproape de clasificarea de mai sus este împărțirea sarcinilor DataMining în următoarele: cercetare și descoperire, predicție și clasificare, explicație și descriere.

Cercetare și descoperire automată (căutare gratuită)

Exemplu de sarcină: descoperirea de noi segmente de piață.

Pentru rezolvarea acestei clase de probleme se folosesc metode de analiză a clusterelor.

Predicție și clasificare

Exemplu de problemă: preziceți creșterea vânzărilor pe baza valorilor curente.

Metode: regresie, rețele neuronale, algoritmi genetici, arbori de decizie.

Sarcinile de clasificare și prognoză constituie un grup de așa-numită modelare inductivă, care are ca rezultat studiul obiectului sau sistemului analizat. În procesul de rezolvare a acestor probleme, pe baza unui set de date, a model general sau o ipoteză.

Explicație și descriere

Exemplu de problemă: caracterizarea clienților după date demografice și istoricul achizițiilor.

Metode: arbori de decizie, sisteme de reguli, reguli de asociere, analiză de legături.

Dacă venitul clientului este mai mare de 50 de unități convenționale, iar vârsta acestuia este mai mare de 30 de ani, atunci clasa clientului este prima.

Compararea grupării și clasificării

Caracteristică

Clasificare

Clustering

Controlabilitatea învățării

controlat

incontrolabil

Strategii

Învățarea cu un profesor

Învățați fără profesor

Prezența unei etichete de clasă

Set de antrenament

însoțită de o etichetă care indică

clasa căreia îi aparține

observare

Predarea etichetelor de clasă

seturi necunoscute

Baza clasificării

Datele noi sunt clasificate pe baza setului de antrenament

Având o mulțime de date în acest scop

stabilirea existenţei

clase sau clustere de date

Domeniile de aplicare ale Data Mining

Trebuie remarcat faptul că astăzi tehnologia DataMining este cea mai utilizată în rezolvarea problemelor de afaceri. Poate că motivul este că tocmai în această direcție rentabilitatea utilizării instrumentelor de DataMining poate fi, potrivit unor surse, de până la 1000%, iar costurile implementării acestuia se pot amortiza rapid.

Vom analiza în detaliu cele patru aplicații principale ale tehnologiei DataMining: știință, afaceri, cercetare guvernamentală și web.

sarcini de afaceri. Domenii principale: bancar, finanțe, asigurări, CRM, producție, telecomunicații, comerț electronic, marketing, bursă și altele.

    Dacă să acorde un împrumut clientului

    Segmentarea pieței

    Atragerea de noi clienți

    Frauda cu cardul de credit

Aplicația DataMining pentru rezolvarea problemelor la nivel de stat. Direcții principale: căutarea evazilor fiscale; mijloace în lupta împotriva terorismului.

Aplicația DataMining pentru cercetare științifică . Domenii principale: medicină, biologie, genetică moleculară și inginerie genetică, bioinformatică, astronomie, chimie aplicată, cercetare a dependenței de droguri și altele.

Aplicarea DataMining la o soluție Sarcini web. Direcții principale: motoare de căutare (motoare de căutare), contoare și altele.

Comerț electronic

În domeniul comerțului electronic, DataMining este folosit pentru a genera

Această clasificare permite companiilor să identifice grupuri specifice de clienți și să conducă politici de marketing în conformitate cu interesele și nevoile identificate ale clienților. Tehnologia DataMining pentru comerțul electronic este strâns legată de tehnologia WebMining.

Principalele sarcini ale DataMining în producția industrială:

analiza sistem complex a situațiilor de producție;

· prognoza pe termen scurt si lung a evolutiei situatiilor de productie;

dezvoltarea de opțiuni pentru soluții de optimizare;

Predicția calității unui produs în funcție de unii parametri

proces tehnologic;

detectarea tendințelor și modelelor ascunse de dezvoltare a producției

procese;

prognozarea modelelor de dezvoltare a proceselor de producție;

detectarea factorilor de influență ascunși;

detectarea și identificarea relațiilor necunoscute anterior între

parametrii de producție și factorii de influență;

analiza mediului de interacţiune a proceselor de producţie şi prognoză

modificări ale caracteristicilor sale;

procese;

vizualizarea rezultatelor analizelor, intocmirea de rapoarte preliminare si proiecte

soluții fezabile cu estimări ale fiabilității și eficienței posibilelor implementări.

Marketing

În domeniul marketingului, DataMining este utilizat pe scară largă.

Întrebări de bază de marketing „Ce este de vânzare?”, „Cum este de vânzare?”, „Cine este

consumator?"

În prelegerea despre problemele de clasificare și clustering, utilizarea analizei cluster pentru rezolvarea problemelor de marketing, cum ar fi segmentarea consumatorilor, este descrisă în detaliu.

Un alt set comun de metode pentru rezolvarea problemelor de marketing sunt metodele și algoritmii de căutare a regulilor de asociere.

Căutarea tiparelor temporale este, de asemenea, folosită cu succes aici.

Cu amănuntul

În retail, ca și în marketing, aplicați:

Algoritmi pentru căutarea regulilor de asociere (pentru determinarea seturilor care apar frecvent

bunuri pe care cumpărătorii le cumpără în același timp). Identificarea unor astfel de reguli ajută

plasați mărfurile pe rafturile platformelor comerciale, dezvoltați strategii pentru achiziționarea de bunuri

și plasarea lor în depozite etc.

utilizarea secvențelor de timp, de exemplu, pentru a determina

cantitatea necesară de stoc în depozit.

metode de clasificare și grupare pentru a identifica grupuri sau categorii de clienți,

cunoașterea cărora contribuie la promovarea cu succes a mărfurilor.

Bursa de valori

Iată o listă a problemelor pieței de valori care pot fi rezolvate folosind tehnologia Data

Minerit: prognozarea valorilor viitoare ale instrumentelor și indicatorilor financiari

valorile trecute;

prognoza tendinței (direcția viitoare de mișcare - creștere, scădere, plată) a financiarului

instrumentul și puterea acestuia (puternic, moderat puternic etc.);

alocarea structurii cluster a pieței, industriei, sectorului în funcție de un anumit set

caracteristici;

· control dinamic portofoliu

prognoza volatilitatii;

evaluare a riscurilor;

previziunea declanșării crizei și prognoza dezvoltării acesteia;

selectarea activelor etc.

Pe lângă domeniile de activitate descrise mai sus, tehnologia DataMining poate fi aplicată într-o mare varietate de domenii de afaceri în care este nevoie de analiza datelor și s-a acumulat o anumită cantitate de informații retrospective.

Aplicarea DataMining în CRM

Una dintre cele mai promițătoare aplicații ale DataMining este utilizarea acestei tehnologii în CRM analitic.

CRM (Customer Relationship Management) - managementul relatiilor cu clientii.

La partajarea dintre aceste tehnologii, extragerea cunoștințelor este combinată cu „exploatarea banilor” din datele clienților.

Un aspect important în activitatea departamentelor de marketing și vânzări este pregătireao viziune holistică asupra clienților, informații despre caracteristicile acestora, caracteristicile, structura bazei de clienți. CRM folosește așa-numita profilareclienților, oferind o imagine completă a tuturor informațiilor necesare despre clienți.

Profilarea clienților include următoarele componente: segmentarea clienților, profitabilitatea clienților, reținerea clienților, analiza răspunsului clienților. Fiecare dintre aceste componente poate fi explorată folosind DataMining, iar analiza lor împreună ca componente de profilare poate duce la cunoștințe care nu pot fi obținute din fiecare caracteristică individuală.

webmining

WebMining poate fi tradus ca „exploatare de date pe Web”. WebIntelligence sau Web.

Intelligence este gata să „deschidă un nou capitol” în dezvoltarea rapidă a e-business-ului. Capacitatea de a determina interesele și preferințele fiecărui vizitator prin observarea comportamentului acestuia reprezintă un avantaj competitiv serios și critic pe piața de comerț electronic.

Sistemele WebMining pot răspunde la multe întrebări, de exemplu, care dintre vizitatori este un potențial client al magazinului web, ce grup de clienți ai magazinului web aduce cele mai multe venituri, care sunt interesele unui anumit vizitator sau grup de vizitatori.

Metode

Clasificarea metodelor

Există două grupe de metode:

  • metode statistice bazate pe utilizarea experienței medii acumulate, care se reflectă în date retrospective;
  • metode cibernetice, inclusiv multe abordări matematice eterogene.

Dezavantajul unei astfel de clasificări este că atât algoritmii statistici, cât și cei cibernetici se bazează într-un fel sau altul pe o comparație a experienței statistice cu rezultatele monitorizării situației actuale.

Avantajul unei astfel de clasificări este comoditatea sa pentru interpretare - este folosită în descrierea instrumentelor matematice ale abordării moderne de extragere a cunoștințelor din șiruri de observații inițiale (operaționale și retrospective), de exemplu. în sarcinile Data Mining.

Să aruncăm o privire mai atentă la grupurile de mai sus.

Metode statistice Exploatarea datelor

În aceste metodele sunt patru secțiuni interdependente:

  • analiza preliminară a naturii datelor statistice (testarea ipotezelor de staționaritate, normalitate, independență, omogenitate, evaluarea tipului funcției de distribuție, a parametrilor acesteia etc.);
  • identificarea legăturilor şi modele(analiza de regresie liniară și neliniară, analiza de corelație etc.);
  • analiza statistică multivariată (analiza discriminantă liniară și neliniară, analiza clusterului, analiza componentelor, analiza factorilor si etc.);
  • modele dinamice și prognoză bazate pe serii de timp.

Arsenalul de metode statistice Data Mining este clasificat în patru grupe de metode:

  1. Analiza descriptivă și descrierea datelor inițiale.
  2. Analiza relațiilor (analiza de corelație și regresie, analiza factorială, analiza varianței).
  3. Analiza statistică multivariată (analiza componentelor, analiza discriminantă, analiza regresiei multivariate, corelații canonice etc.).
  4. Analiza seriilor temporale (modele dinamice si prognoza).

Metode cibernetice de extragere a datelor

A doua direcție a Data Mining este un set de abordări unite de ideea matematicii computerizate și utilizarea teoriei inteligenței artificiale.

Acest grup include următoarele metode:

  • rețele neuronale artificiale (recunoaștere, grupare, prognoză);
  • programare evolutivă (inclusiv algoritmi ai metodei de contabilizare de grup a argumentelor);
  • algoritmi genetici (optimizare);
  • memorie asociativă (căutare analogi, prototipuri);
  • logica fuzzy;
  • arbori de decizie;
  • sisteme expert de procesare a cunoștințelor.

analiza grupului

Scopul grupării este de a căuta structuri existente.

Clusteringul este o procedură descriptivă, nu trage concluzii statistice, dar oferă o oportunitate de a efectua analize exploratorii și de a studia „structura datelor”.

Însuși conceptul de „cluster” este definit ambiguu: fiecare studiu are propriile „clustere”. Conceptul de cluster (cluster) este tradus ca „cluster”, „buch”. Un cluster poate fi descris ca un grup de obiecte care au proprietăți comune.

Există două caracteristici ale unui cluster:

  • omogenitate internă;
  • izolare externă.

O întrebare pe care analiștii o pun în multe probleme este cum să organizăm datele în structuri vizuale, de ex. extinde taxonomiile.

Inițial, gruparea a fost utilizată pe scară largă în științe precum biologia, antropologia și psihologia. Multă vreme, clustering-ul a fost puțin utilizat pentru rezolvarea problemelor economice datorită specificului datelor și fenomenelor economice.

Clusterele pot fi nesuprapuse sau exclusive (nesuprapune, exclusive) și intersectate (suprapune).

Trebuie remarcat faptul că, în urma aplicării diferitelor metode de analiză a clusterelor, pot fi obținute clustere de diferite forme. De exemplu, grupurile de tip „lanț” sunt posibile, atunci când clusterele sunt reprezentate de „lanțuri” lungi, clustere alungite etc., iar unele metode pot crea clustere de formă arbitrară.

Diverse metode pot avea ca scop crearea de clustere de anumite dimensiuni (de exemplu, mici sau mari) sau să presupună clustere de dimensiuni diferite în setul de date. Unele metode de analiză a clusterelor sunt deosebit de sensibile la zgomot sau valori aberante, în timp ce altele sunt mai puțin sensibile. Ca rezultat al aplicării diferitelor metode de grupare, pot fi obținute rezultate diferite, acest lucru este normal și este o caracteristică a funcționării unui anumit algoritm. Aceste caracteristici trebuie luate în considerare atunci când alegeți o metodă de grupare.

Să dăm o scurtă descriere a abordărilor grupării.

Algoritmi bazați pe partiționarea datelor (Partitioningalgorithms), incl. iterativ:

  • împărțirea obiectelor în k clustere;
  • redistribuirea iterativă a obiectelor pentru a îmbunătăți gruparea.
  • Algoritmi ierarhici (Hierarhialgorithms):
  • aglomerare: fiecare obiect este inițial un cluster, clustere,
  • conectându-se între ele, formează un grup mai mare etc.

Metode bazate pe concentrarea obiectelor (Metode bazate pe densitate):

  • bazat pe conectivitatea obiectelor;
  • ignora zgomotele, găsind clustere de formă arbitrară.

Grilă - metode (metode bazate pe grilă):

  • cuantificarea obiectelor din structurile grilă.

Metode de model (pe baza de model):

  • folosind modelul pentru a găsi clusterele care se potrivesc cel mai bine cu datele.

Metode de analiză a clusterelor. metode iterative.

Cu un număr mare de observații, metodele ierarhice de analiză a clusterelor nu sunt potrivite. În astfel de cazuri, se folosesc metode non-ierarhice bazate pe divizare, care sunt metode iterative de împărțire a populației inițiale. În timpul procesului de divizare, se formează noi clustere până când se îndeplinește regula de oprire.

O astfel de grupare neierarhică constă în împărțirea unui set de date într-un anumit număr de clustere distincte. Există două abordări. Primul este de a defini granițele clusterelor ca zonele cele mai dense din spațiul multidimensional al datelor inițiale, i.e. definirea unui cluster unde există o mare „concentrație de puncte”. A doua abordare este de a minimiza măsura diferenței obiectelor

Algoritmul k-means (k-means)

Cel mai comun dintre metodele non-ierarhice este algoritmul k-means, numit și analiză rapidă a clusterelor. Descriere completa algoritmul poate fi găsit în lucrarea lui Hartigan și Wong (1978). Spre deosebire de metodele ierarhice, care nu necesită presupuneri preliminare cu privire la numărul de clustere, pentru a putea folosi această metodă, este necesar să existe o ipoteză despre numărul cel mai probabil de clustere.

Algoritmul k-means construiește k clustere distanțate cât mai mult posibil. Principalul tip de probleme pe care le rezolvă algoritmul k-means este prezența unor ipoteze (ipoteze) privind numărul de clustere, în timp ce acestea ar trebui să fie cât mai diferite. Alegerea numărului k se poate baza pe cercetări anterioare, considerații teoretice sau intuiție.

Ideea generală a algoritmului: un anumit număr fix k de clustere de observație este comparat cu clustere în așa fel încât mediile din cluster (pentru toate variabilele) să difere cât mai mult una de cealaltă.

Descrierea algoritmului

1. Distribuția inițială a obiectelor pe clustere.

  • Se alege numărul k, iar la prima etapă aceste puncte sunt considerate a fi „centrele” clusterelor.
  • Fiecare cluster corespunde unui centru.

Alegerea centroizilor inițiali poate fi efectuată după cum urmează:

  • alegerea k-observațiilor pentru a maximiza distanța inițială;
  • selecția aleatorie a k-observațiilor;
  • alegerea primelor k-observaţii.

Ca rezultat, fiecare obiect este alocat unui anumit cluster.

2. Proces iterativ.

Se calculează centrele clusterelor, care apoi și mai departe sunt considerate a fi mijloacele coordonate ale clusterelor. Obiectele sunt redistribuite.

Procesul de calcul al centrelor și redistribuirea obiectelor continuă până când este îndeplinită una dintre următoarele condiții:

  • centrele cluster s-au stabilizat, adică toate observațiile aparțin clusterului căruia îi aparțineau înainte de iterația curentă;
  • numărul de iterații este egal cu numărul maxim de iterații.

Figura prezintă un exemplu de funcționare a algoritmului k-medii pentru k egal cu doi.

Un exemplu de algoritm k-means (k=2)

Alegerea numărului de clustere este o problemă complexă. Dacă nu există ipoteze despre acest număr, se recomandă crearea a 2 clustere, apoi 3, 4, 5 etc., comparând rezultatele.

Verificarea calității grupării

După obținerea rezultatelor analizei cluster folosind metoda k-means, ar trebui să se verifice corectitudinea grupării (adică, se evaluează modul în care clusterele diferă unele de altele).

Pentru a face acest lucru, se calculează valori medii pentru fiecare cluster. O bună grupare ar trebui să producă mijloace foarte diferite pentru toate măsurătorile, sau cel puțin pentru majoritatea dintre ele.

Avantajele algoritmului k-means:

  • ușurință în utilizare;
  • viteza de utilizare;
  • claritatea și transparența algoritmului.

Dezavantajele algoritmului k-means:

  • algoritmul este prea sensibil la valori aberante care pot distorsiona media.

Soluție posibilă această problemă este de a folosi o modificare a algoritmului -k-algoritm median;

  • algoritmul poate fi lent pe baze de date mari. O posibilă soluție la această problemă este utilizarea eșantionării datelor.

Rețele bayesiene

În teoria probabilității, conceptul de dependență de informații este modelat de dependența condiționată (sau strict: lipsa independenței condiționate), care descrie modul în care încrederea noastră în rezultatul unui eveniment se schimbă atunci când dobândim noi cunoștințe despre fapte, având în vedere că știam deja un set de alte fapte.

Este convenabil și intuitiv să se reprezinte dependențele dintre elemente prin intermediul unei căi direcționate care conectează aceste elemente într-un grafic. Dacă relația dintre elementele x și y nu este directă și se realizează prin al treilea element z, atunci este logic să ne așteptăm că va exista un element z pe calea dintre x și y. Astfel de noduri intermediare vor „taia” dependența dintre x și y, adică. să modeleze o situaţie de independenţă condiţionată între ei cu o valoare cunoscută a factorilor direcţi de influenţă.Astfel de limbaje de modelare sunt rețele bayesiene, care servesc pentru a descrie dependențele condiționate dintre conceptele unui anumit domeniu.

Rețelele bayesiene sunt structuri grafice pentru reprezentarea relațiilor probabilistice între un număr mare de variabile și pentru efectuarea inferenței probabilistice pe baza acelor variabile.Clasificarea „naivă” (bayesiană) este o metodă de clasificare destul de transparentă și de înțeles. „Naivă” este numită pentru că pornește din ipoteza reciprocă.independența caracteristică.

Proprietăți de clasificare:

1. Utilizarea tuturor variabilelor și definirea tuturor dependențelor dintre ele.

2. Având două ipoteze despre variabile:

  • toate variabilele sunt la fel de importante;
  • toate variabilele sunt independente statistic, adică Valoarea unei variabile nu spune nimic despre valoarea celeilalte.

Există două scenarii principale pentru utilizarea rețelelor bayesiene:

1. Analiza descriptivă. Tematica este afișată sub formă de grafic, ale cărui noduri reprezintă concepte, iar arcele direcționate afișate prin săgeți ilustrează relațiile directe dintre aceste concepte. Relația dintre x și y înseamnă că cunoașterea valorii lui x vă ajută să faceți o mai bună presupunere despre valoarea lui y. Absența unei legături directe între concepte modelează independența condiționată dintre ele, având în vedere valorile cunoscute ale unui anumit set de concepte „separatoare”. De exemplu, mărimea pantofilor unui copil este în mod evident legată de capacitatea copilului de a citi în vârstă. Astfel, o mărime mai mare de pantof oferă mai multă încredere că copilul citește deja, dar dacă știm deja vârsta, atunci cunoașterea mărimii pantofilor nu ne va mai oferi Informații suplimentare despre capacitatea copilului de a citi.


Ca un alt exemplu, opus, luați în considerare factori inițial care nu au legătură, cum ar fi fumatul și răceala. Dar dacă cunoaștem un simptom, de exemplu, că o persoană suferă de tuse matinală, atunci știind că o persoană nu fumează ne crește încrederea că o persoană este răcită.

2. Clasificare și prognoză. Rețeaua bayesiană, permițând independența condiționată a unui număr de concepte, face posibilă reducerea numărului de parametri de distribuție comună, făcând posibilă estimarea cu încredere a acestora pe volumele de date disponibile. Deci, cu 10 variabile, fiecare dintre ele poate lua 10 valori, numărul de parametri de distribuție comună este de 10 miliarde - 1. Dacă presupunem că doar 2 variabile depind una de alta între aceste variabile, atunci numărul de parametri devine 8 * ( 10-1) + (10 * 10-1) = 171. Având un model de distribuție comună care este realist din punct de vedere al resurselor de calcul, putem prezice valoarea necunoscută a unui concept ca, de exemplu, cea mai probabilă valoare a acestui concept cu valori cunoscute ale altor concepte.

Ei notează astfel de avantaje ale rețelelor bayesiene ca metodă DataMining:

Dependențele dintre toate variabilele sunt definite în model, acest lucru ușureazăgestionează situațiile în care valorile unor variabile sunt necunoscute;

Rețelele bayesiene sunt destul de simplu interpretate și permit în fazamodelarea predictivă este ușor de realizat analiza scenariului „ce-ar fi dacă”;

Metoda Bayesiană vă permite să combinați în mod natural modele,derivate din date și, de exemplu, cunoștințe de specialitate obținute în mod explicit;

Utilizarea rețelelor bayesiene evită problema supraadaptării(suprafitting), adică o complicație excesivă a modelului, care este o slăbiciunemulte metode (de exemplu, arbori de decizie și rețele neuronale).

Abordarea naive bayesiană are următoarele dezavantaje:

Înmulțirea probabilităților condiționate este corectă numai atunci când toate intrărilevariabilele sunt într-adevăr independente statistic; deşi această metodă este adeseaarată rezultate destul de bune dacă starea statisticăindependența, dar teoretic o astfel de situație ar trebui gestionată de mai complexemetode bazate pe antrenarea rețelelor bayesiene;

Procesarea directă imposibilă a variabilelor continue - sunt necesareconversie la o scară de interval, astfel încât atributele să fie discrete; totusi asatransformările pot duce uneori la pierderea tiparelor semnificative;

Rezultatul clasificării în abordarea naiv Bayesian este afectat doar devalori individuale ale variabilelor de intrare, influență combinată a perechilor sautripletele de valori ale diferitelor atribute nu sunt luate în considerare aici. Acest lucru s-ar putea îmbunătățicalitatea modelului de clasificare în ceea ce privește acuratețea predictivă,cu toate acestea, ar crește numărul de variante testate.

Rețele neuronale artificiale

Rețelele neuronale artificiale (denumite în continuare rețele neuronale) pot fi sincrone și asincrone.În rețelele neuronale sincrone, numai în fiecare moment de timp un neuron. În asincron - starea se schimbă imediat pentru un întreg grup de neuroni, de regulă, pentru orice strat. Se pot distinge două arhitecturi de bază - rețelele stratificate și complet conectate.Conceptul cheie în rețelele stratificate este conceptul de strat.Strat - unul sau mai mulți neuroni, ale căror intrări sunt furnizate cu același semnal comun.Rețelele neuronale stratificate sunt rețele neuronale în care neuronii sunt împărțiți în grupuri separate (straturi), astfel încât procesarea informațiilor să fie efectuată în straturi.În rețelele stratificate, neuronii stratului i primesc semnale de intrare, le transformă și le transmit prin punctele de ramificație către neuronii (i + 1) stratului. Și așa mai departe până la stratul k-lea, care dăsemnale de ieșire pentru interpret și utilizator. Numărul de neuroni din fiecare strat nu este legat de numărul de neuroni din alte straturi, poate fi arbitrar.Într-un singur strat, datele sunt procesate în paralel, iar în întreaga rețea, procesarea se realizează secvenţial - de la strat la strat. Rețelele neuronale stratificate includ, de exemplu, perceptroni multistrat, rețele de funcții de bază radială, cognitron, noncognitron, rețele de memorie asociativă.Cu toate acestea, semnalul nu este întotdeauna aplicat tuturor neuronilor stratului. Într-un cognitron, de exemplu, fiecare neuron al stratului curent primește semnale numai de la neuronii apropiați în stratul anterior.

Rețelele stratificate, la rândul lor, pot fi cu un singur strat și cu mai multe straturi.

Rețea cu un singur strat- o rețea formată dintr-un singur strat.

Rețea multistrat- o retea cu mai multe straturi.

Într-o rețea multistrat, primul strat este numit strat de intrare, straturile ulterioare sunt numite interne sau ascunse, iar ultimul strat este stratul de ieșire. Astfel, straturile intermediare sunt toate straturile dintr-o rețea neuronală multistrat, cu excepția intrării și ieșirii.Stratul de intrare al rețelei implementează conexiunea cu datele de intrare, stratul de ieșire - cu ieșirea.Astfel, neuronii pot fi de intrare, de ieșire și ascunși.Stratul de intrare este organizat din neuronii de intrare care primesc date și le distribuie la intrările neuronilor din stratul ascuns al rețelei.Un neuron ascuns este un neuron situat în strat ascuns Retea neurala.Produce neuroni de ieșire, din care este organizat stratul de ieșire al rețeleirezultatele rețelei neuronale.

În rețele complet conectate fiecare neuron își transmite semnalul de ieșire către restul neuronilor, inclusiv către el însuși. Semnalele de ieșire ale rețelei pot fi toate sau unele dintre semnalele de ieșire ale neuronilor după mai multe cicluri de ceas ale rețelei.

Toate semnalele de intrare sunt transmise tuturor neuronilor.

Antrenamentul rețelelor neuronale

Înainte de a utiliza o rețea neuronală, aceasta trebuie instruită.Procesul de învățare al unei rețele neuronale constă în ajustarea parametrilor ei interni pentru o anumită sarcină.Algoritmul rețelei neuronale este iterativ, pașii săi se numesc epoci sau cicluri.Epocă - o iterație în procesul de învățare, inclusiv prezentarea tuturor exemplelor din setul de instruire și, eventual, verificarea calității antrenamentului pe control a stabilit. Procesul de învățare se desfășoară pe setul de instruire.Eșantionul de antrenament include valorile de intrare și valorile lor de ieșire corespunzătoare din setul de date. În cursul antrenamentului, rețeaua neuronală găsește unele dependențe ale câmpurilor de ieșire față de cele de intrare.Astfel, ne confruntăm cu întrebarea - de ce câmpuri de intrare (funcții) avem nevoienecesar de utilizat. Inițial, alegerea se face euristic, apoinumărul de intrări poate fi modificat.

Complexitatea poate ridica problema numărului de observații din setul de date. Și deși există unele reguli care descriu relația dintre numărul necesar de observații și dimensiunea rețelei, corectitudinea lor nu a fost dovedită.Numărul de observații necesare depinde de complexitatea problemei care se rezolvă. Odată cu creșterea numărului de caracteristici, numărul de observații crește neliniar, această problemă se numește „blestemul dimensionalității”. Cu cantitate insuficientădate, se recomandă utilizarea unui model liniar.

Analistul trebuie să determine numărul de straturi din rețea și numărul de neuroni din fiecare strat.În continuare, trebuie să atribuiți astfel de valori de ponderi și părtiniri care potminimizați eroarea de decizie. Greutățile și părtinirile sunt ajustate automat astfel încât să minimizeze diferența dintre semnalele dorite și cele de ieșire, ceea ce se numește eroare de antrenament.Eroarea de învățare pentru rețeaua neuronală construită este calculată prin compararevalorile de ieșire și țintă (dorite). Funcția de eroare se formează din diferențele obținute.

Funcția de eroare este o funcție obiectivă care trebuie redusă la minimum în procesînvăţarea controlată a reţelelor neuronale.Folosind funcția de eroare, puteți evalua calitatea rețelei neuronale în timpul antrenamentului. De exemplu, suma erorilor pătrate este adesea folosită.Capacitatea de a rezolva sarcinile atribuite depinde de calitatea antrenamentului rețelei neuronale.

Recalificarea rețelei neuronale

Când antrenați rețelele neuronale, apare adesea o dificultate serioasă, numităproblema de supraadaptare.Suprafitting, sau overfitting - supramontarerețeaua neuronală la un set specific de exemple de antrenament, în care rețeaua pierdecapacitatea de generalizare.Suprafitting apare atunci când antrenamentul este prea lung, nu suficientexemple de antrenament sau structură supracomplicată a rețelei neuronale.Suprafitting se datorează faptului că alegerea setului de antrenament (antrenament).este aleatorie. Încă de la primii pași de antrenament, eroarea este redusă. Pepașii următori pentru a reduce parametrii de eroare (funcția obiectivă).ajustate la caracteristicile setului de antrenament. Cu toate acestea, acest lucru se întâmplă"ajustare" nu la modelele generale ale seriei, ci la caracteristicile părții sale -subset de antrenament. În acest caz, acuratețea prognozei scade.Una dintre opțiunile pentru a face față recalificării în rețea este împărțirea eșantionului de formare în douăseturi (antrenament și test).Pe setul de antrenament, rețeaua neuronală este antrenată. Pe setul de testare, modelul construit este verificat. Aceste seturi nu trebuie să se intersecteze.Cu fiecare pas, parametrii modelului se modifică, totuși, o scădere constantăvaloarea funcţiei obiectiv apare tocmai pe setul de antrenament. La împărțirea setului în două, putem observa modificarea erorii de prognoză pe setul de test în paralel cu observațiile de pe setul de antrenament. nistenumărul de pași de eroare de predicție scade pe ambele seturi. Cu toate acestea, pela un anumit pas, eroarea de pe setul de testare începe să crească, în timp ce eroarea de pe setul de antrenament continuă să scadă. Acest moment este considerat începutul recalificării.

Instrumente de extragere a datelor

Dezvoltarea în sectorul DataMining al pieței globale de software este ocupată atât de lideri de renume mondial, cât și de noi companii emergente. Instrumentele DataMining pot fi prezentate fie ca o aplicație autonomă, fie ca suplimente la produsul principal.Ultima opțiune este implementată de mulți lideri de pe piața de software.Deci, a devenit deja o tradiție ca dezvoltatorii de pachete statistice universale, pe lângă metodele tradiționale de analiză statistică, să includă în pachetun anumit set de metode DataMining. Acestea sunt pachete de genul SPSS (SPSS, Clementine), Statistica (StatSoft), SAS Institute (SAS Enterprise Miner). Unii dezvoltatori de soluții OLAP oferă și un set de tehnici DataMining, cum ar fi familia de produse Cognos. Există furnizori care includ soluții DataMining în funcționalitatea DBMS: aceștia sunt Microsoft (MicrosoftSQLServer), Oracle, IBM (IBMintelligentMinerforData).

Bibliografie

  1. Abdikeev N.M. Danko T.P. Ildemenov S.V. Kiselev A.D., „Reinginerirea proceselor de afaceri. Curs MBA”, Moscova: Editura Eksmo, 2005. - 592 p. - (MBA)
  1. Abdikeev N.M., Kiselev A.D. „Managementul cunoștințelor în corporații și reingineria afacerilor” - M.: Infra-M, 2011.- 382 p. – ISBN 978-5-16-004300-5
  1. Barseghian A.A., Kupriyanov M.S., Stepanenko V.V., Holod I.I. „Metode și modele de analiză a datelor: OLAP și Data Mining”, Sankt Petersburg: BHV-Petersburg, 2004, 336 p., ISBN 5-94157-522-X
  1. Duce ÎN., Samoilenko A., „Data Mining.Curs de pregătire „SPb: Piter, 2001, 386s.
  1. Chubukova I.A., Curs de exploatare a datelor, http://www.intuit.ru/department/database/datamining/
  1. IanH. Witten, Eibe Frank, Mark A. Hall, Morgan Kaufmann, Data Mining: Practical Machine Learning Tools and Techniques (Ediția a treia), ISBN 978-0-12-374856-0
  1. Petrushin V.A. , Khan L., Multimedia Data Mining and Knowledge Discovery

Exploatarea datelor

Data Mining este o metodologie și un proces pentru descoperirea unor cantități mari de date care se acumulează în sisteme de informare firme, necunoscute anterior, nebanale, practic utile și accesibile pentru interpretarea cunoștințelor necesare luării deciziilor în diverse domenii ale activității umane. Miningul de date este una dintre etapele metodologiei mai mari de descoperire a cunoștințelor în baze de date.

Cunoștințele descoperite în procesul de Data Mining trebuie să fie nebanale și necunoscute anterior. Non-trivialitatea sugerează că astfel de cunoștințe nu pot fi descoperite printr-o simplă analiză vizuală. Ar trebui să descrie relațiile dintre proprietățile obiectelor de afaceri, să prezică valorile unor caracteristici pe baza altora și așa mai departe. Cunoștințele găsite ar trebui să fie aplicabile obiectelor noi.

Utilitatea practică a cunoștințelor se datorează posibilității de utilizare a acestora în procesul de susținere a adopției decizii de managementși îmbunătățirea activităților companiei.

Cunoștințele ar trebui prezentate într-o formă care să fie pe înțelesul utilizatorilor care nu au o pregătire specială în matematică. De exemplu, construcțiile logice „dacă, atunci” sunt cel mai ușor percepute de o persoană. Mai mult, astfel de reguli pot fi folosite în diferite SGBD ca interogări SQL. În cazul în care cunoștințele extrase nu sunt transparente pentru utilizator, ar trebui să existe metode de post-procesare care să permită aducerea lor într-o formă interpretabilă.

Exploatarea datelor nu este una, ci o combinație a unui număr mare de metode diferite de descoperire a cunoștințelor. Toate sarcinile rezolvate prin metodele Data Mining pot fi împărțite condiționat în șase tipuri:

Exploatarea datelor este de natură multidisciplinară, deoarece include elemente de metode numerice, statistică matematică și teoria probabilității, teoria informațiilor și logica matematică, inteligența artificială și învățarea automată.

Sarcinile de analiză a afacerii sunt formulate în moduri diferite, dar soluția celor mai multe dintre ele se rezumă la una sau alta sarcină de Data Mining sau la o combinație a acestora. De exemplu, evaluarea riscului este o soluție la o problemă de regresie sau clasificare, segmentarea pieței este gruparea, stimularea cererii este reguli de asociere. De fapt, sarcinile de Data Mining sunt elemente din care poți „asambla” soluția la majoritatea problemelor reale de afaceri.

Pentru a rezolva problemele de mai sus, se folosesc diverse metode și algoritmi de Data Mining. Având în vedere faptul că Data Mining s-a dezvoltat și se dezvoltă la intersecția unor astfel de discipline precum statistici matematice, teoria informației, învățarea automată și bazele de date, este destul de firesc ca majoritatea algoritmilor și metodelor de Data Mining să fie dezvoltate pe baza diferitelor metode din aceste discipline. De exemplu, algoritmul de grupare k-means a fost împrumutat din statistici.

Vă urăm bun venit pe Portalul Data Mining - un portal unic dedicat metodelor moderne de Data Mining.

Tehnologiile Data Mining sunt un instrument puternic pentru business intelligence modern și data mining pentru a descoperi modele ascunse și pentru a construi modele predictive. Miningul de date sau extragerea cunoștințelor nu se bazează pe raționamente speculative, ci pe date reale.

Orez. 1. Schema de aplicare a Data Miningului

Definirea problemei - Definirea problemei: clasificarea datelor, segmentarea, construirea modelelor predictive, prognoza.
Colectarea și pregătirea datelor - Colectarea și pregătirea datelor, curățarea, verificarea, eliminarea înregistrărilor duplicate.
Construire model - Construirea unui model, evaluarea acurateței.
Knowledge Deployment - Aplicarea modelului pentru rezolvarea problemei.

Data Mining este utilizat pentru implementarea proiectelor analitice la scară largă în afaceri, marketing, internet, telecomunicații, industrie, geologie, medicină, produse farmaceutice și alte domenii.

Data Mining vă permite să începeți procesul de găsire a corelațiilor și relațiilor semnificative ca urmare a verificării unei cantități uriașe de date folosind metode moderne recunoașterea modelelor și aplicarea unicului tehnologii analitice, inclusiv arbori de decizie și clasificare, clustering, metode de rețele neuronale și altele.

Un utilizator care descoperă pentru prima dată tehnologia data mining este uimit de abundența de metode și algoritmi eficienți care permit găsirea unor abordări pentru rezolvarea problemelor dificile legate de analiza unor cantități mari de date.

În general, Data Mining poate fi descrisă ca o tehnologie concepută pentru a căuta în cantități mari de date. neevident, obiectiv si practic util modele.

Data Mining se bazează pe metode și algoritmi eficienți dezvoltați pentru analiza datelor nestructurate de volum și dimensiune mare.

Punctul cheie este că datele de volum mare și dimensiune mare par a fi lipsite de structură și relații. Scopul tehnologiei data mining este de a identifica aceste structuri și de a găsi modele în care, la prima vedere, domnește haosul și arbitrariul.

Iată un exemplu real de aplicare a exploatării datelor în industria farmaceutică și a medicamentelor.

Interacțiunile medicamentoase reprezintă o problemă în creștere cu care se confruntă asistența medicală modernă.

De-a lungul timpului, numărul medicamentelor prescrise (eliberate fără prescripție medicală și tot felul de suplimente) crește, ceea ce face din ce în ce mai probabil ca interacțiunile dintre medicamente să provoace reacții adverse grave de care medicii și pacienții nu sunt conștienți.

Această zonă se referă la studii post-clinice, când medicamentul este deja pe piață și este utilizat pe scară largă.

Studiile clinice se referă la evaluarea eficacității medicamentului, dar iau în considerare slab interacțiunile acestui medicament cu alte medicamente de pe piață.

Cercetătorii de la Universitatea Stanford din California au studiat baza de date a FDA (Food and Drug Administration) privind efectele secundare ale medicamentelor și au descoperit că două medicamente utilizate în mod obișnuit - paroxetina antidepresivă și pravastatina, folosite pentru a scădea nivelul colesterolului - cresc riscul de a dezvolta diabet dacă sunt luate împreună.

Un studiu de analiză similar bazat pe datele FDA a identificat 47 de interacțiuni adverse necunoscute anterior.

Acest lucru este remarcabil, cu avertismentul că multe dintre efectele negative observate de pacienți rămân nedetectate. Doar în acest caz, căutarea în rețea se poate afișa în cel mai bun mod.

Următoarele cursuri de Data Mining la Academia StatSoft de Analiză a Datelor în 2020

Începem cunoștințele noastre cu Data Mining folosind minunatele videoclipuri ale Academiei de Analiză a Datelor.

Asigurați-vă că urmăriți videoclipurile noastre și veți înțelege ce este Data Mining!

Video 1. Ce este data mining?


Videoclipul 2: Prezentare generală a minării de date: arbori de decizie, modele predictive generalizate, grupare și multe altele

JavaScript este dezactivat în browserul dvs


Înainte de a începe un proiect de cercetare, trebuie să organizăm procesul de obținere a datelor din surse externe, acum vom arăta cum se face acest lucru.

Videoclipul vă va prezenta tehnologia unică STATISTICI Prelucrarea bazelor de date in loc și conexiunea Data Mining cu date reale.

Video 3. Ordinea interacțiunii cu bazele de date: o interfață grafică pentru construirea de interogări SQL Tehnologia de procesare a bazelor de date la loc

JavaScript este dezactivat în browserul dvs


Acum ne vom familiariza cu tehnologiile interactive de foraj care sunt eficiente în efectuarea analizei exploratorii a datelor. Termenul de foraj în sine reflectă legătura dintre tehnologia Data Mining și explorarea geologică.

Video 4. Foraj interactiv: Metode de explorare și reprezentare grafică pentru explorarea interactivă a datelor

JavaScript este dezactivat în browserul dvs


Acum ne vom familiariza cu analiza asociațiilor (reguli de asociere), acești algoritmi vă permit să găsiți relații care există în datele reale. Punctul cheie este eficiența algoritmilor pe cantități mari de date.

Rezultatul algoritmilor de analiză a legăturilor, de exemplu, algoritmul Apriori, este de a găsi regulile pentru legăturile obiectelor studiate cu o fiabilitate dată, de exemplu, 80%.

În geologie, acești algoritmi pot fi aplicați în analiza de explorare a mineralelor, de exemplu, modul în care caracteristica A este legată de caracteristicile B și C.

puteți găsi exemple concrete astfel de soluții pe link-urile noastre:

În retail, algoritmii Apriori sau modificările acestora vă permit să explorați relația dintre diferite produse, de exemplu, atunci când vindeți parfumuri (parfum - lac - rimel etc.) sau produse de diferite mărci.

De asemenea, analiza celor mai interesante secțiuni de pe site poate fi efectuată eficient folosind reguli de asociere.

Așa că vezi următorul nostru videoclip.

Video 5. Reguli de asociere

JavaScript este dezactivat în browserul dvs

Să dăm exemple de aplicare a Data Mining-ului în domenii specifice.

Tranzacționare pe internet:

  • analiza traiectoriilor clienților de la vizitarea site-ului până la achiziționarea de bunuri
  • evaluarea eficienței serviciului, analiza defecțiunilor din cauza lipsei de bunuri
  • conectarea produselor care sunt de interes pentru vizitatori

Retail: Analiza informațiilor clienților pe baza Carduri de credit, carduri de reducere etc.

Sarcini tipice de retail rezolvate de instrumentele Data Mining:

  • analiza coșului de cumpărături;
  • crearea de modele predictiveși modele de clasificare a cumpărătorilor și bunurilor achiziționate;
  • crearea de profiluri de cumpărător;
  • CRM, evaluarea fidelitatii clientilor diferitelor categorii, planificarea programelor de fidelizare;
  • cercetarea serii temporaleși dependențe de timp, selecția factorilor sezonieri, evaluarea eficienței promoțiilor pe o gamă largă de date reale.

Sectorul telecomunicațiilor deschide oportunități nelimitate pentru aplicarea metodelor de data mining, precum și a tehnologiilor moderne de big data:

  • clasificarea clienților pe baza caracteristicilor cheie ale apelurilor (frecvență, durată etc.), frecvență SMS;
  • identificarea fidelității clienților;
  • definirea fraudei etc.

Asigurare:

  • analiza de risc. Prin identificarea combinațiilor de factori asociați cu daunele plătite, asigurătorii își pot reduce pierderile din răspundere. Există un caz cunoscut când o companie de asigurări a descoperit că sumele plătite pe cererile persoanelor căsătorite sunt de două ori mai mari decât sumele pe cererile persoanelor singure. Compania a răspuns la aceasta prin revizuirea politicii sale de reduceri pentru clienții de familie.
  • detectarea fraudei. Companiile de asigurări pot reduce frauda căutând stereotipuri în cererile de despăgubire care caracterizează relațiile dintre avocați, medici și reclamanți.

Aplicația practică a minării de date și soluționarea unor probleme specifice este prezentată în următorul nostru videoclip.

Webinar 1. Webinar „Sarcini practice de data mining: probleme și soluții”

JavaScript este dezactivat în browserul dvs

Webinar 2. Webinar „Data Mining și Text Mining: Exemple de rezolvare a problemelor reale”

JavaScript este dezactivat în browserul dvs


Puteți obține cunoștințe mai aprofundate despre metodologia și tehnologia minării datelor la cursurile StatSoft.

Ministerul Educației și Științei al Federației Ruse

Instituția de învățământ de învățământ profesional superior bugetar de stat federal

„UNIVERSITATEA POLITEHNICĂ TOMSK DE CERCETARE NAȚIONALĂ”

Institutul de Cibernetică

Directia Informatica si Inginerie Calculatoare

Departamentul de VT

Test

la disciplina informatică și inginerie informatică

Subiect: Metode de extragere a datelor

Introducere

extragerea datelor. Concepte de bază și definiții

1 Etape ale procesului de extragere a datelor

2 Componentele sistemelor de data mining

3 Metode de data mining în Data Mining

Metode de extragere a datelor

1 Derivarea regulilor de asociere

2 algoritmi de rețea neuronală

3 Metodele celui mai apropiat vecin și k-cel mai apropiat vecin

4 Arbori de decizie

5 algoritmi de grupare

6 Algoritmi genetici

Aplicații

Producători de instrumente de exploatare a datelor

Critica metodelor

Concluzie

Bibliografie

Introducere

Rezultatul dezvoltării tehnologiei informației este o cantitate colosală de date acumulate în formă electronică, care crește într-un ritm rapid. În același timp, datele, de regulă, au o structură eterogenă (texte, imagini, audio, video, documente hipertext, baze de date relaționale). Acumulat pentru termen lung datele pot conține modele, tendințe și relații care sunt informații valoroase în planificare, prognoză, luarea deciziilor, controlul procesului. Cu toate acestea, o persoană nu este capabilă fizic să analizeze în mod eficient astfel de volume de date eterogene. Metodele statisticii matematice tradiționale au revendicat de multă vreme rolul principalului instrument de analiză a datelor. Cu toate acestea, ele nu permit sinteza de noi ipoteze și pot fi folosite doar pentru confirmarea ipotezelor preformulate și a analizei exploratorii „brutale”, care formează baza prelucrării analitice online (OLAP). Adesea, formularea unei ipoteze se dovedește a fi cea mai dificilă sarcină atunci când se efectuează o analiză pentru luarea unei decizii ulterioare, deoarece nu toate modelele din date sunt evidente la prima vedere. Prin urmare, tehnologiile de data mining sunt considerate drept unul dintre cele mai importante și promițătoare subiecte pentru cercetare și aplicare în industria tehnologiei informației. În acest caz, data mining este înțeles ca procesul de determinare a cunoștințelor noi, corecte și potențial utile pe baza unor seturi mari de date. Astfel, MIT Technology Review a descris data mining drept una dintre cele zece tehnologii emergente care vor schimba lumea.

1. Exploatarea datelor. Concepte de bază și definiții

Data Mining este procesul de descoperire a cunoștințelor necunoscute anterior, nebanale, practic utile și accesibile în date brute, care sunt necesare pentru luarea deciziilor în diverse domenii ale activității umane.

Esența și scopul tehnologiei Data Mining pot fi formulate după cum urmează: este o tehnologie care este concepută pentru a căuta modele neevidente, obiective și practice în cantități mari de date.

Tiparele neevidente sunt tipare care nu pot fi detectate prin metode standard de procesare a informațiilor sau de către un expert.

Legile obiective ar trebui înțelese ca legi care sunt pe deplin în concordanță cu realitatea, în contrast cu opinia experților, care este întotdeauna subiectivă.

Acest concept de analiză a datelor sugerează că:

§ datele pot fi inexacte, incomplete (conțin lacune), contradictorii, eterogene, indirecte și, în același timp, să aibă volume gigantice; prin urmare, înțelegerea datelor în aplicații specifice necesită un efort intelectual semnificativ;

§ algoritmii de analiză a datelor înșiși pot avea „elemente de inteligență”, în special, capacitatea de a învăța din precedente, adică de a trage concluzii generale pe baza unor observații particulare; dezvoltarea unor astfel de algoritmi necesită, de asemenea, un efort intelectual considerabil;

§ Procesele de prelucrare a datelor brute în informație și a informațiilor în cunoștințe nu pot fi efectuate manual și necesită automatizare.

Tehnologia Data Mining se bazează pe conceptul de șabloane (patterns), reflectând fragmente de relații multidimensionale în date. Aceste modele sunt modele inerente subeșantioanelor de date care pot fi exprimate concis într-o formă care poate fi citită de om.

Căutarea șabloanelor se realizează prin metode care nu sunt limitate de ipoteze a priori despre structura eșantionului și tipul de distribuție a valorilor indicatorilor analizați.

O caracteristică importantă Data Mining-ul este non-standardul și neevidența tiparelor dorite. Cu alte cuvinte, instrumentele Data Mining diferă de instrumentele de procesare a datelor statistice și instrumentele OLAP prin aceea că, în loc să verifice interdependența pe care le presupun utilizatorii, ei sunt capabili să găsească singuri astfel de interdependențe pe baza datelor disponibile și să construiască ipoteze despre natura lor. Există cinci tipuri standard de modele identificate prin metodele Data Mining:

asociere - probabilitate mare de conectare a evenimentelor între ele. Un exemplu de asociație sunt articolele dintr-un magazin, adesea achiziționate împreună;

secvență - o mare probabilitate a unui lanț de evenimente conectate în timp. Un exemplu de secvență este o situație în care, într-o anumită perioadă de timp de la achiziția unui produs, altul va fi achiziționat cu un grad ridicat de probabilitate;

Clasificare - există semne care caracterizează grupul căruia îi aparține un eveniment sau un obiect;

clustering - un model similar cu clasificarea și care diferă de acesta prin faptul că grupurile în sine nu sunt specificate - sunt detectate automat în procesul de prelucrare a datelor;

· modele temporale - prezența modelelor în dinamica comportamentului anumitor date. Un exemplu tipic de model temporal sunt fluctuațiile sezoniere ale cererii pentru anumite bunuri sau servicii.

1.1 Pași în procesul de extragere a datelor

În mod tradițional, în procesul de extragere a datelor se disting următoarele etape:

1. Studiul disciplinei, în urma căruia se formulează principalele scopuri ale analizei.

2. Colectarea datelor.

Preprocesarea datelor:

A. Curățarea datelor - eliminarea contradicțiilor și a „zgomotului” aleatoriu din datele originale

b. Integrarea datelor - combinarea datelor din mai multe surse posibile într-un singur depozit. Conversia datelor. În această etapă, datele sunt convertite într-o formă adecvată pentru analiză. Sunt adesea folosite agregarea datelor, discretizarea atributelor, compresia datelor și reducerea dimensionalității.

4. Analiza datelor. În această etapă, algoritmii de minerit sunt aplicați pentru a extrage modele.

5. Interpretarea tiparelor găsite. Această etapă poate include vizualizarea tiparelor extrase, identificarea tiparelor cu adevărat utile bazate pe o funcție de utilitate.

Utilizarea noilor cunoștințe.

1.2 Componentele sistemelor miniere

De obicei, următoarele componente principale se disting în sistemele de data mining:

1. Baza de date, depozit de date sau alt depozit de informații. Poate fi una sau mai multe baze de date, depozit de date, foi de calcul, alte tipuri de depozite care pot fi curățate și integrate.

2. Server de bază de date sau de depozit de date. Serverul specificat este responsabil pentru extragerea datelor relevante pe baza cererii utilizatorului.

Bază de cunoștințe. Cunoașterea domeniului este cea care indică cum să căutați și să evaluați utilitatea tiparelor rezultate.

Serviciul Knowledge Mining. Este o parte integrantă a sistemului de data mining și conține un set de module funcționale pentru sarcini precum caracterizarea, căutarea asocierilor, clasificarea, analiza clusterului și analiza varianței.

Modul de evaluare a modelului. Această componentă calculează măsurile de interes sau utilitatea tiparelor.

Grafic interfața cu utilizatorul. Acest modul este responsabil pentru comunicarea dintre utilizator și sistemul de data mining, vizualizarea tiparelor în diferite forme.

1.3 Metode de extragere a datelor

Cele mai multe dintre metodele analitice utilizate în tehnologia Data Mining sunt algoritmi și metode matematice bine-cunoscute. Noutăți în aplicația lor este posibilitatea utilizării lor în rezolvarea anumitor probleme specifice, datorită capacităților emergente ale hardware-ului și software-ului. Trebuie remarcat faptul că majoritatea metodelor de Data Mining au fost dezvoltate în cadrul teoriei inteligenței artificiale. Luați în considerare cele mai utilizate metode:

Derivarea regulilor de asociere.

2. Algoritmi de rețea neuronală, ideea cărora se bazează pe o analogie cu funcționarea țesutului nervos și constă în faptul că parametrii inițiali sunt considerați ca semnale care sunt transformate în conformitate cu conexiunile existente între „neuronii”. „, iar răspunsul întregii rețele este considerat drept răspunsul rezultat în urma analizei pe date inițiale.

Selectarea unui analog apropiat al datelor originale din datele istorice deja disponibile. Denumită și metoda celui mai apropiat vecin.

Arborele de decizie reprezintă o structură ierarhică bazată pe un set de întrebări care necesită un răspuns „Da” sau „Nu”.

Modelele de clustere sunt folosite pentru a grupa evenimente similare în grupuri pe baza valorilor similare ale mai multor câmpuri dintr-un set de date.

În capitolul următor, vom descrie aceste metode mai detaliat.

2. Metode de extragere a datelor

2.1 Derivarea regulilor de asociere

Regulile de asociere sunt reguli de forma „dacă... atunci...”. Căutarea unor astfel de reguli într-un set de date dezvăluie relații ascunse în date aparent fără legătură. Unul dintre cele mai frecvent citate exemple de căutare a regulilor de asociere este problema găsirii unor relații stabile într-un coș de cumpărături. Această problemă este de a determina ce produse sunt achiziționate împreună de către clienți, astfel încât agenții de marketing să poată plasa în mod corespunzător aceste produse în magazin pentru a crește vânzările.

Regulile de asociere sunt definite ca declarații de forma (X1,X2,…,Xn) -> Y, unde se înțelege că Y poate fi prezent într-o tranzacție cu condiția ca X1,X2,…,Xn să fie prezent în aceeași tranzacție. Rețineți că cuvântul „poate” implică faptul că regula nu este o identitate, ci este valabilă doar cu o anumită probabilitate. În plus, Y poate fi un set de elemente, nu doar un element. Probabilitatea de a găsi Y într-o tranzacție care conține elementele X1,X2,…,Xn se numește încredere. Procentul de tranzacții care conțin regula din numărul total de tranzacții se numește suport. Nivelul de certitudine care trebuie să depășească certitudinea regulii se numește interes.

Există diferite tipuri de reguli de asociere. În cea mai simplă formă, regulile de asociere raportează doar prezența sau absența unei asociații. Astfel de reguli se numesc Reguli de asociere booleene. Un exemplu de astfel de regulă este „clienții care cumpără iaurt cumpără și unt cu conținut scăzut de grăsimi”.

Regulile care adună mai multe reguli de asociere împreună se numesc Reguli de asociere pe mai multe niveluri sau generalizate. La construirea unor astfel de reguli, elementele sunt de obicei grupate după o ierarhie, iar căutarea se realizează la cel mai înalt nivel conceptual. De exemplu, „clienții care cumpără lapte cumpără și pâine”. În acest exemplu, laptele și pâinea conțin o ierarhie tipuri variateși mărci, dar căutările de nivel inferior nu vor găsi reguli interesante.

Un tip mai complex de reguli sunt Regulile Cantitative de Asociere. Acest tip de regulă este căutat folosind atribute cantitative (de exemplu, preț) sau categoriale (de exemplu, gen) și este definită ca ( , ,…,} -> . De exemplu, „clienții care au între 30 și 35 de ani cu un venit de peste 75.000 pe an cumpără mașini în valoare de peste 20.000”.

Tipurile de reguli de mai sus nu afectează faptul că tranzacțiile, prin natura lor, sunt dependente de timp. De exemplu, căutarea înainte ca un produs să fie listat spre vânzare sau după ce acesta a dispărut de pe piață va afecta negativ pragul de suport. Având în vedere acest lucru, conceptul de durata de viață a atributului este introdus în algoritmii de căutare pentru regulile de asociere temporală.

Problema găsirii regulilor de asociere poate fi descompusă în linii mari în două părți: căutarea unor seturi de elemente care apar frecvent și generarea de reguli bazate pe mulțimile care apar frecvent. Cercetările anterioare au urmat, în cea mai mare parte, aceste linii și le-au extins în diferite direcții.

De la apariția algoritmului Apriori, acest algoritm a fost cel mai frecvent utilizat în primul pas. Multe îmbunătățiri, de exemplu, în ceea ce privește viteza și scalabilitatea, vizează îmbunătățirea algoritmului Apriori, corectarea proprietății sale eronate de a genera prea mulți candidați pentru seturile de elemente care apar cel mai frecvent. Apriori generează seturi de articole folosind doar seturile de articole mai mari găsite la pasul anterior, fără a revedea tranzacțiile. Algoritmul AprioriTid modificat îmbunătățește Apriori prin utilizarea bazei de date numai la prima trecere. Calculele din etapele ulterioare folosesc doar datele create în prima trecere, care este mult mai mică decât baza de date inițială. Acest lucru are ca rezultat o creștere uriașă a productivității. O versiune îmbunătățită suplimentară a algoritmului, numită AprioriHybrid, poate fi obținută prin utilizarea Apriori la primele treceri, iar apoi, la trecerile ulterioare, atunci când seturile candidate k-lea pot fi deja plasate complet în memoria computerului, trecând la AprioriTid.

Eforturile ulterioare de îmbunătățire a algoritmului Apriori sunt legate de paralelizarea algoritmului (Distribuția numărului, Distribuția datelor, Distribuția candidaților etc.), scalarea acestuia (Distribuție inteligentă a datelor, Distribuție hibridă), introducerea de noi structuri de date, precum arbori de elemente care apar frecvent (FP-creștere).

Al doilea pas este caracterizat în principal de autenticitate și interes. Noile modificări adaugă dimensiunea, calitatea și suportul temporal descrise mai sus regulilor tradiționale ale regulilor booleene. Un algoritm evolutiv este adesea folosit pentru a găsi reguli.

2.2 Algoritmi de rețele neuronale

Rețelele neuronale artificiale au apărut ca urmare a aplicării aparatului matematic la studiul funcționării sistemului nervos uman pentru a-l reproduce. Și anume: capacitatea sistemului nervos de a învăța și de a corecta erorile, care ar trebui să ne permită să modelăm, deși destul de grosolan, activitatea creierului uman. Principala parte structurală și funcțională a rețelei neuronale este neuronul formal, prezentat în Fig. 1, unde x0 , x1,..., xn sunt componentele vectorului semnalelor de intrare, w0 ,w1,...,wn sunt valorile greutăților semnalelor de intrare ale neuronului și y este semnalul de ieșire al neuronului.

Orez. 1. Neuron formal: sinapse (1), sumator (2), convertor (3).

Un neuron formal este format din 3 tipuri de elemente: sinapse, sumator și convertor. Sinapsa caracterizează puterea conexiunii dintre doi neuroni.

Adunatorul efectuează adăugarea semnalelor de intrare înmulțite anterior cu greutățile corespunzătoare. Convertorul implementează funcția unui singur argument - ieșirea sumatorului. Această funcție se numește funcția de activare sau funcția de transfer a neuronului.

Neuronii formali descriși mai sus pot fi combinați în așa fel încât semnalele de ieșire ale unor neuroni să fie introduse către alții. Setul rezultat de neuroni interconectați se numește rețele neuronale artificiale (ANN) sau, pe scurt, rețele neuronale.

Există următoarele trei tipuri generale de neuroni, în funcție de poziția lor în rețeaua neuronală:

Neuroni de intrare cărora li se aplică semnale de intrare. Astfel de neuroni au de obicei o singură intrare cu greutatea unitară, nu există nicio părtinire, iar valoarea de ieșire a neuronului este egală cu semnalul de intrare;

Noduri de ieșire, ale căror valori de ieșire reprezintă semnalele de ieșire rezultate ale rețelei neuronale;

Nodurile ascunse care nu au conexiuni directe cu semnalele de intrare, în timp ce valorile semnalelor de ieșire ale neuronilor ascunși nu sunt semnale de ieșire ale ANN.

În funcție de structura conexiunilor interneuronale, se disting două clase de ANN-uri:

ANN de propagare directă, în care semnalul se propagă numai de la neuronii de intrare la neuronii de ieșire.

ANN recurent - ANN cu feedback. În astfel de ANN, semnalele pot fi transmise între orice neuroni, indiferent de locația lor în ANN.

Există două abordări generale pentru formarea ANN-urilor:

Antrenament cu un profesor.

Învățați fără profesor.

Învățarea supravegheată implică utilizarea unui set preformat de exemple de instruire. Fiecare exemplu conține un vector de semnale de intrare și un vector corespunzător de semnale de ieșire de referință, care depind de sarcina la îndemână. Acest set se numește set de antrenament sau set de antrenament. Antrenamentul rețelei neuronale vizează o astfel de modificare a greutăților conexiunilor ANN, în care valoarea semnalelor de ieșire ale ANN diferă cât mai puțin posibil de valorile necesare ale semnalelor de ieșire pentru un vector dat. a semnalelor de intrare.

În învățarea nesupravegheată, greutățile conexiunii sunt ajustate fie ca urmare a competiției dintre neuroni, fie ținând cont de corelarea semnalelor de ieșire ale neuronilor între care există o conexiune. În cazul învățării nesupravegheate, setul de antrenament nu este utilizat.

Rețelele neuronale sunt folosite pentru a rezolva o gamă largă de probleme, cum ar fi planificarea sarcinilor utile pentru navetele spațiale și prognozarea ratelor de schimb. Cu toate acestea, ele nu sunt adesea folosite în sistemele de data mining din cauza complexității modelului (cunoștințele, fixate ca greutăți a câtorva sute de conexiuni interneuronale, sunt complet imposibil de analizat și interpretat de către o persoană) și timpul lung de antrenament pe un antrenament mare. a stabilit. Pe de altă parte, rețelele neuronale au astfel de avantaje pentru utilizare în sarcinile de analiză a datelor, precum rezistența la datele zgomotoase și precizia ridicată.

2.3 Metodele celui mai apropiat vecin și k-cel mai apropiat vecin

Algoritmul de vecin cel mai apropiat și algoritmul de vecin cel mai apropiat (KNN) se bazează pe asemănarea obiectelor. Algoritmul cel mai apropiat vecin selectează dintre toate obiectele cunoscute obiectul care este cât mai aproape posibil (folosind metrica distanței dintre obiecte, de exemplu, euclidian) de un nou obiect necunoscut anterior. Principala problemă a metodei celui mai apropiat vecin este sensibilitatea acesteia la valori aberante din datele de antrenament.

Problema descrisă poate fi evitată prin algoritmul KNN, care distinge k-cei mai apropiați vecini de toate observațiile care sunt similare cu un obiect nou. Pe baza claselor de vecini cei mai apropiati se ia o decizie cu privire la noul obiect. O sarcină importantă a acestui algoritm este selectarea coeficientului k - numărul de înregistrări care vor fi considerate similare. Modificarea algoritmului, în care contribuția vecinului este proporțională cu distanța până la noul obiect (metoda celor mai apropiați vecini ponderați k), permite obținerea unei mai mari precizii de clasificare. Metoda k cei mai apropiați vecini vă permite, de asemenea, să evaluați acuratețea prognozei. De exemplu, dacă toți k vecini cei mai apropiați au aceeași clasă, atunci probabilitatea ca obiectul verificat să aibă aceeași clasă este foarte mare.

Printre caracteristicile algoritmului, merită remarcată rezistența la valori anormale, deoarece probabilitatea ca o astfel de înregistrare să se încadreze în numărul de vecini k-cel mai apropiat este mică. Dacă se întâmplă acest lucru, atunci impactul asupra votului (în special ponderat) (pentru k>2) este, de asemenea, probabil să fie nesemnificativ și, în consecință, impactul asupra rezultatului clasificării va fi, de asemenea, mic. De asemenea, avantajele sunt implementarea simplă, ușurința de interpretare a rezultatului algoritmului, capacitatea de a modifica algoritmul utilizând cele mai potrivite funcții de combinare și metrici, ceea ce vă permite să ajustați algoritmul pentru o anumită sarcină. Algoritmul KNN are și o serie de dezavantaje. În primul rând, setul de date utilizat pentru algoritm trebuie să fie reprezentativ. În al doilea rând, modelul nu poate fi separat de date: toate exemplele trebuie folosite pentru a clasifica un nou exemplu. Această caracteristică limitează sever utilizarea algoritmului.

2.4 Arbori de decizie

Termenul „arbori de decizie” se referă la o familie de algoritmi bazată pe reprezentarea regulilor de clasificare într-o structură ierarhică, secvenţială. Aceasta este cea mai populară clasă de algoritmi pentru rezolvarea problemelor de data mining.

O familie de algoritmi pentru construirea arborilor de decizie face posibilă prezicerea valorii unui parametru pentru un caz dat pe baza unei cantități mari de date despre alte cazuri similare. De obicei, algoritmii acestei familii sunt utilizați pentru a rezolva probleme care fac posibilă împărțirea tuturor datelor inițiale în mai multe grupuri discrete.

Când se aplică algoritmi de arbore de decizie la un set de date inițiale, rezultatul este afișat ca arbore. Astfel de algoritmi fac posibilă efectuarea mai multor niveluri de astfel de separare, împărțind grupurile rezultate (ramuri de copac) în altele mai mici pe baza altor caracteristici. Împărțirea continuă până când valorile de prezis sunt aceleași (sau, în cazul unei valori continue a parametrului prezis, aproape) pentru toate grupurile primite (frunzele arborelui). Aceste valori sunt folosite pentru a face predicții bazate pe acest model.

Funcționarea algoritmilor pentru construirea arborilor de decizie se bazează pe utilizarea metodelor de regresie și analiză a corelației. Unul dintre cei mai populari algoritmi ai acestei familii este CART (Classification and Regression Trees), bazat pe împărțirea datelor dintr-o ramură de arbore în două ramuri copil; împărțirea ulterioară a unei ramuri sau alteia depinde de câte date inițiale sunt descrise de această ramură. Alți algoritmi similari vă permit să împărțiți o ramură în mai multe ramuri copil. În acest caz, împărțirea se face pe baza celui mai mare coeficient de corelație pentru datele descrise de ramura între parametrul conform căruia are loc împărțirea și parametrul care trebuie prezis în continuare.

Popularitatea abordării este asociată cu vizibilitatea și inteligibilitatea. Dar arborii de decizie sunt în mod fundamental incapabili să găsească „cele mai bune” (cele mai complete și mai precise) reguli în date. Ei implementează principiul naiv al vizualizării succesive a semnelor și găsesc de fapt părți ale tiparelor reale, creând doar iluzia unei concluzii logice.

2.5 Algoritmi de grupare

Clustering este sarcina de a partiționa un set de obiecte în grupuri numite clustere. Principala diferență dintre grupare și clasificare este că lista de grupuri nu este clar definită și este determinată în cursul algoritmului.

Aplicarea analizei cluster în termeni generali se reduce la următorii pași:

selectarea unui eșantion de obiecte pentru grupare;

definirea unui set de variabile prin care vor fi evaluate obiectele din eşantion. Dacă este necesar - normalizarea valorilor variabilelor;

calcularea valorilor de măsurare a asemănării dintre obiecte;

aplicarea metodei analizei cluster pentru a crea grupuri de obiecte similare (clustere);

· prezentarea rezultatelor analizei.

După primirea și analizarea rezultatelor, este posibil să se ajusteze metrica selectată și metoda de grupare până la obținerea unui rezultat optim.

Dintre algoritmii de grupare, se disting grupurile ierarhice și plate. Algoritmii ierarhici (numiți și algoritmi de taxonomie) nu construiesc o singură partiție a eșantionului în clustere disjunse, ci un sistem de partiții imbricate. Astfel, rezultatul algoritmului este un arbore de clustere, a cărui rădăcină este întregul eșantion, iar frunzele sunt cele mai mici clustere. Algoritmii plat construiesc o partiție de obiecte în clustere care nu se intersectează.

O altă clasificare a algoritmilor de grupare este în algoritmi clari și neclari. Algoritmii clari (sau care nu se suprapun) atribuie un număr de cluster fiecărui obiect eșantion, adică fiecare obiect aparține unui singur cluster. Algoritmii fuzzy (sau intersectați) atribuie fiecărui obiect un set de valori reale care arată gradul de relație a obiectului cu clusterele. Astfel, fiecare obiect aparține fiecărui grup cu o anumită probabilitate.

Există două tipuri principale de algoritmi de grupare ierarhică: algoritmi crescător și descrescător. Algoritmii de sus în jos funcționează de sus în jos: mai întâi, toate obiectele sunt plasate într-un singur grup, care este apoi împărțit în grupuri din ce în ce mai mici. Mai des întâlniți sunt algoritmii de jos în sus care plasează inițial fiecare caracteristică într-un cluster separat și apoi îmbină clusterele în clustere din ce în ce mai mari până când toate caracteristicile eșantionate sunt conținute în același cluster. Astfel, se construiește un sistem de partiții imbricate. Rezultatele unor astfel de algoritmi sunt de obicei prezentate sub forma unui arbore.

Dezavantajul algoritmilor ierarhici este sistemul de partiții complete, care poate fi redundant în contextul problemei care se rezolvă.

Să luăm acum în considerare algoritmii plati. Cei mai simpli dintre această clasă sunt algoritmii de eroare pătratică. Problema de clustering pentru acești algoritmi poate fi considerată ca construcția unei partiții optime a obiectelor în grupuri. În acest caz, optimitatea poate fi definită ca cerința de a minimiza eroarea de partiționare rădăcină-pătrată medie:

,

Unde c j - „centrul de masă” al clusterului j(punct cu valori medii ale caracteristicilor pentru un anumit cluster).

Cel mai comun algoritm din această categorie este metoda k-means. Acest algoritm construiește un număr dat de clustere situate cât mai departe posibil. Lucrarea algoritmului este împărțită în mai multe etape:

Alege la întâmplare k puncte care sunt „centrele de masă” inițiale ale clusterelor.

2. Atribuiți fiecare obiect unui grup cu cel mai apropiat „centru de masă”.

Dacă criteriul de oprire a algoritmului nu este îndeplinit, reveniți la pasul 2.

Ca criteriu pentru oprirea funcționării algoritmului, se alege de obicei modificarea minimă a erorii pătratice medii. De asemenea, este posibil să opriți algoritmul dacă la pasul 2 nu au existat obiecte care s-au mutat de la un cluster la altul. Dezavantajele acestui algoritm includ necesitatea de a specifica numărul de clustere pentru împărțire.

Cel mai popular algoritm de grupare fuzzy este algoritmul c-means. Este o modificare a metodei k-means. Etapele algoritmului:

1. Alegeți o partiție neclară inițială n obiecte pe k clustere prin alegerea unei matrice de membri U mărimea n x k.

2. Folosind matricea U, găsiți valoarea criteriului de eroare fuzzy:

,

Unde c k - „centrul de masă” al unui cluster fuzzy k:

3. Regrupați obiectele pentru a reduce această valoare a criteriului de eroare fuzzy.

4. Reveniți la pasul 2 până când matricea se schimbă U nu va deveni nesemnificativ.

Acest algoritm poate să nu fie potrivit dacă numărul de clustere nu este cunoscut în prealabil sau dacă este necesar să se atribuie în mod unic fiecare obiect unui cluster.

Următorul grup de algoritmi sunt algoritmi bazați pe teoria grafurilor. Esența unor astfel de algoritmi este că selecția obiectelor este reprezentată ca un grafic G=(V, E), ale căror vârfuri corespund obiectelor, și ale căror margini au o pondere egală cu „distanța” dintre obiecte. Avantajul algoritmilor de grupare grafică este vizibilitatea, relativă ușurință de implementare și posibilitatea de a face diverse îmbunătățiri pe baza considerațiilor geometrice. Algoritmii principali sunt algoritmul pentru extragerea componentelor conectate, algoritmul pentru construirea unui arbore de acoperire (spanning) minimă și algoritmul pentru gruparea stratificată.

Pentru a selecta un parametru R de obicei se construiește o histogramă de distribuții ale distanțelor pe perechi. În sarcinile cu o structură de date cluster bine definită, histograma va avea două vârfuri - unul corespunde distanțelor intra-cluster, al doilea - distanțelor inter-cluster. Parametru R este selectat din zona de minim dintre aceste vârfuri. În același timp, este destul de dificil să controlezi numărul de clustere folosind pragul de distanță.

Algoritmul arborelui de întindere minimă construiește mai întâi un arbore de întindere minim pe grafic și apoi elimină secvențial marginile cu cea mai mare greutate. Algoritmul de grupare strat cu strat se bazează pe selecția componentelor grafice conectate la un anumit nivel de distanțe dintre obiecte (vârfurile). Nivelul distanței este stabilit de pragul distanței c. De exemplu, dacă distanța dintre obiecte este , atunci .

Algoritmul de grupare stratificată generează o secvență de subgrafe grafice G, care reflectă relațiile ierarhice dintre clustere:

,

Unde G t = (V, E t ) - graficul nivelului Cu t , ,

Cu t - al-lea prag de distanță, m - numărul de niveluri ierarhice,
G 0 = (V, o), o - set gol de muchii ale graficului obtinut de t 0 = 1,
G m = G, adică un grafic al obiectelor fără restricții privind distanța (lungimea marginilor graficului), deoarece t m = 1.

Prin modificarea pragurilor de distanță ( Cu 0 , …, Cu m), unde 0 = Cu 0 < Cu 1 < …< Cu m = 1, este posibil să se controleze adâncimea ierarhiei clusterelor rezultate. Astfel, algoritmul de clustering strat cu strat este capabil să creeze atât o partiție de date plată, cât și una ierarhică.

Clusteringul atinge următoarele obiective:

Îmbunătățește înțelegerea datelor prin identificarea grupurilor structurale. Împărțirea eșantionului în grupuri de obiecte similare face posibilă simplificarea ulterioară a procesării datelor și luării deciziilor prin aplicarea propriei metode de analiză fiecărui cluster;

Permite stocarea compactă a datelor. Pentru a face acest lucru, în loc să stocați întregul eșantion, poate fi lăsată o observație tipică din fiecare grup;

· detectarea de noi obiecte atipice care nu au căzut în niciun cluster.

De obicei, gruparea este folosită ca metodă auxiliară în analiza datelor.

2.6 Algoritmi genetici

Algoritmii genetici se numără printre metodele universale de optimizare care permit rezolvarea unor probleme de diferite tipuri (combinatorii, probleme generale cu și fără restricții) și cu grade variate de complexitate. În același timp, algoritmii genetici se caracterizează prin posibilitatea căutării atât cu un singur criteriu, cât și cu mai multe criterii într-un spațiu mare, al cărui peisaj nu este neted.

Acest grup de metode utilizează un proces iterativ de evoluție a unei secvențe de generații de modele, inclusiv operațiile de selecție, mutație și încrucișare. La începutul algoritmului, populația se formează aleatoriu. Pentru a evalua calitatea soluțiilor codificate, se utilizează funcția de fitness, care este necesară pentru a calcula fitness-ul fiecărui individ. Pe baza rezultatelor evaluării indivizilor, cei mai apți dintre ei sunt selectați pentru încrucișare. Ca urmare a încrucișării indivizilor selectați prin utilizarea operatorului de încrucișare genetică, se creează descendenți, a căror informație genetică se formează ca urmare a schimbului de informații cromozomiale între indivizii părinți. Descendenții creați formează o nouă populație, iar unii dintre descendenți mută, ceea ce se exprimă într-o schimbare aleatorie a genotipurilor lor. Etapa, care include secvența „Estimarea populației” – „Selecție” – „Încrucișare” – „Mutație”, se numește generație. Evoluția unei populații constă într-o succesiune de astfel de generații.

Se disting următorii algoritmi de selectare a persoanelor pentru încrucișare:

Panmixia. Ambii indivizi care alcătuiesc perechea părinte sunt selectați aleatoriu din întreaga populație. Orice individ poate deveni membru al mai multor perechi. Această abordare este universală, dar eficiența algoritmului scade odată cu creșterea populației.

· Selectie. Persoanele cu fitness nu mai mici decât media pot deveni părinți. Această abordare asigură o convergență mai rapidă a algoritmului.

Endogamie. Metoda se bazează pe formarea unei perechi pe baza unei relații apropiate. Rudenia se referă aici la distanța dintre membrii unei populații, atât în ​​sensul distanței geometrice a indivizilor în spațiul parametrilor, cât și al distanței Heming dintre genotipuri. Prin urmare, există consangvinizare genotipică și fenotipică. Primul membru al perechii pentru încrucișare este ales aleatoriu, iar cel de-al doilea este mai probabil să fie individul cel mai apropiat de el. Consangvinizarea poate fi caracterizată prin proprietatea de concentrare a căutării în nodurile locale, ceea ce duce de fapt la împărțirea populației în grupuri locale separate în jurul unor zone ale peisajului suspecte de extremum.

Outbreeding. Formarea unei perechi pe baza unei relații îndepărtate, pentru cei mai îndepărtați indivizi. Outbreeding are ca scop prevenirea convergenței algoritmului către soluții deja găsite, forțând algoritmul să exploreze zone noi, neexplorate.

Algoritmi pentru formarea unei noi populații:

Selectie cu deplasare. Dintre toți indivizii cu aceleași genotipuri, se acordă preferință celor a căror fitness este mai mare. Astfel, două obiective sunt atinse: cele mai bune soluții găsite cu seturi de cromozomi diferite nu se pierd, o diversitate genetică suficientă este menținută constant în populație. Deplasarea formează o nouă populație de indivizi îndepărtați, în loc de indivizi care se grupează în jurul soluției actuale găsite. Această metodă este utilizată pentru probleme multi-extreme.

Selecția de elită. Metodele de selecție de elită asigură că cei mai buni membri ai unei populații vor supraviețui cu siguranță atunci când sunt selectați. În același timp, unii dintre cei mai buni indivizi trec fără nicio schimbare la generația următoare. Convergența rapidă oferită de selecția de elită poate fi compensată printr-o metodă adecvată de selectare a perechilor părinte. În acest caz, deseori este folosită îndoirea. Această combinație de „outbreeding – selecție de elită” este una dintre cele mai eficiente.

· Selectarea turneelor. Selecția turneelor ​​implementează n turnee pentru a selecta n persoane. Fiecare turneu este construit pe o selecție de k elemente din populație și alegerea celui mai bun individ dintre ele. Selecția turneului cu k = 2 este cea mai comună.

Una dintre cele mai solicitate aplicații ale algoritmilor genetici în domeniul Data Mining-ului este căutarea celui mai optim model (căutarea unui algoritm care să corespundă specificului unei anumite zone). Algoritmii genetici sunt utilizați în primul rând pentru a optimiza topologia rețelelor neuronale și a greutăților. Cu toate acestea, ele pot fi folosite și ca instrument de sine stătător.

3. Aplicații

Tehnologia Data Mining are o gamă foarte largă de aplicații, fiind, de fapt, un set de instrumente universale pentru analiza datelor de orice tip.

Marketing

Unul dintre primele domenii în care au fost aplicate tehnologiile de data mining a fost domeniul marketingului. Sarcina cu care a început dezvoltarea metodelor de Data Mining se numește analiza coșului de cumpărături.

Această sarcină este de a identifica produsele pe care cumpărătorii tind să le cumpere împreună. Cunoașterea coșului de cumpărături este necesară pentru campaniile de publicitate, formarea de recomandări personale către clienți, dezvoltarea unei strategii de creare a stocurilor de mărfuri și modalități de a le aranja în platformele de tranzacționare.

De asemenea, în marketing, astfel de sarcini sunt rezolvate ca determinarea publicului țintă al unui anumit produs pentru promovarea sa cu mai mult succes; cercetarea tiparelor de timp care ajută companiile să ia decizii privind inventarul; crearea de modele predictive, care să permită întreprinderilor să recunoască natura nevoilor diverselor categorii de clienți cu un anumit comportament; prezicerea fidelității clienților, care vă permite să identificați din timp momentul plecării clientului atunci când analizați comportamentul acestuia și, eventual, să preveniți pierderea unui client valoros.

Industrie

Unul dintre domeniile importante în acest domeniu este monitorizarea și controlul calității, unde, folosind instrumente de analiză, este posibil să se prezică defecțiunile echipamentelor, apariția defecțiunilor și să se planifice lucrările de reparații. Prevederea popularității anumitor caracteristici și cunoașterea care funcții sunt de obicei comandate împreună ajută la optimizarea producției, orientând-o către nevoile reale ale consumatorilor.

Medicament

În medicină, analiza datelor este, de asemenea, folosită cu destul de mult succes. Un exemplu de sarcini poate fi analiza rezultatelor examinării, diagnosticarea, compararea eficacității tratamentelor și medicamentelor, analiza bolilor și răspândirea lor, identificarea efectelor secundare. Tehnologiile de extragere a datelor, cum ar fi regulile de asociere și modelele secvențiale, au fost utilizate cu succes pentru a identifica relațiile dintre consumul de droguri și efectele secundare.

Genetica moleculară și inginerie genetică

Poate cea mai acută și în același timp clară sarcină de descoperire a regularităților în datele experimentale este în genetica moleculară și ingineria genetică. Aici este formulat ca o definiție a markerilor, care sunt înțeleși ca coduri genetice care controlează anumite trăsături fenotipice ale unui organism viu. Astfel de coduri pot conține sute, mii sau mai multe articole conexe. Rezultatul analizei analitice a datelor este și relația descoperită de geneticieni între modificările secvenței ADN-ului uman și riscul de a dezvolta diferite boli.

Chimie aplicată

Metodele de extragere a datelor sunt utilizate și în domeniul chimiei aplicate. Aici se pune adesea întrebarea de a elucida caracteristicile structurii chimice a anumitor compuși care le determină proprietățile. Această sarcină este deosebit de relevantă în analiza compușilor chimici complecși, a căror descriere include sute și mii de elemente structurale și legăturile lor.

Lupta împotriva criminalității

În securitate, instrumentele de Data Mining sunt folosite relativ recent, dar s-au obținut deja rezultate practice care confirmă eficiența extragerii de date în acest domeniu. Oamenii de știință elvețieni au dezvoltat un sistem de analiză a activității de protest pentru a prezice incidente viitoare și un sistem de urmărire a amenințărilor cibernetice emergente și a acțiunilor hackerilor din lume. Acest din urmă sistem face posibilă prezicerea amenințărilor cibernetice și a altor riscuri de securitate a informațiilor. De asemenea, metodele Data Mining sunt folosite cu succes pentru a detecta frauda cu cardul de credit. Analizând tranzacțiile anterioare care ulterior s-au dovedit a fi frauduloase, banca identifică unele stereotipuri ale unei astfel de fraude.

Alte aplicații

· Analiza de risc. De exemplu, prin identificarea combinațiilor de factori asociați cu daunele plătite, asigurătorii își pot reduce pierderile din răspundere. Există un caz binecunoscut în Statele Unite când o mare companie de asigurări a constatat că sumele plătite pe cererile persoanelor căsătorite sunt de două ori mai mari decât pe cererile persoanelor singure. Compania a răspuns la aceste noi cunoștințe prin revizuirea politicii sale generale de reduceri pentru familie.

· Meteorologie. Sunt folosite predicția vremii prin metode de rețea neuronală, în special hărțile auto-organizate ale lui Kohonen.

· Politica de personal. Instrumentele de analiză ajută departamentele de HR să selecteze cei mai de succes candidați pe baza analizei datelor lor de CV, modelează caracteristicile angajaților ideali pentru o anumită poziție.

4. Producători de instrumente de data mining

Instrumentele de extragere a datelor aparțin în mod tradițional unor produse software scumpe. Prin urmare, până de curând, principalii consumatori ai acestei tehnologii au fost băncile, companiile financiare și de asigurări, marile întreprinderi comerciale, iar principalele sarcini care necesitau utilizarea Data Mining-ului erau evaluarea riscurilor de credit și asigurare și elaborarea unei politici de marketing, tarifare. planuri și alte principii de lucru cu clienții. În ultimii ani, situația a suferit anumite schimbări: pe piața de software au apărut instrumente de Data Mining relativ ieftine și chiar sisteme de distribuție gratuite, ceea ce a pus această tehnologie la dispoziția întreprinderilor mici și mijlocii.

Printre instrumentele și sistemele plătite pentru analiza datelor, liderii sunt SAS Institute (SAS Enterprise Miner), SPSS (SPSS, Clementine) și StatSoft (STATISTICA Data Miner). Soluțiile binecunoscute sunt de la Angoss (Angoss KnowledgeSTUDIO), IBM (IBM SPSS Modeler), Microsoft (Microsoft Analysis Services) și (Oracle) Oracle Data Mining.

Alegerea software-ului gratuit este, de asemenea, variată. Există atât instrumente universale de analiză, precum JHepWork, KNIME, Orange, RapidMiner, cât și instrumente specializate, precum Carrot2 - un cadru pentru gruparea datelor de text și a rezultatelor interogărilor de căutare, Chemicalize.org - o soluție în domeniul chimiei aplicate, NLTK (Natural Language Toolkit) instrument de procesare a limbajului natural.

5. Critica metodelor

Rezultatele Data Mining depind în mare măsură de nivelul de pregătire a datelor și nu de „capacitățile minunate” ale unor algoritmi sau set de algoritmi. Aproximativ 75% din munca despre Data Mining constă în colectarea datelor, care se face chiar înainte de utilizarea instrumentelor de analiză. Utilizarea analfabetă a instrumentelor va duce la o risipă a potențialului companiei și, uneori, la milioane de dolari.

Opinia lui Herb Edelstein, un expert de renume mondial în domeniul Data Mining, Data Warehousing și CRM: „Un studiu recent realizat de Two Crows a arătat că Data Mining este încă într-un stadiu incipient de dezvoltare. Multe organizații sunt interesate de această tehnologie, dar doar câteva implementează în mod activ astfel de proiecte. Un alt punct important a fost clarificat: procesul de implementare a Data Mining în practică se dovedește a fi mai complicat decât se aștepta.Echipele au fost duse de mitul că instrumentele de Data Mining sunt ușor de utilizat. Se presupune că este suficient să rulați un astfel de instrument pe o bază de date terabyte, iar informații utile vor apărea instantaneu. De fapt, un proiect de data mining de succes necesită o înțelegere a esenței activității, cunoașterea datelor și instrumentelor, precum și a procesului de analiză a datelor. Astfel, înainte de a utiliza tehnologia Data Mining, este necesar să se analizeze cu atenție limitările impuse de metode și problemele critice asociate cu aceasta, precum și să se evalueze sobru capacitățile tehnologiei. Întrebările critice includ:

1. Tehnologia nu poate oferi răspunsuri la întrebările care nu au fost puse. Nu poate înlocui analistul, ci îi oferă doar un instrument puternic pentru a-și facilita și îmbunătăți munca.

2. Complexitatea dezvoltării și funcționării aplicației Data Mining.

Întrucât această tehnologie este un domeniu multidisciplinar, pentru a dezvolta o aplicație care să includă Data Mining, este necesar să se implice specialiști din diferite domenii, precum și să se asigure interacțiunea lor de înaltă calitate.

3. Calificarea utilizatorului.

Diverse instrumente de Data Mining au un grad diferit de „prietenie” a interfeței și necesită o anumită abilitate de utilizator. Prin urmare, software-ul trebuie să corespundă nivelului de pregătire al utilizatorului. Utilizarea Data Mining ar trebui să fie indisolubil legată de îmbunătățirea abilităților utilizatorului. Cu toate acestea, în prezent există puțini specialiști în Data Mining care sunt bine versați în procesele de afaceri.

4. Extragerea de informații utile este imposibilă fără o bună înțelegere a esenței datelor.

Sunt necesare selecția atentă a modelului și interpretarea dependențelor sau tiparelor găsite. Prin urmare, lucrul cu astfel de instrumente necesită o cooperare strânsă între un expert în domeniu și un specialist în instrumente de Data Mining. Modelele persistente trebuie să fie bine integrate în procesele de afaceri pentru a putea evalua și actualiza modelele. Recent, sistemele Data Mining au fost furnizate ca parte a tehnologiei de depozitare a datelor.

5. Complexitatea pregătirii datelor.

O analiză de succes necesită preprocesare de înaltă calitate a datelor. Potrivit analiștilor și utilizatorilor bazei de date, procesul de preprocesare poate dura până la 80% din întregul proces de Data Mining.

Astfel, pentru ca tehnologia să funcționeze de la sine, va fi nevoie de mult efort și timp pentru analiza preliminară a datelor, selectarea modelului și ajustarea acestuia.

6. Un procent mare de rezultate false, nesigure sau inutile.

Cu ajutorul tehnologiilor Data Mining, puteți găsi informații cu adevărat foarte valoroase care pot oferi un avantaj semnificativ în planificarea, managementul și luarea deciziilor ulterioare. Cu toate acestea, rezultatele obținute folosind metodele Data Mining conțin destul de des concluzii false și lipsite de sens. Mulți experți susțin că instrumentele Data Mining pot produce o cantitate imensă de rezultate nesigure din punct de vedere statistic. Pentru a reduce procentul de astfel de rezultate, este necesar să se verifice adecvarea modelelor obținute pe datele de testare. Cu toate acestea, este imposibil să evitați complet concluziile false.

7. Cost ridicat.

Un produs software de înaltă calitate este rezultatul unor costuri semnificative ale forței de muncă din partea dezvoltatorului. Prin urmare, software-ul Data Mining este denumit în mod tradițional produse software scumpe.

8. Disponibilitatea unor date reprezentative suficiente.

Instrumentele de extragere a datelor, spre deosebire de cele statistice, teoretic nu necesită o cantitate strict definită de date istorice. Această caracteristică poate determina detectarea modelelor nesigure, false și, ca urmare, luarea unor decizii incorecte pe baza acestora. Este necesar să se controleze semnificația statistică a cunoștințelor descoperite.

algoritmul rețelei neuronale de grupare a minării datelor

Concluzie

Este făcută o scurtă descriere a domeniilor de aplicare și sunt prezentate critici la adresa tehnologiei Data Mining și opiniile experților în acest domeniu.

Listăliteratură

1. Han și Micheline Kamber. Miningul de date: concepte și tehnici. a doua editie. - Universitatea din Illinois la Urbana-Champaign

Berry, Michael J. A. Tehnici de extragere a datelor: pentru marketing, vânzări și managementul relațiilor cu clienții - Ed. a II-a.

Siu Ning Lam. Descoperirea regulilor de asociere în data mining. - Departamentul de Informatică Universitatea Illinois din Urbana-Champaign

Ce este data mining

Baza de date corporativă a oricărei întreprinderi moderne conține de obicei un set de tabele care stochează înregistrări despre anumite fapte sau obiecte (de exemplu, despre bunuri, vânzările acestora, clienți, facturi). De regulă, fiecare intrare dintr-un astfel de tabel descrie un anumit obiect sau fapt. De exemplu, o intrare în tabelul de vânzări reflectă faptul că un astfel de produs a fost vândut unui astfel de client de către un manager la acel moment și, în general, nu conține nimic altceva decât această informație. Cu toate acestea, acumularea unui număr mare de astfel de înregistrări acumulate de-a lungul mai multor ani poate deveni o sursă de informații suplimentare, mult mai valoroase, care nu pot fi obținute pe baza unei înregistrări specifice, și anume, informații despre tipare, tendințe sau interdependențe între orice date. . Exemple de astfel de informații sunt informații despre modul în care vânzările unui anumit produs depind de ziua săptămânii, ora zilei sau sezon, care categorii de cumpărători cumpără cel mai adesea un anumit produs, ce proporție de cumpărători ai unui anumit produs cumpără un alt produs specific. , care categorie de clienți nu rambursează cel mai adesea creditul la timp.

Acest tip de informații este de obicei folosit în prognoză, planificare strategică, analiza riscului, iar valoarea sa pentru întreprindere este foarte mare. Aparent, de aceea procesul de căutare a fost numit Data Mining (mining în engleză înseamnă „minerit”, iar căutarea modelelor într-un set imens de date reale este într-adevăr asemănătoare cu aceasta). Termenul Data Mining se referă nu atât la o tehnologie specifică, cât la însuși procesul de căutare a corelațiilor, tendințelor, relațiilor și tiparelor prin diverși algoritmi matematici și statistici: clustering, crearea de subeșantioane, regresie și analiză de corelație. Scopul acestei căutări este de a prezenta date într-o formă care să reflecte clar procesele de afaceri, precum și de a construi un model care poate fi utilizat pentru a prezice procese care sunt critice pentru planificarea afacerii (de exemplu, dinamica cererii pentru anumite bunuri sau servicii sau dependența achiziției acestora de anumite caracteristici ale consumatorului).

Rețineți că statisticile matematice tradiționale, care au rămas pentru o lungă perioadă de timp instrumentul principal pentru analiza datelor, precum și instrumentele de procesare analitică online (OLAP), despre care am scris deja de multe ori (vezi materialele pe acest subiect pe CD-ul nostru) , pot nu poate fi întotdeauna folosit cu succes pentru a rezolva astfel de probleme. De obicei, metodele statistice și OLAP sunt folosite pentru a testa ipotezele preformulate. Cu toate acestea, formularea ipotezei este adesea cea care se dovedește a fi cea mai dificilă sarcină în implementarea analizei de afaceri pentru luarea deciziilor ulterioare, deoarece nu toate modelele din date sunt evidente la prima vedere.

Baza tehnologiei moderne de Data Mining este conceptul de modele care reflectă modelele inerente subeșantioanelor de date. Modelele sunt căutate prin metode care nu folosesc nicio ipoteză a priori despre aceste subeșantioane. În timp ce analiza statistică sau aplicațiile OLAP formulează de obicei întrebări de genul „Care este numărul mediu de facturi neplătite de către clienții acestui serviciu?”, data mining-ul, de regulă, înseamnă răspunsuri la întrebări precum „Există o categorie tipică de clienți care nu plătesc facturile?”. În același timp, este răspunsul la a doua întrebare care oferă adesea o abordare mai netrivială a politicii de marketing și a organizării muncii cu clienții.

O caracteristică importantă a Data Mining-ului este non-standardul și neevidența tiparelor căutate. Cu alte cuvinte, instrumentele Data Mining diferă de instrumentele de procesare a datelor statistice și instrumentele OLAP prin aceea că, în loc să verifice interdependența pe care le presupun utilizatorii, ei sunt capabili să găsească singuri astfel de interdependențe pe baza datelor disponibile și să construiască ipoteze despre natura lor.

Trebuie remarcat faptul că utilizarea instrumentelor de Data Mining nu exclude utilizarea instrumentelor statistice și a instrumentelor OLAP, deoarece rezultatele prelucrării datelor folosind acestea din urmă, de regulă, contribuie la o mai bună înțelegere a naturii tiparelor care ar trebui fi cautat.

Date inițiale pentru Data Mining

Utilizarea Data Mining-ului este justificată dacă există o cantitate suficient de mare de date, în mod ideal conținute într-un depozit de date proiectat corect (de fapt, depozitele de date în sine sunt create de obicei pentru a rezolva problemele de analiză și prognoză legate de suportul decizional). De asemenea, am scris în repetate rânduri despre principiile construirii depozitelor de date; materialele relevante pot fi găsite pe CD-ul nostru, așa că nu ne vom opri asupra acestei probleme. Amintim doar că datele din stocare sunt un set completat, comun pentru întreaga întreprindere și care vă permite să restabiliți o imagine a activităților sale în orice moment. De asemenea, rețineți că structura datelor de stocare este concepută în așa fel încât executarea solicitărilor către aceasta să fie realizată cât mai eficient posibil. Cu toate acestea, există instrumente de Data Mining care pot căuta modele, corelații și tendințe nu numai în depozitele de date, ci și în cuburi OLAP, adică în seturi de date statistice preprocesate.

Tipuri de modele dezvăluite prin metodele Data Mining

Potrivit V.A.Dyuk, există cinci tipuri standard de modele identificate prin metodele Data Mining:

Asociere - o probabilitate mare de a conecta evenimente între ele (de exemplu, un produs este adesea achiziționat împreună cu altul);

Secvență - o probabilitate mare a unui lanț de evenimente legate în timp (de exemplu, într-o anumită perioadă de la achiziționarea unui produs, altul va fi achiziționat cu un grad ridicat de probabilitate);

Clasificare - există semne care caracterizează grupul căruia îi aparține un eveniment sau un obiect (de obicei, anumite reguli sunt formulate pe baza analizei unor evenimente deja clasificate);

Clusteringul este un model similar cu clasificarea și diferă de acesta prin faptul că grupurile în sine nu sunt setate în acest caz - sunt detectate automat în timpul procesării datelor;

Modele temporale - prezența modelelor în dinamica comportamentului anumitor date (un exemplu tipic sunt fluctuațiile sezoniere ale cererii pentru anumite bunuri sau servicii) utilizate pentru prognoză.

Metode de data mining în Data Mining

Astăzi există un număr destul de mare de metode diferite de extragere a datelor. Pe baza clasificării de mai sus propuse de V.A. Dyuk, printre acestea se numără:

Analiza de regresie, dispersie și corelație (implementată în majoritatea pachetelor statistice moderne, în special în produsele SAS Institute, StatSoft etc.);

Metode de analiză într-un domeniu specific bazate pe modele empirice (deseori utilizate, de exemplu, în instrumente ieftine de analiză financiară);

Algoritmi de rețea neuronală, a căror idee se bazează pe o analogie cu funcționarea țesutului nervos și constă în faptul că parametrii inițiali sunt considerați ca semnale care sunt transformate în conformitate cu conexiunile existente între „neuroni”, iar ca răspuns rezultat în urma analizei, răspunsul întregii rețele la datele inițiale. Legăturile în acest caz sunt create folosind așa-numita învățare în rețea printr-un eșantion mare care conține atât datele originale, cât și răspunsurile corecte;

Algoritmi - alegerea unui analog apropiat al datelor originale din datele istorice deja disponibile. Denumită și metoda vecinului cel mai apropiat;

Arbori de decizie - o structură ierarhică bazată pe un set de întrebări care implică răspunsul „Da” sau „Nu”; în ciuda faptului că această metodă de prelucrare a datelor nu găsește întotdeauna în mod ideal tipare existente, este destul de des folosită în sistemele de prognoză datorită clarității răspunsului primit;

Modelele de cluster (uneori numite și modele de segmentare) sunt folosite pentru a grupa evenimente similare în grupuri pe baza valorilor similare ale mai multor câmpuri dintr-un set de date; sunt, de asemenea, foarte populare în crearea de sisteme de prognoză;

Algoritmi de căutare limitate care calculează frecvențele combinațiilor de evenimente logice simple în subgrupuri de date;

Programare evolutivă - căutarea și generarea unui algoritm care exprimă interdependența datelor, pe baza unui algoritm specificat inițial, modificat în procesul de căutare; uneori, căutarea interdependențelor se realizează între anumite tipuri de funcții (de exemplu, polinoame).

Mai multe detalii despre aceștia și alți algoritmi de Data Mining, precum și instrumentele care îi implementează, pot fi găsite în cartea „Data Mining: a training course” de V.A. Astăzi este una dintre puținele cărți în limba rusă dedicate acestei probleme.

Producători de top de instrumente de data mining

Instrumentele Data Mining, ca majoritatea instrumentelor de Business Intelligence, aparțin în mod tradițional unor instrumente software scumpe - prețul unora dintre ele ajunge la câteva zeci de mii de dolari. Prin urmare, până de curând, principalii consumatori ai acestei tehnologii au fost băncile, companiile financiare și de asigurări, marile întreprinderi comerciale, iar principalele sarcini care necesitau utilizarea Data Mining-ului erau evaluarea riscurilor de credit și asigurare și elaborarea unei politici de marketing, tarifare. planuri și alte principii de lucru cu clienții. În ultimii ani, situația a suferit anumite schimbări: pe piața de software au apărut instrumente de Data Mining relativ ieftine de la mai mulți producători, ceea ce a pus această tehnologie la dispoziția întreprinderilor mici și mijlocii care nu s-au gândit la asta până acum.

Instrumentele moderne de Business Intelligence includ generatoare de rapoarte, instrumente de procesare a datelor analitice, instrumente de dezvoltare a soluțiilor BI (platforme BI) și așa-numitele Enterprise BI Suites - instrumente de analiză și procesare a datelor la nivel de întreprindere care vă permit să efectuați un set de acțiuni legate de analiza și raportarea datelor și includ adesea un set integrat de instrumente BI și instrumente de dezvoltare a aplicațiilor BI. Acestea din urmă, de regulă, conțin atât instrumente de raportare, cât și instrumente OLAP, și adesea instrumente de Data Mining.

Potrivit analiștilor Gartner Group, Business Objects, Cognos, Information Builders sunt lideri pe piața de analiză și procesare a datelor la scară întreprindere, iar Microsoft și Oracle pretind, de asemenea, leadership (Fig. 1). În ceea ce privește instrumentele de dezvoltare pentru soluțiile BI, principalii concurenți la leadership în acest domeniu sunt Microsoft și SAS Institute (Fig. 2).

Rețineți că instrumentele Microsoft Business Intelligence sunt produse relativ ieftine disponibile pentru o gamă largă de companii. De aceea, vom lua în considerare câteva aspecte practice ale utilizării Data Mining folosind produsele acestei companii ca exemplu în părțile ulterioare ale acestui articol.

Literatură:

1. Ducele V.A. Data Mining - data mining. - http://www.olap.ru/basic/dm2.asp .

2. Dyuk V.A., Samoylenko A.P. Exploatarea datelor: curs de pregatire. - Sankt Petersburg: Peter, 2001.

3. B. de Ville. Microsoft Data Mining. Presa digitală, 2001.



Se încarcă...
Top