Adatbányászat

Az adatbányászat egy olyan módszertan, amely adatbázisokból olyan implicit és rejtett információkat, összefüggéseket, mintázatokat nyer ki, amelyek a gyakorlatban is hasznosíthatók.

Az adatbányászat felhasználja a tudomány több ágának eredményeit:a matematikán belül a statisztikát, a számítástudományon belül a mesterséges intelligenciát, valamint az információtechnológia eszközeit.

A napjainkra hatalmasra duzzadt és exponenciálisan növekvő adatmennyiség,az egyre hatékonyabb hardver eszközök, és a letisztult adatbányászati módszertanok és eljárások teremtették meg az adatbányászat széleskörű (középvállalati méretig lehatoló) elterjedésének feltételeit.

Az adatbányászat során alkalmazott algoritmusok nem előzménynélküliek: a legtöbbjüket valamely régebb óta létező tudományágtól, például a statisztikától vagy a gépi tanulás elméletétől örököltük. Az algoritmusok építőköveit a statisztikai módszerek adják. Az adatbányászati munka során azonban – mivel ebben sokkal erősebben érvényesülnek a gyakorlati szempontok – gyakran kell élni olyan elhanyagolásokkal és egyszerűsítésekkel, amelyek kivezetnek a statisztika számára értelmezhető térből. Az adatbányászat ezen felül sokkal erősebben támaszkodik olyan módszerekre, amelyeket a nagy számítási teljesítmény tesz lehetővé.

Az adatbányászattal szemben támasztott sokrétű elvárásnak megfelelően érdemes elkülöníteni bizonyos alkalmazási területeit:

  • A felfedezés az adatbányászat talán legismertebb területe. A felfedezés során az adatbányászati szakértők úgy vágnak bele az egy adott adatbázisban rejtőzködő információk felkutatásába,hogy nem élnek előfeltevésekkel a keresett összefüggés típusával kapcsolatban. Tipikus példája ennek a munkának az ügyfél-szegmentáció, amikor a rendelkezésre álló adatok (pénzügyi tranzakciók, vásárlások stb.) alapján azt kutatjuk, milyen jellegzetes viselkedési formák léteznek, és milyen jellemzőik vannak a különböző viselkedésű ügyfeleknek.
  • A célzott adatbányászat során az adatbányászok számára adottak az elemzés keretei. Ekkor a részletekben bujkáló ördög megtalálása a feladat. A célzott adatbányászat például egy vevőnek (vagy vevő-csoportnak) nyújtandó kedvezmény esetében arra vállalkozik, hogy megjósolja a vásárlók viselkedését árcsökkentés vagy áremelésesetén; tudományosabban fogalmazva: megbecsüli a kereslet ár-rugalmasságát. Hasonlóan célzott adatbányászati tevékenység egy hitelképességet kiértékelő szempontrendszerben (ún. „creditscorecard”-ban) az egyes kérdések relatív súlyának (pontszámának) meghatározása.
  • Döntés-automatizáló adatbányászati modellt akkor érdemes kifejleszteni, amikor ismert az adott döntés meghozásához szükséges pontos módszer. Azért lehet célszerű a döntést ilyenkor is emberek helyett egy automatizmusra bízni, mert vagy rendkívül gyorsan, vagy igen sokszor kell dönteni. Ezzel a módszerrel például egy cég ügyfélszolgálatára érkező elektronikus leveleket szét lehet válogatni kulcsszavak szerint, sőt mi több, bizonyos levél típusokra automatikus válasz is küldhető.
  • Az alkalmazott eszközök és technikák hasonlósága miatt az adatbányászat tárgykörébe soroljuk még az Adatminőség biztosítást is. Az adatminőség gyengeségét leginkább adatbányászati technikákkal lehet felfedni, melyek az adattisztítási folyamat támogatásában is jól használhatóak

Megosztás