Adatbányászat
Az adatbányászat egy olyan módszertan, amely adatbázisokból olyan implicit és rejtett információkat, összefüggéseket, mintázatokat
nyer ki, amelyek a gyakorlatban is hasznosíthatók.
Az adatbányászat felhasználja a tudomány több ágának eredményeit:a matematikán belül a statisztikát, a számítástudományon
belül a mesterséges intelligenciát, valamint az információtechnológia eszközeit.
A napjainkra hatalmasra duzzadt és exponenciálisan növekvő adatmennyiség,az egyre hatékonyabb hardver eszközök, és a letisztult
adatbányászati módszertanok és eljárások teremtették meg az adatbányászat széleskörű (középvállalati méretig lehatoló) elterjedésének
feltételeit.
Az adatbányászat során alkalmazott algoritmusok nem előzménynélküliek: a legtöbbjüket valamely régebb óta létező tudományágtól,
például a statisztikától vagy a gépi tanulás elméletétől örököltük. Az algoritmusok építőköveit a statisztikai módszerek adják.
Az adatbányászati munka során azonban – mivel ebben sokkal erősebben érvényesülnek a gyakorlati szempontok – gyakran kell
élni olyan elhanyagolásokkal és egyszerűsítésekkel, amelyek kivezetnek a statisztika számára értelmezhető térből. Az adatbányászat
ezen felül sokkal erősebben támaszkodik olyan módszerekre, amelyeket a nagy számítási teljesítmény tesz lehetővé.
Az adatbányászattal szemben támasztott sokrétű elvárásnak megfelelően érdemes elkülöníteni bizonyos alkalmazási területeit:
- A felfedezés az adatbányászat talán legismertebb területe. A felfedezés során az adatbányászati szakértők úgy vágnak bele
az egy adott adatbázisban rejtőzködő információk felkutatásába,hogy nem élnek előfeltevésekkel a keresett összefüggés típusával
kapcsolatban. Tipikus példája ennek a munkának az ügyfél-szegmentáció, amikor a rendelkezésre álló adatok (pénzügyi tranzakciók,
vásárlások stb.) alapján azt kutatjuk, milyen jellegzetes viselkedési formák léteznek, és milyen jellemzőik vannak a különböző
viselkedésű ügyfeleknek.
- A célzott adatbányászat során az adatbányászok számára adottak az elemzés keretei. Ekkor a részletekben bujkáló ördög megtalálása
a feladat. A célzott adatbányászat például egy vevőnek (vagy vevő-csoportnak) nyújtandó kedvezmény esetében arra vállalkozik,
hogy megjósolja a vásárlók viselkedését árcsökkentés vagy áremelésesetén; tudományosabban fogalmazva: megbecsüli a kereslet
ár-rugalmasságát. Hasonlóan célzott adatbányászati tevékenység egy hitelképességet kiértékelő szempontrendszerben (ún. „creditscorecard”-ban)
az egyes kérdések relatív súlyának (pontszámának) meghatározása.
- Döntés-automatizáló adatbányászati modellt akkor érdemes kifejleszteni, amikor ismert az adott döntés meghozásához szükséges
pontos módszer. Azért lehet célszerű a döntést ilyenkor is emberek helyett egy automatizmusra bízni, mert vagy rendkívül gyorsan,
vagy igen sokszor kell dönteni. Ezzel a módszerrel például egy cég ügyfélszolgálatára érkező elektronikus leveleket szét lehet
válogatni kulcsszavak szerint, sőt mi több, bizonyos levél típusokra automatikus válasz is küldhető.
- Az alkalmazott eszközök és technikák hasonlósága miatt az adatbányászat tárgykörébe soroljuk még az Adatminőség biztosítást
is. Az adatminőség gyengeségét leginkább adatbányászati technikákkal lehet felfedni, melyek az adattisztítási folyamat támogatásában
is jól használhatóak