Adatbányászat

Az adatbányászat - (DM - data mining vagy KDD - knowledge dicovery is databases) implicit, eddig ismeretlen és nagy valószínűséggel hasznos információk nagy adatbázisok tartalmából való részben vagy teljesen automatizált kinyerése mesterséges intelligencia algoritmusok alkalmazásával.

Az adatbányászat fő célja az adatok rejtett összefüggéseinek feltárása. A módszert leggyakrabban használó üzletágak a következők: bankok, biztosítók, telekommunikációs cégek, tőzsde, kereskedelem, gyártástechnológia.

Az adatbányászat többek között a társításon, osztályozáson, csoportosításon, visszafelé haladáson, összegzésen alapul.

A társítás (association) egy eseményt, vagy tárgyat, például árucikket rendel egy másikhoz. Az osztályozás (classification) az adatok újfajta szerveződését eredményező minták előállítása, egy adat egy vagy több előre meghatározott osztályba rendezése. A csoportosítás (clustering) tények korábban nem látott rendszereinek felismerése, az adatokat leíró véges kategóriasorok azonosítása.

A neurális hálókat is alkalmazó visszafelé haladás (regression, vagy nonlinear regression) az adatokat valós értékű előrejelzés változóhoz (real-valued prediction variable) társító funkció, illetve a változók közötti kapcsolatok felderítése (dependency modeling). Az összegzés (summarization) az adatok egy meghatározott részhalmazának tömör leírására vonatkozik.

Tipikus adatbányászati problémamegoldások közé sorolhatóak többek között a churn előrejelzés, az ügyfelek szegmentálása, valamint a cross-selling elemzések.

A churn előrejelzés segítségével annak valószínűségét lehet kiszámítani, hogy egy adott vállalat egyes ügyfelei elhagyják-e a céget a következő néhány hónapban.

Az ügyfelek szegmentálása egy adott cég ügyfélkörének felosztását jelenti bizonyos szempontok alapján. A felosztás célja, hogy a cég optimalizálni tudja üzleti folyamatait.

A cross-selling elemzések célja annak kimutatása, hogy az ügyfelek mely termékeket, szolgáltatásokat szokták együtt megvenni/igénybe venni. Ennek egy speciális változata, amikor korábbi termékvásárlási szokások elemzése alapján az egyes ügyfelekről megállapítható, hogy egy adott termék esetén mekkora a vásárlási hajlandóságuk (mekkora valószínűséggel vesznek meg egy terméket vagy vesznek igénybe egy szolgáltatást).

Az adatbányászat két speciális ága a szövegbányászat (text mining) és a web-bányászat (web mining).

A szövegbányászat a strukturálatlan vagy kis mértékben strukturált szöveges állományokból történő olyan ismeret kinyerését jelenti, amely a feldolgozás előtt csak indirekt módon, rejtve volt benne a dokumentum állományban. Az adatbányászat és a szövegbányászat fő különbsége abban rejlik, hogy míg az adatbányászat jól strukturált, számszerű adatokkal dolgozik, addig a szövegbányászatban strukturálatlan szöveges állományok képezik a kiindulási alapot.

A web mining az internethez kapcsolódóan a nagy mennyiségű weboldalon található képi, szöveges és egyéb alakú adatok feldolgozhatóvá átalakításával foglalkozik. Az adatok átalakításának célja további, a felhasználó szempontjából értékes adatok kinyerésére.