Data mining je proces prohledávání velkých databází za účelem nalezení užitečných informací, které lze použít pro rozhodování. Používá se také anglický výraz „data mining“.
Lze jej chápat jako technologii a software používaný k hledání vzorců chování v databázi. Základním základem je to, že tyto vzorce pomáhají při rozhodování. Mohlo by to například pomoci společnostem pochopit vzorce chování svých zákazníků. Takovým způsobem, který by usnadnil stanovení strategií ke zvýšení prodeje nebo snížení nákladů.
Výhody dolování dat
Zásadní výhodou tohoto procesu analýzy dat je velké množství obchodních scénářů, na které jej lze použít, jako příklad máme:
- Předpověď: Prognóza prodeje společnosti.
- Pravděpodobnost: Výběr nejlepších klientů pro přímý kontakt prostřednictvím telefonu nebo e-mailu.
- Sekvenční analýza: Analýza produktů, které si zákazníci koupili, a kontrola jejich vzájemného vztahu.
Fáze těžby dat
V rámci procesu dolování dat můžeme najít pět fází:
- Cíl a sběr dat: Nejprve se zaměříme na to, jaký typ informací chceme získat. Představme si příklad, že supermarket chce vědět, v kterou denní dobu je nejvíce návštěvníků. To by byl cíl a informace, které chce obchod v tomto případě získat.
- Zpracování a správa dat: Jakmile budeme znát data, která chceme shromažďovat, uvedeme data do provozu. Toto je možná nejtěžší fáze procesu. Vyžaduje to výběr reprezentativního vzorku, na kterém bude provedena analýza. Jakmile je vzorek vybrán, musí být analyzován, jaký typ proměnných nebo regresní model bude na vzorku proveden.
- Výběr modelu: Úzce to souvisí s předchozí fází. Jde o vytvoření modelu nebo algoritmu, který nám poskytne nejlepší možný výsledek. K tomu je třeba provést vyčerpávající analýzu proměnných, které mají být do modelu zahrnuty. To se stává komplikovaným úkolem, protože to bude záviset na typu informací, které mají být analyzovány. Proto těžaři dat provádějí různé testy algoritmu, jako jsou: lineární regrese, rozhodovací strom, časové řady, neuronová síť atd.
- Analýza a kontrola výsledků: V zásadě je to analyzovat výsledky a zjistit, zda přinášejí logické vysvětlení. Vysvětlení, které usnadňuje rozhodování na základě informací poskytnutých výsledky.
- Aktualizace modelu: Posledním krokem procesu bude aktualizace modelu. Je velmi důležité, aby to bylo provedeno v průběhu času, aby nezastaralo. Proměnné modelu by se mohly stát nevýznamnými, a proto je vyžadována pravidelná kontrola modelu.