Nejlepších 10 algoritmů v dolování dat

Data mining dosahuje důležitých závěrů prostřednictvím velkého množství komplikovaných pozorování.

Rozhodovací stromy

Algoritmy rozhodovacího stromu se skládají z uspořádání údajů v konkurenčních volbách, které tvoří obor vlivu po počátečním rozhodnutí. Kmen stromu představuje počáteční rozhodnutí a začíná otázkou, zda ano nebo ne, jak snídat nebo ne. Při snídani a bez snídani by se jednalo o dvě oddělené větve stromu a každá následující volba měla své vlastní odbočující větve, které vedou ke koncovému bodu.

K-prostředek algoritmus

Algoritmus K-prostředků je založen na analýze skupin. Pokuste se rozdělit shromážděná data do samostatných "clusterů" seskupených podle společných charakteristik.

Podpora vektorových strojů

Algoritmy podpůrných vektorových strojů berou vstupní data a předpovídají, která ze dvou možných kategorií obsahuje vstupní data. Příkladem by bylo shromažďování poštovních směrových kódů ze skupiny voličů a snaha předpovědět, zda je volič Democrat nebo republikán.

A priori algoritmus

A priori algoritmus zpravidla řídí data transakce. Například v obchodech s oděvy může algoritmus řídit, které košile obvykle nakupují zákazníci společně.

EM algoritmus

Tento algoritmus definuje parametry analýzou dat a předpovídá možnost budoucí výstupní nebo náhodné události v rámci datových parametrů. Například EM algoritmus by se mohl pokusit předpovídat načasování další erupce gejzíru na základě časových dat minulých erupcí.

Algoritmus PageRank

Algoritmus PageRank je základním algoritmem pro vyhledávače. Ohodnoťte a odhadněte relevanci daného datového souboru v rámci velké množiny, například jediné webové stránky v rámci většího počtu všech internetových stránek.

Algoritmus AdaBoost

Algoritmus AdaBoost pracuje v rámci jiných učebních algoritmů, které předpovídají chování podle zjištěných dat, takže jsou citlivé na statistické extrémy. Přestože EM algoritmus může být zkreslený kvůli gejzíru, který má dvě erupce za méně než jednu minutu, když má normálně vyrážku jednou denně, algoritmus AdaBoost by změnil výstup EM algoritmu analýzou relevantnosti koncového bodu.

Algoritmus nejbližšího k souseda

Tento algoritmus rozpozná vzory v umístění dat a přidruží je k datům s větším identifikátorem. Například, pokud chcete přiřadit poštovní úřad každému geografickému umístění domova a máte sadu dat pro každé geografické umístění domova, algoritmus nejbližšího sousedu přiřadí domy nejbližší poště na základě jejich blízkosti.

Naivní Baye

Naivní Bayeův algoritmus předpovídá výstup identity založený na datech ze známých pozorování. Například pokud má osoba výšku 1, 97 m a nosí velikost 14 bot, algoritmus Naive Baye mohl s jistou pravděpodobností předpovídat, že je člověk mužem.

CART Algoritmus

"CART" je akronym v angličtině, což znamená analýzu a klasifikaci regresních stromů. Stejně jako analýza rozhodovacích stromů organizuje data podle konkurenčních možností, jako kdyby člověk přežil zemětřesení. Na rozdíl od algoritmů rozhodovacích stromů, které mohou klasifikovat pouze výstup nebo číselný výstup založený na regresi, algoritmus CART může použít jak předpověď pravděpodobnosti události.