数据挖掘是如何运作的?
數(shù)據(jù)挖掘是如何運作的?
讀懂?dāng)?shù)據(jù)等于掌握財富密碼。但并不是所有數(shù)據(jù)都有價值,這就是數(shù)據(jù)挖掘的價值所在,本文介紹大數(shù)據(jù)挖掘的全流程
大多數(shù)時候當(dāng)人們搜索數(shù)據(jù)挖掘的時候,他們所感興趣的是整個流程,數(shù)據(jù)挖掘只是流程中的一個環(huán)節(jié) 。數(shù)據(jù)挖掘也可以被理解為為如何在數(shù)據(jù)中發(fā)現(xiàn)“知識”
從原始數(shù)據(jù)開始,使用計算和算法工具 ,直到獲得有價值的數(shù)據(jù) ,我們可以稱之為知識,步驟如圖

Data Mining Process
從原始數(shù)據(jù)到進(jìn)行數(shù)據(jù)的選擇得到Target Data
假設(shè)我們我們有很多關(guān)于某種現(xiàn)象的信息現(xiàn)象 ,我們想得出一些在這種情況下,關(guān)于這個問題的知識。有時我們有一些數(shù)據(jù)不是有用的數(shù)據(jù),有些數(shù)據(jù)還沒有準(zhǔn)備好在這種情況下被使用。例如,我們要做的基本處理是顏色選擇,然后我們得到數(shù)據(jù)到目標(biāo)日期,有了這個目標(biāo)數(shù)據(jù),我們可以對這個目標(biāo)數(shù)據(jù)做轉(zhuǎn)換處理。在此之前,我們需要對數(shù)據(jù)進(jìn)行預(yù)處理
方法一:異常值檢測

Outlier Detection
假設(shè)我們有數(shù)據(jù)的變量分布,我們可以看到或者我們也可以用算法來檢測這個紅色的點是一個離群點,在某些情況下一些算法可能無法正常工作。如果我們的數(shù)據(jù)與整個分布非常不同與整個分布非常不同,這被稱為離群點,我們可以嘗試去掉并得到這個經(jīng)過處理的數(shù)據(jù)

Red Outlier
方法二:檢測缺失值

Detect Missing Values
假設(shè)我們有這個數(shù)據(jù)分布,我們可以來做一個估計。使用那條綠線,所以我們可以嘗試填充估計值

Detect Missing Values
接下來,是數(shù)據(jù)歸一化處理,因為有時我們有一些數(shù)據(jù)的值是從0到1 ,另一些數(shù)據(jù)可能是文本數(shù)據(jù) 。另一個步驟是尋找相關(guān)的變量 ,假設(shè)我們有這兩個變量,我們可以看到它們有很高的相關(guān)性 ,這意味著,使用這兩個變量是沒有用的

Correlated Variables
我們可以用這些變量做什么呢?我們可以在數(shù)據(jù)中應(yīng)用一些轉(zhuǎn)換來使這些變量不相關(guān)

Transformation
接下來是整個步驟的主要內(nèi)容,也就是所謂的從轉(zhuǎn)換后的數(shù)據(jù)中挖掘出的數(shù)據(jù)。我們?nèi)绾巫隹梢缘玫竭@些模式?我們可以應(yīng)用幾種分類算法或數(shù)據(jù)挖掘算法,但在當(dāng)前這種情況下,我們可以應(yīng)用幾種算法 ,如K最近的鄰居,甚至是一個決策樹或支持向量機。這些都是可能的數(shù)據(jù)挖掘算法或分類算法 ,我們將這些算法應(yīng)用于數(shù)據(jù),以獲得模式

KNN

Patterns
開始將數(shù)據(jù)變成模式 ,然后流程的最后一步是對這些模式的解釋。這不是一個自動程序,用戶觀察應(yīng)用中的模式解釋,以認(rèn)可該模式,用戶可以看一下發(fā)現(xiàn)的模式,看看是否有一些多余的或不相關(guān)的模式
有了這些東西 ,他就可以從數(shù)據(jù)中獲得數(shù)據(jù)的認(rèn)可,我們有所有這些綠色箭頭 ,這意味著我們可以返回到前面的任何一個步驟 ,我們以改善我們的模式的概念,也是我們說的知識

Knowledge
以上就是數(shù)據(jù)挖掘全工作流程的簡單介紹,謝謝你的關(guān)注
展開閱讀全文投稿時間:2022-11-16 最后更新:2022-11-16
.jpg)