《资料探勘 -3 资料前置处理(精品).ppt》由会员分享,可在线阅读,更多相关《资料探勘 -3 资料前置处理(精品).ppt(39页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第三章第三章 資料資料前置處理前置處理1第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結2資料未經處理的問題資料未經處理的問題資料不完整資料不完整(data incomplete)資料中某些屬性值有遺缺資料有雜訊資料有雜訊(noise)資料有錯誤或是特例(outlier)造成資料不一致資料不一致(data inconsistency)商品在台灣是以台幣,在美國則是美金計價有高品質的資料,才有高品質的探勘結果有高
2、品質的資料,才有高品質的探勘結果3第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結4前置處理的主要工作前置處理的主要工作資料整合資料整合整合後的資料清理過的資料資料轉換資料轉換準備進行探勘的資料各種不同來源的資料資料清理資料清理5資料整合資料整合資料整合資料整合(data integration)解決多重資料來源的整合問題主要工作主要工作消除資料不一致數值不一致(data value conflict)綱目不一
3、致(schema conflict)消除資料重複性數值重複綱目重複6資料清理資料清理(1)確認資料正確性、完整性確認資料正確性、完整性常見的資料正確性問題7資料清理資料清理(2)確認資料完整性確認資料完整性常見的資料完整性問題:8資料清理資料清理(3)其它清理工作其它清理工作遺缺填補:人工填補或自動填補雜訊消除:雜訊使探勘結果有相當大的偏差,必須將雜訊移除或將資料做平緩化處理(smoothing)9資料轉換資料轉換資料統整資料統整(data aggregation)加總、統計或是建立資料方塊(data cube)將資料做初步整理,使得資料更適合探勘資料一般化資料一般化(data general
4、ization)資料的概念階層(concept hierarchy)向上提升會員地址用城市或是北中南東四區取代資料精簡的方法之一建立新屬性建立新屬性(attribute construction)利用舊屬性將探勘所需的新屬性建立10第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結11資料遺缺原因資料遺缺原因資料建立時未輸入資料建立時未輸入故意或是不小心造成資料沒有被輸入設備故障設備故障例如收銀機故障,導致顧客消
5、費明細無法輸入因資料內容不一致而被刪除因資料內容不一致而被刪除當資料內容不一致時,為了避免錯誤的資料影響分析的準確性,可能會將該項資料以空值取代,因此產生資料的遺缺12資料遺缺處理方法資料遺缺處理方法-直接忽略法直接忽略法處理資料遺缺最簡單的方法處理資料遺缺最簡單的方法適用時機適用時機進行分類探勘時,若資料的分類標記(class label)為空值,這筆資料因無法被正確分類,便可直接刪除適用對象適用對象蒐集資料量很多、遺缺資料只佔一小部分缺點缺點資料遺缺比例很可觀時,會造成大量資料流失13資料遺缺處理方法資料遺缺處理方法-人工填補法人工填補法處理資料遺缺的現象,可採用人工來填補處理資料遺缺的現
6、象,可採用人工來填補範例範例當某會員資料的生日屬性有遺缺,可打電話詢問該會員,以取得其生日並加以填補。缺點缺點當資料遺缺較多時,耗時且人力負擔沉重。14資料遺缺處理方法資料遺缺處理方法-自動填補法自動填補法主要兩種方式主要兩種方式填入一個通用的常數值填入一個通用的常數值如填入“未知/unknown”,成為一個新的類別填入該屬性的整體平均值填入該屬性的整體平均值不會對統計結果造成太大的影響不影響統計結果的情況下,保留此資料屬性缺點是不夠客觀用推論法求出較可能的值來填入貝式方程式(Bayesian formula)另一種方法是利用決策樹(decision tree)15第三章第三章 資料資料前置處
7、理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結16雜訊雜訊的處理方法的處理方法結合電腦和人工檢視結合電腦和人工檢視結合電腦偵測與人工檢視資料平緩化處理資料平緩化處理回歸分析法(regression analysis)將資料套入回歸函數以消除雜訊裝箱法(binning method)將資料排序並切割成數個箱子用平均值、中位數或邊界值來取代箱子中的每一筆 資料以消除雜訊17裝箱法裝箱法-等寬分割法等寬分割法等寬分割法等寬分割法(或稱等距分割
8、法,Equal Width/Distance)將資料的數值範圍劃分為N 個間隔相同的區間若A和B分別為此屬性中的最小與最大值,則每個區間的間隔大小為:W=(B-A)/N.假設將12樣商品的價格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80 欲分割為四個箱子則箱子寬度=(80-12)/4=17箱子 1(12-28):12,15,18,21,28箱子 2(29-45):33,36,45箱子 3(46-62):50,52,60箱子 4(63-80):80最直覺的分割法,但特例對分割結果的影響很大不適用於偏斜的資料(skew data)18等寬分割法示意圖等寬分割
9、法示意圖12,15,18,21,28 箱子箱子箱子箱子33,36,45 箱子箱子50,52,60 80 箱子箱子19裝箱法裝箱法-等深分割法等深分割法等深分割法等深分割法(或稱等頻分割法,Equal Depth/Frequency)將資料劃分為N 個資料數量大致相同的區間例假設將12樣商品的價格資料排序如下:12,15,18,21,28,33,36,45,50,52,60,80四個箱子則每個箱子均含三筆資料(寬度12/4=3)箱子 1:12,15,18箱子 2:21,28,33箱子 3:36,45,50箱子 4:52,60,80資料分布(scaling)良好但類別屬性(categorical
10、attributes)較難處理20等深分割法示意圖等深分割法示意圖12,15,18 箱子箱子21,28,33 箱子箱子箱子箱子52,60,80 36,45,50 箱子箱子21裝箱資料的平緩處理裝箱資料的平緩處理 以平均以平均值值消除雜訊消除雜訊箱子 1(12,15,18):15,15,15 箱子 2(21,28,33):28,28,28箱子 3(36,45,50):44,44,44箱子 4(52,60,80):64,64,64以中位數消除雜訊以中位數消除雜訊箱子 1(12,15,18):15,15,15 箱子 2(21,28,33):28,28,28箱子 3(36,45,50):45,45,4
11、5箱子 4(52,60,80):60,60,60以邊界以邊界值值消除雜訊消除雜訊箱子 1(12,15,18):12,18,18 箱子 2(21,28,33):21,33,33箱子 3(36,45,50):36,50,50箱子 4(52,60,80):52,52,8022第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結23資料正規化資料正規化 資料正規化資料正規化(Data normalization)將資料重新
12、分布在一個較小且特定的範圍內例如:台灣的平均所得遠高於菲律賓,即使年收入均以台幣作單位,直接將兩國顧客的年收入用數值相比仍然不夠客觀,此時便需要正規化到同一個標準下做評比。資料正規化的方法資料正規化的方法極值正規化(Min-max normalization)Z-分數正規化(Z-score normalization)十進位正規化(Normalization by decimal scaling)24極值正規化極值正規化公式公式範例::假設一般臺灣上班族的月收入範圍為 20000,100000,而一般菲律賓上班族的月收入範圍為 2000,10000;在台灣收入30000元相當於在菲律賓收入多少
13、?適合用在需要將資料規範在某一個指定範圍內的情況25Z-分數正規化分數正規化公式公式範例:假設臺灣人月收入平均為35000元,標準差是10000元,利用Z-分數法將月 收入30000元做正規化,將得到 負數表示收入低於平均,正數表示高於平均26十進位正規化十進位正規化公式公式範例:假設台灣上班族最高月收入為100000元,因此使得正規化後的結果小於或等於1的最小整數為5。則月收入30000元經由十進位正規化之後將會得到適合用在要將數字壓縮到區間 0,1 的情況 j是使得Max(|)1的最小整數27第三章第三章 資料資料前置處理前置處理簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填
14、補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結28資料探勘中的資料形式資料探勘中的資料形式資料形式資料形式(data forms)分為四種分為四種本文形式:內容或是文件,可看作是字串集合時間形式:存時間序列(time series),記錄隨時間 而變的資料交易形式:記錄交易的項目關聯形式:即關聯式資料庫中的表格29資料探勘技術適用之資料形式資料探勘技術適用之資料形式多層次資料一般化多層次資料一般化(multilevel data generalization)發掘之知識:資料庫中發掘較高層次的資料觀點(v
15、iew),也就是發掘出所謂的概念階層(concept hierarchy)合適之資料形式:關聯形式分類法分類法(data classification)發掘之知識:在訓練樣本中發掘分類規則,分類新資料合適之資料形式:關聯形式群集分析群集分析(cluster analysis)發掘之知識:根據資料樣本的樣式(pattern),將相似的資料樣本分成一個群集合適之資料形式:關聯形式30資料探勘技術適用之資料形式資料探勘技術適用之資料形式關連法則探勘關連法則探勘(association rules mining)發掘之知識:龐大交易資料中找出交易的關連性合適之資料形式:交易形式資料時間序列分析時間序列
16、分析(time series analysis)發掘之知識:分析不同時間點的資料值變化,發掘規則合適之資料形式:時間形式資料以樣式為基礎的相似搜尋以樣式為基礎的相似搜尋(pattern-based similarity search)發掘之知識:預先設定目標樣式及差異容忍度,找出與目標樣式之相似度在差異容忍度範圍內的物件,可分成文字搜尋以及時間序列搜尋合適之資料形式:文字搜尋本文形式 時間序列時間形式31資料探勘與資料形式的關係資料探勘與資料形式的關係資料探勘技術多層次資料一般化分類法群集分析關連法則探勘時間序列分析以樣式為基礎的相似搜尋 關聯形式交易形式時間形式本文形式32資料型式的轉換資料
17、型式的轉換 以購物網站所用的資料庫為例以購物網站所用的資料庫為例記錄顧客所買的每樣商品資料,包括:交易編號、會員帳號、商品編號、交易時間、交易數量、付款方式若分析顧客同一天購買的商品間關連性,目前交易表內所存的資料 格式並無法直接套用關連法則探勘演算法,要經以下步驟轉化Step 1-選取相關屬性選取相關屬性:選出會員帳號、商品編號、交易時間三個屬性。Step 2-精簡資料精簡資料:將精確至年月日時分秒的交易時間簡化為只包含年月日的交易日期。Step 3-轉換資料形式轉換資料形式:依照會員帳號及交易日期將同一會員同一天的交易紀錄集合成一筆交易形式的資料。33第三章第三章 資料資料前置處理前置處理
18、簡介簡介資料前置處理的主要工作資料前置處理的主要工作 遺缺填補法遺缺填補法雜訊去除法雜訊去除法資料正規化資料正規化資料形式轉換資料形式轉換*資料型態轉換資料型態轉換*資料模糊化資料模糊化*總結總結34資料探勘中的資料型態資料探勘中的資料型態 離散型離散型(discrete)預先定義的資料集合所組成集合中兩個值的距離無法直接計算像布林型態(例如:性別)、列舉型態(例如:職業等)、或是字串型態(例如:地址)均屬於此類型連續型連續型(continuous)數字型態(例如:平均月收入)或是日期型態(例如:生日)均屬於此類型35資料探勘技術適用之資料型態資料探勘技術適用之資料型態(1)離散型離散型監督式
19、學習法(supervised learning)分類法連續型連續型監督式學習法非監督式學習法(unsupervised learning)群集分析法36資料探勘技術適用之資料型態資料探勘技術適用之資料型態(2)特性型態特性型態資料型態範例資料型態範例 兩值間的距離兩值間的距離分類探勘分類探勘群集分析群集分析理解度理解度離散型離散型布林型態布林型態列舉型態列舉型態字串型態字串型態較難計算較難計算適合適合不適合不適合較高較高連續型連續型數字型態數字型態日期型態日期型態較易計算較易計算適合適合適合適合較低較低37資料型態的轉換資料型態的轉換離散型轉換成連續型資料離散型轉換成連續型資料Step1:用相
20、似性矩陣定義值與值的距離或相似度Step2:再利用值與值的距離或是相似度把離散的 資料形態表示成連續的資料型態連續型轉換成離散型資料連續型轉換成離散型資料Step1:利用群集分析法將數值型態資料分群Step2:接著將群集做合適名稱,再利用群集的名稱 代替群集內所包含的數值型資料轉換成離 散型資料38總結總結本章介紹資料前置處理的相關問題,包括資本章介紹資料前置處理的相關問題,包括資料清理、資料整合以及資料轉換。料清理、資料整合以及資料轉換。資料前置處理的目的資料前置處理的目的提高資料探勘的品質資料精簡的目的資料精簡的目的(下一章)下一章)提高資料探勘的效率有高品質的資料,才有高品質的探勘結果有高品質的資料,才有高品質的探勘結果 39