版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、1,第2章 數(shù)據(jù)預(yù)處理,,主要內(nèi)容,2.1 為什么要預(yù)處理數(shù)據(jù)2.2 描述性數(shù)據(jù)匯總2.3 數(shù)據(jù)清理2.4 數(shù)據(jù)集成和變換2.5 數(shù)據(jù)歸約2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,2,3,2.1 數(shù)據(jù)預(yù)處理的原因,正確性(Correctness)一致性(Consistency)完整性(Completeness) 可靠性(Reliability),數(shù)據(jù)質(zhì)量的含義,現(xiàn)實(shí)世界的數(shù)據(jù),不完整的缺少屬性值或某些感興趣的屬性,或僅包含聚集
2、數(shù)據(jù)。含噪聲的包含錯(cuò)誤或存在偏離期望的離群值。不一致的采用的編碼或表示不同,如屬性名稱不同冗余的如屬性之間可以相互導(dǎo)出,5,數(shù)據(jù)錯(cuò)誤的不可避免性,數(shù)據(jù)輸入和獲得過程數(shù)據(jù)錯(cuò)誤數(shù)據(jù)集成所表現(xiàn)出來的錯(cuò)誤數(shù)據(jù)傳輸過程所引入的錯(cuò)誤 據(jù)統(tǒng)計(jì)有錯(cuò)誤的數(shù)據(jù)占總數(shù)據(jù)的5%左右[Redmen],[Orr98],數(shù)據(jù)錯(cuò)誤的危害性,高昂的操作費(fèi)用糟糕的決策制定組織的不信任分散管理的注意力,7,數(shù)據(jù)預(yù)處理的形式,數(shù)據(jù)清理補(bǔ)充缺失數(shù)據(jù)、平
3、滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn),解決不一致數(shù)據(jù)集成集成多個(gè)數(shù)據(jù)庫、數(shù)據(jù)立方或文件數(shù)據(jù)變換規(guī)范化和聚集數(shù)據(jù)歸約簡(jiǎn)化數(shù)據(jù)、但產(chǎn)生同樣或相似的結(jié)果,數(shù)據(jù)預(yù)處理的形式,,小結(jié),現(xiàn)實(shí)世界的數(shù)據(jù)一般是臟的、不完整的和不一致的。數(shù)據(jù)預(yù)處理技術(shù)可以改進(jìn)數(shù)據(jù)的質(zhì)量,從而有助于提高其后的挖掘過程的精度和性能。高質(zhì)量的決策必然依賴于高質(zhì)量的數(shù)據(jù),因此數(shù)據(jù)預(yù)處理是知識(shí)發(fā)現(xiàn)過程的重要步驟。檢測(cè)異常數(shù)據(jù)、盡早地調(diào)整數(shù)據(jù)并歸約待分析的數(shù)據(jù),將在決策過
4、程中得到高回報(bào)。,2.2 描述性數(shù)據(jù)匯總,獲得數(shù)據(jù)的總體印象對(duì)于成功的數(shù)據(jù)預(yù)處理是至關(guān)重要的。描述性數(shù)據(jù)匯總技術(shù)可以用來識(shí)別數(shù)據(jù)的典型性質(zhì),突顯哪些數(shù)據(jù)值應(yīng)當(dāng)視為噪聲或離群點(diǎn)。動(dòng)機(jī):更好的理解數(shù)據(jù)。主要內(nèi)容:度量數(shù)據(jù)的中心趨勢(shì)和離散程度、描述數(shù)據(jù)匯總的圖形顯示。,2.2.1 度量數(shù)據(jù)的中心趨勢(shì),算數(shù)平均值最常用分布式度量可以通過如下方法計(jì)算度量(即函數(shù)):將數(shù)據(jù)集劃分成較小的子集,計(jì)算每個(gè)子集的度量,然后合并計(jì)算結(jié)果,得到原
5、(整個(gè))數(shù)據(jù)集的度量值。sum()、count()、min()、max(),2.2.1 度量數(shù)據(jù)的中心趨勢(shì)…,代數(shù)度量可以通過應(yīng)用一個(gè)代數(shù)函數(shù)于一個(gè)或多個(gè)分布度量計(jì)算的度量。mean()、中列數(shù)整體度量必須對(duì)整個(gè)數(shù)據(jù)集計(jì)算的度量。中位數(shù)、眾數(shù),代數(shù)度量,mean():加權(quán)平均:截?cái)嗑担喝サ舾?、低極端值得到的均值。減小極端值對(duì)均值的影響。中列數(shù)(midrange ):(max+min)/2,整體度量,中位數(shù)(medi
6、an):適用于傾斜的數(shù)據(jù)。近似值計(jì)算如下:設(shè)N個(gè)數(shù)值排序,若N為奇數(shù),中位數(shù)是有序集的中間值;若N為偶數(shù),中位數(shù)是中間兩個(gè)值的平均值。例如:1,3,5,7 中位數(shù)4 1,3,5,6,7 中位數(shù)5,整體度量,眾數(shù)(mode):集合中出現(xiàn)頻率最高的值。單峰、多峰(雙峰、三峰…)、無眾數(shù)對(duì)于適度傾斜的單峰頻率曲線,有如下的經(jīng)驗(yàn)關(guān)系:,16,中位數(shù)、均值和眾數(shù),17,極差最大值與最小值之差四分位
7、數(shù)中位數(shù)是第50個(gè)百分位數(shù),是第2個(gè)四分位數(shù)第1個(gè)是第25個(gè)百分位數(shù),Q1 中間四分位數(shù)極差 IQR = Q3 – Q1 離群點(diǎn)outlier與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)對(duì)象盒圖方差、標(biāo)準(zhǔn)差反映了每個(gè)數(shù)與均值相比平均相差的數(shù)值,2.2.2 度量數(shù)據(jù)的離散程度,度量數(shù)據(jù)的離散程度…,盒圖boxplot,也稱箱線圖從下到上五條線分別表示最小值、下四分位數(shù)Q1 、中位數(shù)、上四分位數(shù)Q3和最大值盒的長(zhǎng)度等于IRQ中位
8、數(shù)用盒內(nèi)的橫線表示盒外的兩條線(胡須) 分別延伸到最小和最大觀測(cè)值。,,,盒圖的功能1.直觀明了地識(shí)別數(shù)據(jù)集中的離群點(diǎn) 2.判斷數(shù)據(jù)集的偏態(tài)和尾重 3.比較幾批數(shù)據(jù)的形狀,,22,直方圖、分位數(shù)圖、分位數(shù)-分位數(shù)圖(q-q圖)散布圖、散布圖矩陣局部回歸(Loess)曲線,2.2.3 基本描述數(shù)據(jù)匯總的圖形顯示,直方圖 Histogram,概括給定屬性分布的圖形方法每個(gè)矩形等寬,分位數(shù)圖 Quantile Pl
9、ot,觀察單變量數(shù)據(jù)分布的簡(jiǎn)單有效方法,散布圖scatter plot,直接觀察是否存在簇(cluster),離群點(diǎn)等每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)坐標(biāo)對(duì),局部回歸(Loess)曲線,添加一條光滑曲線到散布圖,2.3 數(shù)據(jù)清理,現(xiàn)實(shí)世界的數(shù)據(jù)一般是不完整的、有噪聲的和不一致的。數(shù)據(jù)清理的任務(wù):填充缺失的值,光滑噪聲并識(shí)別離群點(diǎn),糾正數(shù)據(jù)中的不一致。,28,忽略元組人工填寫空缺值使用一個(gè)全局常量填充空缺值 使用屬性的平均值填充空缺值使用與給
10、定元組屬同一類的所有樣本的平均值使用最可能的值填充空缺值,2.3.1 缺失值,29,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。回歸:用一個(gè)函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。聚類:將類似的值聚集為簇。其他:如數(shù)據(jù)歸約、離散化和概念分層。,2.3.2 噪聲數(shù)據(jù),30,分箱:通過考察數(shù)據(jù)的“近鄰”(周圍的值)來光滑有序數(shù)據(jù)的值。局部光滑。劃分:等頻、等寬光滑:用箱均值、用箱中位數(shù)、用箱邊界(去替
11、換箱中的每個(gè)數(shù)據(jù)),2.3.2 噪聲數(shù)據(jù),分箱法光滑數(shù)據(jù),Sorted data for price (in dollars): 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34* Partition into equal-frequency (equi-depth) bins: - Bin 1: 4, 8, 9, 15 - Bin 2: 21, 21, 24, 25
12、 - Bin 3: 26, 28, 29, 34* Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29,* Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21,
13、21, 25, 25 - Bin 3: 26, 26, 26, 34,,回歸:用一個(gè)函數(shù)(回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。線性回歸多元線性回歸聚類:將類似的值聚集為簇。檢測(cè)離群點(diǎn),回歸Regression,,,,,,,,,,,,,,,,,x,y,y = x + 1,,,,X1,Y1,Y1’,聚類Cluster Analysis,,,,2.3.3 數(shù)據(jù)清理作為一個(gè)過程,偏差檢測(cè)使用“元數(shù)據(jù)”編碼使用的不一致、數(shù)據(jù)表示的
14、不一致、字段過載等一些規(guī)則:唯一性規(guī)則、連續(xù)性規(guī)則、空值規(guī)則。商業(yè)工具:數(shù)據(jù)清洗工具、數(shù)據(jù)審計(jì)工具數(shù)據(jù)變換(糾正偏差)數(shù)據(jù)遷移工具提取/變換/載入(ETL)工具加強(qiáng)交互性數(shù)據(jù)清理工具:Potter’s Wheel開發(fā)數(shù)據(jù)變換操作規(guī)范說明語言,2.4 數(shù)據(jù)集成和變換,數(shù)據(jù)集成合并多個(gè)數(shù)據(jù)源中的數(shù)據(jù),存放在一個(gè)一致的數(shù)據(jù)庫(如數(shù)據(jù)倉庫)中。源數(shù)據(jù)可能包括多個(gè)數(shù)據(jù)庫,數(shù)據(jù)立方體或一般文件。數(shù)據(jù)變換將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成適合于挖
15、掘的形式。,37,實(shí)體識(shí)別元數(shù)據(jù)可幫助避免錯(cuò)誤屬性冗余相關(guān)分析數(shù)據(jù)重復(fù)(元組冗余)數(shù)據(jù)值沖突的檢測(cè)與處理表示、比例或編碼不同,2.4.1 數(shù)據(jù)集成,38,平滑:去掉數(shù)據(jù)中的噪聲。技術(shù)包括分箱、回歸、聚類。聚集Aggregation :對(duì)數(shù)據(jù)進(jìn)行匯總或聚集。數(shù)據(jù)泛化(概化):使用概念分層,用高層概念替換低層或“原始”數(shù)據(jù)。規(guī)范化:將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。最小-最大、Z-Score、按小數(shù)定標(biāo)規(guī)范化
16、。屬性構(gòu)造(特征構(gòu)造):由給定的屬性構(gòu)造新的屬性并添加到屬性集中,以幫助挖掘過程??梢詭椭岣邷?zhǔn)確率和對(duì)高維數(shù)據(jù)結(jié)構(gòu)的理解。,2.4.2 數(shù)據(jù)變換,規(guī)范化,1)最小-最大規(guī)范化:將原始數(shù)據(jù)v經(jīng)線性變換,映射到區(qū)間[new_minA, new_maxA]例如:income的最大,最小值分別為9000,2000,則將它的值映射到[0,1]時(shí),若income的值6800規(guī)范后為: (6800-2000)/(9000-2000)*(1
17、-0)+0=0.686,,存在問題:若存在離群點(diǎn),可能影響規(guī)范化若在規(guī)范化后添加新的數(shù)據(jù),當(dāng)新數(shù)據(jù)落在原數(shù)據(jù)的區(qū)間[minA, maxA]之外,將導(dǎo)致“越界”錯(cuò)誤。,規(guī)范化…,2) z-score規(guī)范化(零均值規(guī)范化):屬性A的值基于A的平均值和標(biāo)準(zhǔn)差規(guī)范化。對(duì)離群點(diǎn)不敏感,2.5 數(shù)據(jù)歸約 Data Reduction,對(duì)海量數(shù)據(jù)進(jìn)行復(fù)雜的數(shù)據(jù)分析和挖掘?qū)⑿枰荛L(zhǎng)時(shí)間,使得這種分析不現(xiàn)實(shí)或不可行。數(shù)據(jù)歸約技術(shù)可以用來得到
18、數(shù)據(jù)集的歸約表示,它小得多,但仍接近保持原數(shù)據(jù)的完整性。對(duì)歸約后的數(shù)據(jù)集挖掘?qū)⒏行Вa(chǎn)生相同(或幾乎相同)的結(jié)果。,數(shù)據(jù)歸約,數(shù)據(jù)歸約策略:(1)數(shù)據(jù)立方體聚集:對(duì)數(shù)據(jù)立方體做聚集操作(2)屬性子集選擇:檢測(cè)并刪除不相關(guān)、弱相關(guān)或冗余的屬性和維。(3)維度歸約:刪除不重要的屬性(4)數(shù)值歸約:用規(guī)模較小的數(shù)據(jù)表示、替換或估計(jì)原始數(shù)據(jù)(5)離散化和概念分層(concept hierarchy)產(chǎn)生屬性的原始數(shù)值用區(qū)間值
19、或較高層的概念替換,2.5.1 數(shù)據(jù)立方體聚集,數(shù)據(jù)立方體存儲(chǔ)多維聚集信息,提供對(duì)預(yù)計(jì)算的匯總數(shù)據(jù)進(jìn)行快速訪問。如:立方體內(nèi)存儲(chǔ)季度銷售額,若對(duì)年銷售額感興趣,可對(duì)數(shù)據(jù)執(zhí)行聚集操作,例如sum()等。,,,,,2.5.2 屬性子集選擇,通過刪除不相關(guān)或冗余的屬性(或維)減小數(shù)據(jù)集。其目標(biāo)是找出最小屬性集,使得數(shù)據(jù)類的概率分布盡可能地接近使用所有屬性得到的原分布。通過窮舉搜索找出有屬性的最佳子集是不現(xiàn)實(shí)的。通常采用壓縮搜索空間的啟發(fā)
20、式算法。如貪心算法:從局部最優(yōu)到全局最優(yōu)。逐步向前選擇逐步向后刪除向前選擇和向后刪除的結(jié)合決策樹歸納,2.5.3 維度歸約,維度歸約使用數(shù)據(jù)編碼或變換,以便得到原數(shù)據(jù)的歸約或“壓縮”表示。分為無損和有損兩種。主要方法:串壓縮:無損,但只允許有限的數(shù)據(jù)操作。小波變換(DWT):有損,適合高維數(shù)據(jù)。主成分分析(PCA):有損,能更好地處理稀疏數(shù)據(jù)。,2.5.4 數(shù)值歸約,通過選擇替代的、“較小的”數(shù)據(jù)表示形式來減少數(shù)據(jù)量。
21、可以分為參數(shù)方法和非參數(shù)方法。參數(shù)方法:回歸(regression )和對(duì)數(shù)線性模型非參數(shù)方法:直方圖、聚類、抽樣,抽樣,用數(shù)據(jù)的小得多的隨機(jī)樣本(子集)不是大型數(shù)據(jù)集。抽樣方法s個(gè)樣本無放回簡(jiǎn)單隨機(jī)抽樣(SRSWOR)s個(gè)樣本有放回簡(jiǎn)單隨機(jī)抽樣(SRSWR)聚類抽樣分層抽樣,2.6 數(shù)據(jù)離散化和概念分層產(chǎn)生,數(shù)據(jù)離散化技術(shù)用少數(shù)區(qū)間標(biāo)記替換連續(xù)屬性的數(shù)值,從而減少和簡(jiǎn)化了原來的數(shù)據(jù)??梢詫?duì)一個(gè)屬性遞歸地進(jìn)行離散化,產(chǎn)生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- ct數(shù)據(jù)預(yù)處理流程
- ct數(shù)據(jù)預(yù)處理流程
- 大數(shù)據(jù)預(yù)處理代碼
- 大數(shù)據(jù)預(yù)處理代碼
- 第2章_數(shù)據(jù)存儲(chǔ)預(yù)處理
- 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究.pdf
- 多波束測(cè)量數(shù)據(jù)預(yù)處理研究.pdf
- 基于數(shù)據(jù)驅(qū)動(dòng)的橋梁健康監(jiān)測(cè)數(shù)據(jù)預(yù)處理.pdf
- 多通道數(shù)據(jù)采集系統(tǒng)數(shù)據(jù)預(yù)處理方法研究.pdf
- 面向數(shù)據(jù)驅(qū)動(dòng)建模的數(shù)據(jù)預(yù)處理方法研究.pdf
- 基于數(shù)據(jù)流技術(shù)的WAMS數(shù)據(jù)預(yù)處理.pdf
- 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的研究與實(shí)現(xiàn).pdf
- 健康大數(shù)據(jù)預(yù)處理技術(shù)及其應(yīng)用.pdf
- 經(jīng)營分析系統(tǒng)的數(shù)據(jù)預(yù)處理技術(shù).pdf
- GPS數(shù)據(jù)預(yù)處理方法研究及其應(yīng)用.pdf
- 數(shù)據(jù)預(yù)處理技術(shù)的研究與實(shí)現(xiàn).pdf
- envi對(duì)sar數(shù)據(jù)的預(yù)處理過程
- 數(shù)據(jù)質(zhì)量控制:數(shù)據(jù)預(yù)處理研究、設(shè)計(jì)與實(shí)現(xiàn).pdf
- teqc在gnss數(shù)據(jù)預(yù)處理和質(zhì)量評(píng)定
- 散亂點(diǎn)云數(shù)據(jù)預(yù)處理的研究.pdf
評(píng)論
0/150
提交評(píng)論