版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著計(jì)算機(jī)技術(shù)和電腦的不斷更新?lián)Q代,各行各業(yè)的數(shù)據(jù)量呈爆炸性增加,從海量的數(shù)據(jù)中進(jìn)行有效的價(jià)值挖掘已成為研究的熱點(diǎn),而保證數(shù)據(jù)的質(zhì)量處于較高水平是數(shù)據(jù)挖掘的重要先決條件。從數(shù)據(jù)中獲取信息,從信息中提取知識(shí),再?gòu)闹R(shí)到智能,而如何從中挖掘有用信息才能體現(xiàn)數(shù)據(jù)的價(jià)值,數(shù)據(jù)清洗技術(shù)可提供干凈、準(zhǔn)確、高質(zhì)量的數(shù)據(jù)。
數(shù)據(jù)清洗在數(shù)據(jù)挖掘過(guò)程中處于非常重要的位置,同時(shí)也是獲得高質(zhì)量數(shù)據(jù)的關(guān)鍵技術(shù)。傳統(tǒng)的數(shù)據(jù)清洗技術(shù)主要應(yīng)用于結(jié)構(gòu)化及小數(shù)據(jù)
2、量的處理與分析,它在處理不同來(lái)源的數(shù)據(jù)時(shí)操作會(huì)非常復(fù)雜,從而導(dǎo)致低質(zhì)量的分析結(jié)果。目前,針對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理主要借助于大數(shù)據(jù)技術(shù),研究人員需要總結(jié)原有數(shù)據(jù)清洗模式,創(chuàng)新數(shù)據(jù)處理技術(shù),結(jié)合新的理論模型使得數(shù)據(jù)清洗技術(shù)更加符合大數(shù)據(jù)時(shí)代的特征。正確的決策需要可靠且準(zhǔn)確的數(shù)據(jù),是對(duì)實(shí)際情況的正確反映。數(shù)據(jù)質(zhì)量的高標(biāo)準(zhǔn)是數(shù)據(jù)分析的前提,而數(shù)據(jù)清洗在存儲(chǔ)或遷移數(shù)據(jù)時(shí)可檢測(cè)出其中的錯(cuò)誤,同時(shí)提高其質(zhì)量。
如今,有關(guān)數(shù)據(jù)清洗的相關(guān)算法已經(jīng)
3、逐漸被提及并在現(xiàn)實(shí)生活中得到印證。本論文以基于無(wú)線傳感器接收到的道路交通數(shù)據(jù)為基本研究、實(shí)驗(yàn)對(duì)象。針對(duì)采集到的數(shù)據(jù)中存在的異常數(shù)據(jù),根據(jù)k-means算法,提出一種以歐氏距離作為指標(biāo),比較數(shù)據(jù)點(diǎn)的相識(shí)度并進(jìn)行劃分與聚類(lèi)。同時(shí),為了判斷數(shù)據(jù)的正常與否借助于聚類(lèi)中心和數(shù)據(jù)點(diǎn)兩者之間的距離作為指標(biāo)。另外根據(jù)灰色系統(tǒng)理論建立錯(cuò)誤數(shù)據(jù)修復(fù)模型,對(duì)異常數(shù)據(jù)進(jìn)行修復(fù)?,F(xiàn)有的對(duì)海量數(shù)據(jù)處理的信息系統(tǒng)一般都運(yùn)行在時(shí)下最流行的開(kāi)源框架Hadoop上,但是往
4、往會(huì)因?yàn)槎喾N緣由使得效果并不符合預(yù)期。鑒于此種情況,本文的研究目的是對(duì)道路交通數(shù)據(jù)清洗,通過(guò)異常數(shù)據(jù)點(diǎn)的檢測(cè)和修復(fù),并對(duì)過(guò)程進(jìn)行優(yōu)化從而提高清洗效率。
本篇論文所做的重要工作包含以下內(nèi)容:首先,通過(guò)研究我們發(fā)現(xiàn)交通數(shù)據(jù)清洗中傳統(tǒng)的數(shù)據(jù)清洗算法不能滿足目前海量數(shù)據(jù)清洗的要求,同時(shí),在灰色系統(tǒng)理論的基礎(chǔ)上,滿足對(duì)交通數(shù)據(jù)的清洗要求,本文提出一種分布式數(shù)據(jù)清洗方法—基于Hadoop的分布式數(shù)據(jù)清洗技術(shù)。其次,針對(duì)無(wú)線傳感器獲得的道路
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Hadoop的交通大數(shù)據(jù)計(jì)算應(yīng)用研究.pdf
- 基于Hadoop的海量交通數(shù)據(jù)研究與應(yīng)用.pdf
- 基于Hadoop技術(shù)的軌道交通MSS系統(tǒng)數(shù)據(jù)存儲(chǔ)應(yīng)用研究.pdf
- 基于XML數(shù)據(jù)清洗的應(yīng)用研究.pdf
- 基于Hadoop的面向海量交通流數(shù)據(jù)分析與應(yīng)用.pdf
- 基于Hadoop的云計(jì)算應(yīng)用研究.pdf
- 基于Hadoop的煤礦設(shè)備數(shù)據(jù)規(guī)范化和清洗的研究.pdf
- 基于Hadoop多維時(shí)態(tài)數(shù)據(jù)挖掘模型的研究與應(yīng)用.pdf
- 基于Hadoop技術(shù)在分布式數(shù)據(jù)存儲(chǔ)中的應(yīng)用研究.pdf
- 基于Hadoop的視頻大數(shù)據(jù)智能預(yù)警系統(tǒng)應(yīng)用研究.pdf
- 基于Hadoop平臺(tái)的DBSCAN算法應(yīng)用研究.pdf
- 基于Hadoop的重復(fù)數(shù)據(jù)刪除技術(shù)的研究與應(yīng)用.pdf
- 數(shù)據(jù)清洗算法的研究與應(yīng)用.pdf
- 基于Hadoop的海量日志數(shù)據(jù)處理研究與應(yīng)用.pdf
- 基于Hadoop的MapReduce計(jì)算模型優(yōu)化與應(yīng)用研究.pdf
- Hadoop環(huán)境下的數(shù)據(jù)溯源方法的應(yīng)用研究.pdf
- 基于HADOOP的數(shù)據(jù)挖掘研究.pdf
- 基于Hadoop平臺(tái)的中文分詞算法應(yīng)用研究.pdf
- 基于Hadoop平臺(tái)的Map-Reduce應(yīng)用研究.pdf
- 基于Hadoop平臺(tái)的文本分類(lèi)應(yīng)用研究.pdf
評(píng)論
0/150
提交評(píng)論