版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、動(dòng)車(chē)組作為完成鐵路高速運(yùn)輸生產(chǎn)任務(wù)最重要的移動(dòng)設(shè)備,是高新技術(shù)的集成體。與傳統(tǒng)機(jī)車(chē)車(chē)輛相比動(dòng)車(chē)組在車(chē)輛結(jié)構(gòu)上有很大的不同,而且其運(yùn)行速度是傳統(tǒng)機(jī)車(chē)車(chē)輛所不可及的。在其運(yùn)營(yíng)過(guò)程中,故障管理和檢修是高速鐵路系統(tǒng)綜合保障工程中的重要組成部分,是確保實(shí)現(xiàn)動(dòng)車(chē)組安全運(yùn)行,高效率使用的必要保障。在檢修過(guò)程中,修程修制又起著指導(dǎo)性、關(guān)鍵性的作用,而且合理完善的修程修制是保證高速動(dòng)車(chē)組快速、安全、舒適、高效運(yùn)行的基本前提。然而,對(duì)安全問(wèn)題的重視,無(wú)疑會(huì)
2、造成動(dòng)車(chē)組復(fù)雜的維修流程,這對(duì)于提升效率自然會(huì)是一個(gè)極大的影響。要提高動(dòng)車(chē)組的維修效率,一方面是深入對(duì)動(dòng)車(chē)組構(gòu)造的理論研究;另一方面,在過(guò)去積累的大量動(dòng)車(chē)組數(shù)據(jù)中包含著尚未發(fā)掘的有價(jià)值的信息。而隨著大數(shù)據(jù)相關(guān)技術(shù)的成熟,這些數(shù)據(jù)的價(jià)值也日益凸顯。為了使這些數(shù)據(jù)得到很好的利用,要從海量的故障數(shù)據(jù)中獲取其中隱含的故障關(guān)聯(lián)信息,以達(dá)到較早發(fā)現(xiàn)故障的目的。
維修的策略主要有3種:周期修,狀態(tài)修和事后修。其中周期修是目前最為主要的一種方
3、式,將維修等級(jí)分成五級(jí),列車(chē)服役一定的時(shí)間或里程后就會(huì)進(jìn)行相應(yīng)的維修,更換一些對(duì)應(yīng)的部件。此方法中,維修周期是根據(jù)專(zhuān)家經(jīng)驗(yàn)確定的,為了保證安全所以有一定的余地。這樣雖然保證了安全,但是會(huì)陷入到過(guò)度修的情況中,即列車(chē)上某部件健康情況良好卻依然被更換,導(dǎo)致運(yùn)維成本提高。事后修則是另一種極端,即當(dāng)部件完全失效時(shí)再進(jìn)行更換,這顯然是不可取的方案。故而就提出了折中的狀態(tài)修方案,根據(jù)部件當(dāng)前的工作狀態(tài),判斷其損壞程度,在其將要損壞時(shí)進(jìn)行更換,從而既
4、保證了運(yùn)輸安全,又降低成本的目的。
目前在我國(guó)的鐵路事業(yè)中,大數(shù)據(jù)分析技術(shù)已經(jīng)運(yùn)用到了一些領(lǐng)域中:基于Hadoop平臺(tái)設(shè)計(jì)并實(shí)現(xiàn)了一種分析和處理動(dòng)車(chē)組振動(dòng)數(shù)據(jù)的方案,用于消除高鐵振動(dòng)數(shù)據(jù)中的線性漂移,發(fā)現(xiàn)數(shù)據(jù)中的異常點(diǎn),通過(guò)數(shù)據(jù)分布情況判斷列車(chē)部件故障的類(lèi)型。基于Hadoop平臺(tái),通過(guò)分析歷史車(chē)流數(shù)據(jù)來(lái)高效準(zhǔn)確的推算車(chē)流;提出了一種構(gòu)建動(dòng)車(chē)組數(shù)據(jù)倉(cāng)庫(kù)的思路。其中也包括動(dòng)車(chē)組故障數(shù)據(jù)的相關(guān)部分,可以說(shuō)大數(shù)據(jù)分析對(duì)于龐大的鐵路系統(tǒng)
5、來(lái)說(shuō)是未來(lái)的發(fā)展方向,并且也已經(jīng)在動(dòng)車(chē)組的運(yùn)營(yíng)管理的某些領(lǐng)域中得到了應(yīng)用。隨著動(dòng)車(chē)組維修領(lǐng)域的需求日益增長(zhǎng),動(dòng)車(chē)組故障檢修方面也必將需要大數(shù)據(jù)分析技術(shù)的支持。
大數(shù)據(jù)數(shù)據(jù)挖掘過(guò)程一般由數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘、模式評(píng)估和知識(shí)表示這幾個(gè)階段組成。在具體挖掘過(guò)程中,需要這幾個(gè)階段的反復(fù)執(zhí)行。數(shù)據(jù)挖掘主要分為關(guān)聯(lián)模式挖掘,聚類(lèi)模式挖掘,決策樹(shù)模式挖掘等;而本文的主要工作:關(guān)聯(lián)規(guī)則挖掘,主要分為挖掘頻繁模式和根據(jù)頻繁模式
6、生成關(guān)聯(lián)規(guī)則兩步。其中關(guān)聯(lián)規(guī)則的生成較為簡(jiǎn)單,所以影響關(guān)聯(lián)規(guī)則算法效率的主要步驟是頻繁模式的挖掘,也是區(qū)分諸多算法效率的核心問(wèn)題。因此在頻繁模式挖掘方面取得的任何進(jìn)展都將對(duì)關(guān)聯(lián)規(guī)則以至于其他的數(shù)據(jù)挖掘任務(wù)的效率產(chǎn)生重要影響。
綜上所述,本文通過(guò)在分布式計(jì)算平臺(tái)上實(shí)現(xiàn)關(guān)聯(lián)關(guān)系規(guī)則算法,用于分析動(dòng)車(chē)組故障數(shù)據(jù)。填補(bǔ)我國(guó)目前動(dòng)車(chē)組運(yùn)維方面的不足。
最早的關(guān)聯(lián)規(guī)則算法可以追溯到1993年,名叫AIS算法。但由于該算法效率過(guò)低
7、,在由Agrwal等人的改進(jìn)后提出了Apriori算法,特點(diǎn)是使用了逐層搜索的迭代思路來(lái)找出事務(wù)數(shù)據(jù)庫(kù)中的頻繁項(xiàng)集,相較于AIS其效率大大的提高。作為一種經(jīng)典算法,后來(lái)的許多算法比如AprioriHybrid等算法皆是依據(jù)它改進(jìn)而來(lái)的。
Apriori算法主要通過(guò)兩個(gè)頻繁項(xiàng)集的重要特性,使得整個(gè)算法的效率提升:如項(xiàng)目集R是頻繁項(xiàng)集,則其子集也是頻繁項(xiàng)集;如R不是頻繁項(xiàng)集,則其超集都是非頻繁項(xiàng)集。通過(guò)這兩個(gè)性質(zhì),可以有效的減少頻
8、繁項(xiàng)集的產(chǎn)生。
Apriori算法使用的是一種迭代方法,叫做逐層搜索,其中k項(xiàng)集用于探索(k+1)項(xiàng)集。首先,掃描數(shù)據(jù)庫(kù),累積每個(gè)單獨(dú)項(xiàng)的計(jì)數(shù),并記錄每個(gè)滿(mǎn)足最小支持度的項(xiàng),即找出頻繁1項(xiàng)集的集合,記為L(zhǎng)1。然后根據(jù)這個(gè)找出L2,即頻繁2項(xiàng)集的集合。以此類(lèi)推,只到不能再找到頻繁k項(xiàng)集。一次數(shù)據(jù)庫(kù)的完整掃描只能完成一次找出Lk的操作。
除了在故障診斷方面Apriori算法能發(fā)揮巨大的作用之外,該算法在商業(yè),價(jià)格分析等領(lǐng)
9、域中都得到了廣泛的應(yīng)用。該算法具有直觀,簡(jiǎn)便易于實(shí)現(xiàn)等特點(diǎn),同樣也有候選項(xiàng)集多,數(shù)據(jù)庫(kù)掃描次數(shù)多等方面的不足。可以說(shuō)是優(yōu)點(diǎn)與缺點(diǎn)同樣明顯。本文根據(jù)算法的缺點(diǎn)進(jìn)行了改進(jìn),考慮從蟻群優(yōu)化和布隆過(guò)濾器兩種思路對(duì)算法的性能做出優(yōu)化,主要是在產(chǎn)生關(guān)聯(lián)關(guān)系的中間過(guò)程中消除一些冗余,使得算法能更加快速的執(zhí)行。并對(duì)比算法之間的性能,選取性能更優(yōu)的算法用于進(jìn)一步工作;
另一方面,為了更好的分析數(shù)據(jù),就要使用大數(shù)據(jù)工具,才能高效,合理的進(jìn)行計(jì)算。
10、本文對(duì)于大數(shù)據(jù)平臺(tái)Hadoop進(jìn)行深入研究,包括分布式文件系統(tǒng)(Hadoop Distributed File System)以及Spark框架。
HDFS作為主流的分布式存儲(chǔ)系統(tǒng),主要有以下優(yōu)點(diǎn):
①擴(kuò)容能力:能更可靠的存儲(chǔ)和處理PB級(jí)的數(shù)據(jù);
?、诔杀镜?可以通過(guò)普通機(jī)器組成的服務(wù)群來(lái)分發(fā)以及處理數(shù)據(jù),這些服務(wù)器總計(jì)可達(dá)數(shù)千個(gè)節(jié)點(diǎn)。
?、鄹咝?通過(guò)分發(fā)數(shù)據(jù)和備份數(shù)據(jù),Hadoop可以在數(shù)據(jù)所在的
11、節(jié)點(diǎn)上并行的處理他們。
④高容錯(cuò)性:在面對(duì)數(shù)據(jù)可能損害或出錯(cuò)時(shí),不是采用使用更好的機(jī)器以防止出錯(cuò)這種策略,而是提供了一種機(jī)制,使得普通機(jī)器節(jié)點(diǎn)上的數(shù)據(jù)損壞出錯(cuò)后也能很好的處理??梢哉f(shuō),HDFS是面向一種數(shù)據(jù)高出錯(cuò)率的一種解決方案。這種容錯(cuò)性高的特點(diǎn)可以保證數(shù)據(jù)安全可靠更可以使其可以部署在一般的普通商業(yè)機(jī)器上。
Spark是一個(gè)基于內(nèi)存計(jì)算的開(kāi)源的集群計(jì)算系統(tǒng),目的是讓數(shù)據(jù)分析更加快速。Spark非常小巧玲瓏,由加州伯
12、克利大學(xué)AMP實(shí)驗(yàn)室的Matei為主的小團(tuán)隊(duì)所開(kāi)發(fā)。Spark是一種與Hadoop相似的開(kāi)源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說(shuō),Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢(xún)外,它還可以?xún)?yōu)化迭代工作負(fù)載。Spark是在Scala語(yǔ)言中實(shí)現(xiàn)的,它將Scala用作其應(yīng)用程序框架。與Hadoop不同,Spark和Scala能夠緊密集成,其中的Scala
13、可以像操作本地集合對(duì)象一樣輕松地操作分布式數(shù)據(jù)集。盡管創(chuàng)建Spark是為了支持分布式數(shù)據(jù)集上的迭代作業(yè),但是實(shí)際上它是對(duì)Hadoop的補(bǔ)充,可以在Hadoop文件系統(tǒng)中并行運(yùn)行。
最后,以關(guān)聯(lián)規(guī)則算法和大數(shù)據(jù)平臺(tái)為基礎(chǔ),將前期理論知識(shí)和動(dòng)車(chē)組故障數(shù)據(jù)相結(jié)合,確定故障關(guān)聯(lián)規(guī)則的挖掘方案。最終達(dá)到高速準(zhǔn)確的挖掘動(dòng)車(chē)組故障關(guān)聯(lián)規(guī)則的目的,為管理部門(mén)制定更加完善,合理的動(dòng)車(chē)組維修流程提供優(yōu)化建議。隨著動(dòng)車(chē)組的大規(guī)模應(yīng)用,維修管理規(guī)程得
14、到了補(bǔ)充,修訂和完善。使得檢修計(jì)劃和作業(yè)流程得到調(diào)整優(yōu)化,但由于尚在起步階段,檢修計(jì)劃會(huì)隨著鐵路建設(shè),部件壽命等變動(dòng)而調(diào)整。所以,很多方面我國(guó)仍處于研究階段。我國(guó)大數(shù)據(jù)分析主要面對(duì)的問(wèn)題是投入產(chǎn)出比不高,消耗的資源較高但是沒(méi)有產(chǎn)生應(yīng)有的效應(yīng)。但從長(zhǎng)遠(yuǎn)來(lái)看,隨著相關(guān)行業(yè)的規(guī)范化和各行業(yè)原始數(shù)據(jù)的積累,大數(shù)據(jù)分析的前景必定廣闊。
本論文“基于大數(shù)據(jù)的動(dòng)車(chē)組故障關(guān)聯(lián)關(guān)系規(guī)則挖掘算法研究與實(shí)現(xiàn)”是基于動(dòng)車(chē)組運(yùn)維數(shù)據(jù)來(lái)實(shí)現(xiàn)動(dòng)車(chē)組故障知識(shí)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于Hadoop的動(dòng)車(chē)組故障數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘研究與實(shí)現(xiàn).pdf
- 大數(shù)據(jù)環(huán)境下動(dòng)車(chē)組故障關(guān)聯(lián)關(guān)系分析關(guān)鍵技術(shù)研究與實(shí)現(xiàn).pdf
- 大數(shù)據(jù)關(guān)聯(lián)規(guī)則挖掘研究.pdf
- 基于關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的研究.pdf
- 關(guān)系數(shù)據(jù)庫(kù)中關(guān)聯(lián)規(guī)則挖掘算法的研究與實(shí)現(xiàn).pdf
- 關(guān)系數(shù)據(jù)挖掘的正負(fù)關(guān)聯(lián)規(guī)則挖掘算法.pdf
- 基于關(guān)系數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則挖掘算法的研究.pdf
- 數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的設(shè)計(jì)與實(shí)現(xiàn).pdf
- 基于關(guān)系數(shù)據(jù)庫(kù)的關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 基于ILP的多關(guān)系關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘(MRDM)算法研究.pdf
- 基于大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘算法研究與實(shí)現(xiàn).pdf
- 數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 大數(shù)據(jù)環(huán)境下關(guān)聯(lián)規(guī)則挖掘算法及其應(yīng)用研究.pdf
- 基于動(dòng)態(tài)數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘算法研究與應(yīng)用.pdf
- 基于數(shù)據(jù)垂直分布的關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 關(guān)系數(shù)據(jù)庫(kù)關(guān)聯(lián)規(guī)則挖掘算法研究.pdf
- 關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘方法的研究與實(shí)現(xiàn).pdf
- 面向大數(shù)據(jù)的關(guān)聯(lián)規(guī)則算法研究.pdf
- 關(guān)聯(lián)規(guī)則挖掘算法的設(shè)計(jì)與實(shí)現(xiàn).pdf
評(píng)論
0/150
提交評(píng)論