预览加载失败,请重新加载试试~

基于文本數(shù)據(jù)的軟集合預(yù)測(cè)方法研究.pdf_第1頁(yè)
已閱讀1頁(yè),還剩197頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)時(shí)代,文本數(shù)據(jù)是人們傳播和接受信息的重要途徑之一。企業(yè)利用文本數(shù)據(jù)發(fā)布招聘和優(yōu)惠廣告,新聞機(jī)構(gòu)利用文本數(shù)據(jù)描述正在發(fā)生的事件,公眾利用文本數(shù)據(jù)表達(dá)觀點(diǎn)抒發(fā)情感等。對(duì)于企業(yè)和個(gè)人而言,文本數(shù)據(jù)蘊(yùn)含了大量?jī)r(jià)值。分析提取文本數(shù)據(jù)中蘊(yùn)含的價(jià)值,是大數(shù)據(jù)時(shí)代取得競(jìng)爭(zhēng)優(yōu)勢(shì)的重要途徑。研究基于文本數(shù)據(jù)的預(yù)測(cè)方法則是文本數(shù)據(jù)價(jià)值提取的途徑之一。但自然語(yǔ)言特征、非精確性等不確定性特征阻礙了利用文本數(shù)據(jù)進(jìn)行預(yù)測(cè),有必要尋找處理不確定性特征的合適理論并

2、開(kāi)發(fā)相應(yīng)預(yù)測(cè)方法。軟集合理論是處理不確定性特征的先進(jìn)理論之一。它源于對(duì)近似描述問(wèn)題的研究,以尋找近似解為構(gòu)建理念,使用參數(shù)化集族的方式描述問(wèn)題,著眼于建立非精確模型解決問(wèn)題,并得到相應(yīng)的近似解。從理論構(gòu)建理念、問(wèn)題描述方式和解決路徑來(lái)看,軟集合理論適于作為研究不確定性預(yù)測(cè)方法的基礎(chǔ)理論。因此,尋找基于文本數(shù)據(jù)的預(yù)測(cè)問(wèn)題和軟集合理論的結(jié)合點(diǎn),構(gòu)建基于文本數(shù)據(jù)的軟集合預(yù)測(cè)方法,能夠在發(fā)現(xiàn)、提取文本數(shù)據(jù)蘊(yùn)含價(jià)值的過(guò)程中為企業(yè)和個(gè)人提供可靠工具

3、。
  本文以三個(gè)方面為切入點(diǎn)研究基于文本數(shù)據(jù)的軟集合預(yù)測(cè)方法。
 ?、倩谖谋緮?shù)據(jù)的軟集合特征選擇方法研究。特征選擇階段是基于文本數(shù)據(jù)預(yù)測(cè)的重要階段。本文針對(duì)該階段以及特征間非精確關(guān)系構(gòu)建了基于文本數(shù)據(jù)的軟集合特征選擇方法(FSST)。該方法提出了新的基于等價(jià)類的軟集合模型,即成對(duì)關(guān)系軟集合模型(PRSS),并進(jìn)一步構(gòu)建了近似軟集合、依賴度軟集合和不可分辨關(guān)系軟集合用以處理特征間非精確關(guān)系。成對(duì)關(guān)系軟集合模型消除了以往基于

4、等價(jià)類軟集合模型(NSS)的冗余,將衡量特征間依賴程度的運(yùn)算轉(zhuǎn)化為矩陣計(jì)算方式,提升了運(yùn)算效率。使用算例分析詳細(xì)介紹了FSST的執(zhí)行過(guò)程。使用16個(gè)樣本數(shù)據(jù)庫(kù)分析比較了FSST與基于NSS的特征選擇方法。結(jié)果說(shuō)明FSST保持了分類精度和可擴(kuò)展性,提高了運(yùn)行效率。
 ?、诨谖谋緮?shù)據(jù)的軟依賴預(yù)測(cè)方法研究。與以往預(yù)測(cè)方法相比,該方法利用了軟概率、軟條件概率和軟依賴處理自然語(yǔ)言特征和非精確性的優(yōu)點(diǎn),即能夠處理整個(gè)預(yù)測(cè)過(guò)程、隨數(shù)據(jù)庫(kù)更新動(dòng)

5、態(tài)變化、不需要提供嚴(yán)格的概率穩(wěn)定性假設(shè)、構(gòu)建非精確模型獲取近似解等。首先介紹了軟概率、軟條件概率、軟估計(jì)和軟依賴等基礎(chǔ)理論,然后介紹了方法所解決的預(yù)測(cè)問(wèn)題,并構(gòu)建了基于文本數(shù)據(jù)的軟依賴預(yù)測(cè)模型、特征軟集合模型以及依賴軟集合模型。依據(jù)這些模型,構(gòu)建了基于文本數(shù)據(jù)的軟依賴預(yù)測(cè)方法。軟依賴預(yù)測(cè)模型建立起不考慮時(shí)間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測(cè)問(wèn)題與軟依賴之間的聯(lián)系。軟依賴預(yù)測(cè)模型的具體實(shí)現(xiàn)依賴于特征軟集合模型和依賴軟集合模型。特征軟集合模

6、型整合了FSST方法,能夠處理特征間非精確關(guān)系并將文本數(shù)據(jù)轉(zhuǎn)化為向量空間表示形式。依賴軟集合模型計(jì)算軟估計(jì),完成預(yù)測(cè)任務(wù)。同時(shí)針對(duì)依賴軟集合模型中存在的空集問(wèn)題和預(yù)測(cè)過(guò)程中特征過(guò)多問(wèn)題,提出了尋找近似事件和采用啟發(fā)式算法的解決方案。為了對(duì)軟估計(jì)的效果進(jìn)行評(píng)估,定義了三種軟估計(jì)誤差度量,即誤差軟映射、單次誤差軟映射和總誤差,并介紹了計(jì)算軟估計(jì)誤差度量所需的點(diǎn)與集合之間誤差度量,即基于Hausdorff距離的Theil不等系數(shù)和基于最小Ma

7、nhattan距離的Theil不等系數(shù)。算例分析中介紹了基于文本數(shù)據(jù)的軟依賴預(yù)測(cè)方法執(zhí)行過(guò)程。應(yīng)用分析中使用該方法預(yù)測(cè)10家公司8-K報(bào)告對(duì)當(dāng)期股價(jià)波動(dòng)的影響,分析了方法的優(yōu)劣勢(shì)并與其他預(yù)測(cè)方法做了定性比較。結(jié)果說(shuō)明,基于文本數(shù)據(jù)的軟依賴預(yù)測(cè)方法能夠?yàn)椴豢紤]時(shí)間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測(cè)任務(wù)提供支持。
 ?、刍谖谋緮?shù)據(jù)的軟序列依賴預(yù)測(cè)方法研究。該方法利用軟序列概率、軟序列條件概率和軟序列依賴,解決了基于文本數(shù)據(jù)的軟依賴預(yù)

8、測(cè)方法無(wú)法處理時(shí)間滯后效應(yīng)的問(wèn)題。由于軟序列依賴是軟依賴在處理樣本序列上的擴(kuò)展,軟序列依賴擁有與軟依賴相同的處理自然語(yǔ)言特征和非精確性的優(yōu)勢(shì)。首先根據(jù)軟序列概率、軟序列條件概率定義了軟序列估計(jì)和軟序列依賴,而后介紹了方法所解決的預(yù)測(cè)問(wèn)題,構(gòu)建了基于文本數(shù)據(jù)的軟序列依賴預(yù)測(cè)模型和序列依賴軟集合模型。依據(jù)這些模型,構(gòu)建了基于文本數(shù)據(jù)的軟序列依賴預(yù)測(cè)方法?;谖谋緮?shù)據(jù)的軟序列依賴預(yù)測(cè)模型建立起考慮時(shí)間滯后效應(yīng)并基于文本數(shù)據(jù)的軟集合預(yù)測(cè)問(wèn)題與軟

9、序列依賴之間的聯(lián)系。軟序列依賴預(yù)測(cè)模型的具體實(shí)現(xiàn)依賴于特征軟集合模型和序列依賴軟集合模型。特征軟集合模型將文本數(shù)據(jù)轉(zhuǎn)化為向量空間表示形式。序列依賴軟集合模型計(jì)算軟序列估計(jì),完成預(yù)測(cè)任務(wù)。同時(shí)針對(duì)序列依賴軟集合模型中存在空集和特征過(guò)多問(wèn)題,分別構(gòu)建了尋找近似事件的方法和啟發(fā)式算法。定義了序列誤差軟映射、序列單次誤差軟映射及序列總誤差對(duì)軟序列估計(jì)進(jìn)行評(píng)估。算例分析中介紹了基于文本數(shù)據(jù)的軟序列依賴預(yù)測(cè)方法執(zhí)行過(guò)程,應(yīng)用分析中使用該方法預(yù)測(cè)10

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論