

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著科學(xué)技術(shù)的飛速發(fā)展,各種媒體不斷涌現(xiàn),文本作為數(shù)據(jù)的一種載體,數(shù)量也日益增多,文本挖掘已成為研究領(lǐng)域的熱點(diǎn)。目前,隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展,如何讓計(jì)算機(jī)學(xué)會(huì)并理解自然語(yǔ)言成為文本挖掘領(lǐng)域的新方向。讓計(jì)算機(jī)理解文本的難點(diǎn)在于:一、如何把文本轉(zhuǎn)換成計(jì)算機(jī)熟悉的數(shù)字?jǐn)?shù)據(jù);二、如何讓計(jì)算機(jī)像人一樣理解文本中的含義。把文本轉(zhuǎn)換成計(jì)算機(jī)熟悉的數(shù)字?jǐn)?shù)據(jù)屬于特征提取的范疇,本文使用了兩種特征來(lái)做詞特征,一是詞向量,二是詞的文本特征,包括詞性、詞根等
2、。讓計(jì)算機(jī)理解文本中的含義一般是對(duì)句子進(jìn)行語(yǔ)義分析,本文使用了語(yǔ)義關(guān)系中的依存關(guān)系做特征。最近,文本挖掘已經(jīng)成功應(yīng)用于生物醫(yī)學(xué)領(lǐng)域,用來(lái)提取生物事件信息,本文在生物事件提取上做了以下三個(gè)工作:
(1)提出了一種基于不平衡分類(lèi)指標(biāo)與集成學(xué)習(xí)的不平衡數(shù)據(jù)分類(lèi)方法。由于現(xiàn)實(shí)生活中經(jīng)常遇到不平衡分類(lèi)問(wèn)題,本文提出了一種基于不平衡分類(lèi)指標(biāo)與集成學(xué)習(xí)的不平衡數(shù)據(jù)分類(lèi)方法。在集成算法中,通過(guò)不平衡問(wèn)題評(píng)價(jià)指標(biāo)G來(lái)優(yōu)化弱分類(lèi)器在訓(xùn)練集上的錯(cuò)誤
3、率,并將優(yōu)化后的錯(cuò)誤率用到訓(xùn)練樣本權(quán)重的更新和弱分類(lèi)器投票權(quán)重的求取中。本文提出的不平衡分類(lèi)方法提高了分類(lèi)器在少數(shù)類(lèi)上的分類(lèi)準(zhǔn)確率,使集成算法更適合用于解決不平衡分類(lèi)問(wèn)題。
(2)提出了一種基于文本特征的生物事件提取方法。本文把生物事件提取方法分成了兩步,第一步提取生物事件觸發(fā)詞;第二步提取生物分子相互關(guān)系,并結(jié)合生物事件觸發(fā)詞的類(lèi)型生成生物事件。在提取生物事件時(shí),本文提出了生物事件觸發(fā)詞樣本篩選方法,并提出了復(fù)雜生物事件循環(huán)
4、嵌套問(wèn)題的解決方法。在BioNLP ST(Shared Tasks)2013 GE(Genia Event Extraction)數(shù)據(jù)上的實(shí)驗(yàn)表明:本文提出的生物事件提取方法取得了滿(mǎn)意的結(jié)果。
(3)提出了一種基于詞向量和文本特征的生物事件提取方法。近年來(lái),詞向量由于其低維、連續(xù)、稠密的特點(diǎn),被廣泛用于自然語(yǔ)言處理領(lǐng)域的各個(gè)方面。本文在提取生物事件觸發(fā)詞時(shí),基于詞向量以及文本特征,利用支持向量機(jī)進(jìn)行分類(lèi),大大提高了生物事件提取
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 詞向量和文本隱含主題的聯(lián)合學(xué)習(xí)研究.pdf
- 基于概念詞的文本特征提取及應(yīng)用研究.pdf
- 基于詞向量和主題向量的文本分類(lèi)算法研究.pdf
- 基于詞向量的短文本分類(lèi)方法研究.pdf
- 基于詞向量的短文本聚類(lèi)研究與應(yīng)用.pdf
- 基于詞向量的文本距離計(jì)算及應(yīng)用研究.pdf
- 基于本體和文本特征的Web信息抽取技術(shù)研究.pdf
- 中文文本關(guān)鍵詞提取和文本聚類(lèi)中聚類(lèi)中心點(diǎn)選取算法研究.pdf
- 基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn).pdf
- 基于詞向量的短文本情感分類(lèi)方法研究與應(yīng)用.pdf
- 基于word2vec詞向量的文本分類(lèi)研究.pdf
- 基于詞跨度的中文文本關(guān)鍵詞提取及在文本分類(lèi)中的應(yīng)用.pdf
- 基于詞向量的在線(xiàn)評(píng)論話(huà)題及其特征抽取研究.pdf
- 基于特征詞的文本聚類(lèi)算法研究.pdf
- 同義詞在文本特征提取與查詢(xún)擴(kuò)展中的應(yīng)用.pdf
- 基于語(yǔ)句特征提取的文本分類(lèi)方法研究.pdf
- 基于角點(diǎn)與顏色特征的視頻文本提取算法.pdf
- 基于深度特征提取的文本情感極性分類(lèi)研究.pdf
- 基于語(yǔ)義過(guò)濾的文本和文本流聚類(lèi)研究.pdf
- SVM文本分類(lèi)中基于法向量的特征選擇算法研究.pdf
評(píng)論
0/150
提交評(píng)論