長文本的復(fù)雜指標(biāo)提取方法.pdf_第1頁
已閱讀1頁,還剩60頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、一直以來,在電網(wǎng)工程設(shè)計評審應(yīng)用領(lǐng)域,存在無法從電網(wǎng)工程設(shè)計文檔中準(zhǔn)確提取關(guān)鍵技術(shù)指標(biāo)供評審的問題。導(dǎo)致評審專家需要現(xiàn)場獲取大量關(guān)鍵技術(shù)指標(biāo)信息,評審標(biāo)準(zhǔn)不統(tǒng)一、評審效率低、評審效果差。本課題將從電網(wǎng)系統(tǒng)文本出發(fā),研究出一套從長文本中自動化提取大量復(fù)雜指標(biāo)的智能方法,以便提高電網(wǎng)評審人員的工作效率和質(zhì)量,節(jié)省人力和物力。電網(wǎng)工程初步設(shè)計說明文檔和電網(wǎng)工程可行性研究報告文檔篇幅長,一般為數(shù)萬字符至數(shù)十萬字符,文檔段落結(jié)構(gòu)復(fù)雜,需要提取的關(guān)

2、鍵工程技術(shù)指標(biāo)繁多,分為變電站指標(biāo)和線路指標(biāo),共276個指標(biāo),可歸為6大類。
  面對該復(fù)雜問題,本課題設(shè)計實(shí)現(xiàn)了基于條件隨機(jī)場CRFs的序列標(biāo)注方法對指標(biāo)值、指標(biāo)屬性、可選方案、分工程名稱進(jìn)行抽取。按照指標(biāo)抽取的流程,課題重點(diǎn)實(shí)現(xiàn)了指標(biāo)體系的構(gòu)建和標(biāo)注系統(tǒng)的搭建;選取特征和構(gòu)造詞典;訓(xùn)練條件隨機(jī)場;錯誤分析及模型改進(jìn)工作。對于預(yù)處理和后處理,課題通過識別文章段落結(jié)構(gòu)將文章內(nèi)容切分并組合成6部分,以屏蔽不同類別指標(biāo)間的相互影響,實(shí)

3、現(xiàn)系統(tǒng)的并行化處理,減少響應(yīng)時間;使用結(jié)構(gòu)信息識別將文本中使用的分工程的簡稱或別稱與分工程的完整規(guī)范名稱進(jìn)行匹配,并準(zhǔn)確識別每個分工程的作用域;設(shè)計了準(zhǔn)確識別每個方案的作用域并識別文檔作者推薦的方案;并成功識別每個指標(biāo)值的全部屬性。由于課題的系統(tǒng)與南網(wǎng)輸變電工程設(shè)計評審平臺使用了不同的技術(shù)架構(gòu),我們采用基于數(shù)據(jù)庫標(biāo)志位的通信機(jī)制實(shí)現(xiàn)系統(tǒng)的整合集成。
  基于對比實(shí)驗(yàn)結(jié)果和系統(tǒng)的評測結(jié)果,本文的電網(wǎng)工程技術(shù)指標(biāo)提取方法較使用純規(guī)則的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論