

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、隨著科學(xué)技術(shù)的快速發(fā)展,互聯(lián)網(wǎng)的廣泛普及,信息量極大豐富,知識(shí)的增長(zhǎng)與更新速度日益加快,如何快速獲取感興趣的信息成為人們關(guān)注的話題。信息抽取的任務(wù)是直接從非結(jié)構(gòu)化/半結(jié)構(gòu)化的自然語(yǔ)言文本中抽取關(guān)鍵信息,以一種結(jié)構(gòu)化的形式呈現(xiàn),方便人們快速獲取關(guān)鍵信息。作為從文檔中直接獲取重要信息的手段,信息抽取已經(jīng)逐漸成為多種自然語(yǔ)言處理任務(wù)的支撐技術(shù)。其中,領(lǐng)域資源獲取、術(shù)語(yǔ)抽取、共指消解以及關(guān)系抽取等關(guān)鍵技術(shù)是信息抽取的主要任務(wù)和研究熱點(diǎn)。
2、 傳統(tǒng)的信息抽取方法依賴于大量人工選擇和標(biāo)注的領(lǐng)域語(yǔ)料,根據(jù)不同的術(shù)語(yǔ)種類和預(yù)先定義的關(guān)系類型確定抽取對(duì)象,針對(duì)不同的抽取對(duì)象標(biāo)注訓(xùn)練語(yǔ)料,選擇不同的機(jī)器學(xué)習(xí)算法進(jìn)行訓(xùn)練以實(shí)現(xiàn)特定領(lǐng)域術(shù)語(yǔ)和特定類型關(guān)系的抽取,從而完成對(duì)目標(biāo)領(lǐng)域關(guān)鍵信息的抽取。然而該過(guò)程不可避免的需要大量的人工參與,難以滿足異質(zhì)的海量信息處理和快速的信息更新的需求。本文旨在探索領(lǐng)域自適應(yīng)的弱指導(dǎo)信息抽取的途徑,提高信息抽取的自動(dòng)化程度和領(lǐng)域適應(yīng)性。對(duì)領(lǐng)域資源獲取、術(shù)語(yǔ)
3、抽取、共指消解、關(guān)系抽取等關(guān)鍵技術(shù)進(jìn)行研究:
1.基于內(nèi)容與鏈接分析的領(lǐng)域資源獲取。領(lǐng)域資源獲取是信息抽取的首要步驟,互聯(lián)網(wǎng)上具有足夠豐富的信息,如何獲取領(lǐng)域相關(guān)性強(qiáng)、可信度高的資源作為領(lǐng)域語(yǔ)料是具有自適應(yīng)性的信息抽取技術(shù)的首要任務(wù)。本文通過(guò)分析鏈接結(jié)構(gòu)和文本內(nèi)容,提出基于內(nèi)容的方法過(guò)濾垃圾信息,采用鏈接分析的方法發(fā)現(xiàn)重要的信息源,從而實(shí)現(xiàn)高質(zhì)量領(lǐng)域資源的獲取。
2.基于指示詞的術(shù)語(yǔ)抽取。術(shù)語(yǔ)是對(duì)領(lǐng)域知識(shí)進(jìn)行描述的最
4、基本單元,傳統(tǒng)的術(shù)語(yǔ)抽取方法通過(guò)歸納術(shù)語(yǔ)本身的不同特點(diǎn)并根據(jù)其在不同領(lǐng)域語(yǔ)料中出現(xiàn)頻度的差異進(jìn)行術(shù)語(yǔ)抽取,本研究著眼于術(shù)語(yǔ)前后具有領(lǐng)域獨(dú)立性且易于識(shí)別的指示性詞語(yǔ),通過(guò)識(shí)別穩(wěn)定的指示詞進(jìn)行不同領(lǐng)域的術(shù)語(yǔ)候選抽取,并采用鏈接分析的方法計(jì)算術(shù)語(yǔ)與句子間的相關(guān)程度進(jìn)行術(shù)語(yǔ)驗(yàn)證。與現(xiàn)有方法依賴于領(lǐng)域知識(shí)不同,本研究著眼于無(wú)需領(lǐng)域知識(shí)的弱指導(dǎo)術(shù)語(yǔ)抽取方法,為實(shí)現(xiàn)領(lǐng)域自適應(yīng)的信息抽取方法奠定基礎(chǔ)。
3.基于內(nèi)外部相似度計(jì)算的共指消解。來(lái)自
5、不同信息源的信息在描述同一事物時(shí)可能采用不同表達(dá)方法,共指消解是將不同的表達(dá)方式映射到特定實(shí)體的過(guò)程,高性能的共指消解是正確抽取關(guān)鍵信息的基礎(chǔ)。本文利用內(nèi)部詞形和讀音信息以及外部上下文信息,通過(guò)相似度計(jì)算進(jìn)行無(wú)指導(dǎo)的跨文檔共指消解,從而實(shí)現(xiàn)實(shí)體抽取。該方法不需要任何訓(xùn)練過(guò)程和任何先驗(yàn)領(lǐng)域知識(shí),能夠方便的應(yīng)用于不同領(lǐng)域。本研究中,共指消解的目的是實(shí)現(xiàn)領(lǐng)域術(shù)語(yǔ)到實(shí)體的映射,因此術(shù)語(yǔ)中的名詞和名詞短語(yǔ)作為輸入。對(duì)給定的術(shù)語(yǔ)集合,通過(guò)計(jì)算每對(duì)術(shù)
6、語(yǔ)間的讀音相似度和上下文相似度,綜合考慮每對(duì)術(shù)語(yǔ)兩方面的相似程度信息確定它們是否指示同一實(shí)體。
4.自底向上的關(guān)系類型及實(shí)例抽取。術(shù)語(yǔ)抽取獲取了最基本的領(lǐng)域信息,共指消解找到了術(shù)語(yǔ)和概念、實(shí)例間的映射關(guān)系,通過(guò)關(guān)系抽取獲取概念以及實(shí)例間的關(guān)系則完成了對(duì)關(guān)鍵信息的挖掘和表述。關(guān)系抽取的任務(wù)在于識(shí)別實(shí)體間不同的語(yǔ)義關(guān)系從而準(zhǔn)確地描述關(guān)鍵信息,因此關(guān)系抽取是本研究的重要組成部分。傳統(tǒng)的關(guān)系抽取方法需要人為設(shè)計(jì)抽取模板和關(guān)系類型等,然
7、后在此基礎(chǔ)上抽取特定類型關(guān)系,使得信息抽取的自動(dòng)化程度受到制約。關(guān)系類型的自動(dòng)獲取將大大提高信息抽取的自動(dòng)化程度和應(yīng)用范圍,是本文的重要研究?jī)?nèi)容。本文將在不依賴于預(yù)先定義關(guān)系類型的情況下,采用自底向上的規(guī)約和聚類的方法自動(dòng)獲取關(guān)系類型并抽取關(guān)系實(shí)例。
5.信息抽取技術(shù)與相關(guān)應(yīng)用的結(jié)合。信息抽取可廣泛地應(yīng)用于各種信息智能處理任務(wù)中,本課題選取本體自動(dòng)構(gòu)建作為應(yīng)用任務(wù),本體構(gòu)建的目的是更好地組織和表示知識(shí),為信息檢索、知識(shí)工程等智
8、能處理任務(wù)提供指導(dǎo)?,F(xiàn)有研究中大多采用人工構(gòu)建的普通領(lǐng)域的本體作為相關(guān)任務(wù)的先驗(yàn)知識(shí)。本研究將信息抽取與本體自動(dòng)構(gòu)建任務(wù)緊密結(jié)合,通過(guò)弱指導(dǎo)或無(wú)指導(dǎo)的信息抽取方法自適應(yīng)的構(gòu)建領(lǐng)域本體,作為領(lǐng)域知識(shí)服務(wù)于其它自然語(yǔ)言處理任務(wù)中,既是對(duì)信息抽取方法應(yīng)用于具體任務(wù)的探索,同時(shí)也是間接評(píng)價(jià)信息抽取方法的有效途徑。
綜上所述,本文主要貢獻(xiàn)在于探索在領(lǐng)域資源有限的情況下采用弱指導(dǎo)的方法有效進(jìn)行信息抽取的途徑,提高信息抽取的性能并降低對(duì)領(lǐng)域
9、資源的依賴程度,使得方法具有良好的領(lǐng)域自適應(yīng)性。采用弱指導(dǎo)或無(wú)指導(dǎo)的方法從Web上獲取領(lǐng)域語(yǔ)料,從待處理語(yǔ)料中直接挖掘特征信息,避免對(duì)大規(guī)模標(biāo)注語(yǔ)料的依賴,解決人工標(biāo)注的領(lǐng)域資源匱乏的問(wèn)題。通過(guò)消解和規(guī)約的方法自動(dòng)獲取實(shí)體和關(guān)系類型,使得該方法能廣泛的應(yīng)用于不同領(lǐng)域且具有良好的領(lǐng)域自適應(yīng)性。將信息抽取與本體自動(dòng)構(gòu)建應(yīng)用任務(wù)有機(jī)結(jié)合,通過(guò)相關(guān)任務(wù)進(jìn)一步檢驗(yàn)信息抽取的性能。通過(guò)以上方法和途徑,實(shí)現(xiàn)領(lǐng)域自適應(yīng)的信息抽取,解決傳統(tǒng)技術(shù)所面臨的自
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向生物醫(yī)學(xué)領(lǐng)域的信息抽取關(guān)鍵技術(shù)研究.pdf
- 網(wǎng)絡(luò)信息抽取系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)數(shù)字波束形成關(guān)鍵技術(shù)研究.pdf
- OFDM無(wú)線自適應(yīng)傳輸關(guān)鍵技術(shù)研究.pdf
- 文本情感信息抽取關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)光學(xué)仿真系統(tǒng)關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)干擾抵消系統(tǒng)的關(guān)鍵技術(shù)研究.pdf
- Web對(duì)象的信息抽取的關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)跳頻系統(tǒng)的關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)跳頻中的關(guān)鍵技術(shù)研究.pdf
- 穩(wěn)健自適應(yīng)波束合成的關(guān)鍵技術(shù)研究.pdf
- 無(wú)線自組網(wǎng)自適應(yīng)架構(gòu)的關(guān)鍵技術(shù)研究.pdf
- 可變彎度自適應(yīng)機(jī)翼部分關(guān)鍵技術(shù)研究.pdf
- 領(lǐng)域信息抽取相關(guān)技術(shù)研究.pdf
- 信息抽取中關(guān)鍵技術(shù)的研究.pdf
- 統(tǒng)計(jì)方法信息抽取中的若干關(guān)鍵技術(shù)研究.pdf
- 領(lǐng)域自適應(yīng)的中文實(shí)體關(guān)系抽取研究.pdf
- UUV陣列自適應(yīng)噪聲抵消關(guān)鍵技術(shù)研究.pdf
- MANET中自適應(yīng)服務(wù)發(fā)現(xiàn)關(guān)鍵技術(shù)研究.pdf
- 自適應(yīng)低速率語(yǔ)音編碼關(guān)鍵技術(shù)研究.pdf
評(píng)論
0/150
提交評(píng)論