版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、目的:
隨著生物醫(yī)學(xué)研究的飛速發(fā)展,生物醫(yī)學(xué)文獻正在以指數(shù)增長,關(guān)系抽取可以幫助生物醫(yī)學(xué)研究者解決信息過載的問題。目前許多學(xué)者利用動詞提取生物醫(yī)學(xué)實體間的關(guān)系。本研究嘗試尋找一種自動地客觀提取語義關(guān)系動詞的方法。
本文以阿司匹林副作用為研究主題,搜集數(shù)據(jù)庫中與主題詞關(guān)聯(lián)規(guī)則相對應(yīng)的文獻記錄,采用基于共現(xiàn)和自然語言處理的方法客觀地提取文獻中表達生物醫(yī)學(xué)實體間語義關(guān)系的動詞。最后嘗試將這些動詞應(yīng)用到信息抽取等相關(guān)
2、的研究領(lǐng)域,并對動詞應(yīng)用的效果進行評價及統(tǒng)計學(xué)檢驗,以檢驗提取動詞的有效性、可靠性和實用性。
材料與方法:
根據(jù)已經(jīng)驗證的藥物副作用引起疾病的主題詞關(guān)聯(lián)規(guī)則,制定檢索策略Aspirin/adverseeffects[majr]ANDGastrointestinalHemorrhage/chemicallyinduced[majr],在PubMed數(shù)據(jù)庫中檢索并下載阿司匹林引起胃腸道出血的相關(guān)文獻。利用Meta
3、Map對在PubMed數(shù)據(jù)庫檢索到的文獻進行自然語言處理,將文獻題目和摘要中的自然語言文本映射到UMLS超級敘詞表中的醫(yī)學(xué)概念。利用自編的文本挖掘軟件處理MetaMap返回的結(jié)果,找出Aspirin和疾病共現(xiàn)的句子。利用StanfordParser軟件對抽取出來的句子進行句法分析,生成句法分析樹。利用Tregex軟件人工從StanfordParser生成的句法分析樹中提取動詞。最終獲得了表示藥物副作用引起疾病的語義關(guān)系動詞。選取地高辛作
4、為主題嘗試?yán)锰崛〕龅膭釉~進行信息抽取,并將其與利用主題詞關(guān)聯(lián)規(guī)則進行信息抽取的方法進行比較。最后對動詞應(yīng)用的效果進行評價及統(tǒng)計學(xué)檢驗,檢驗提取動詞的有效性、可靠性和實用性。
結(jié)果:
截止到2011年4月22日在PubMed數(shù)據(jù)庫中共檢索出318篇阿司匹林引起胃腸道出血的文獻。利用MetaMap對文獻進行自然語言處理后,采用自編的文本挖掘軟件共抽取出440個阿司匹林和疾病相關(guān)語義類型概念共現(xiàn)的句子和286阿司
5、匹林和胃腸道出血相關(guān)疾病概念共現(xiàn)的句子。對共現(xiàn)句子進行句法分析并抽取出其中的動詞,綜合兩種方法的特點,最后共提取出30個表示藥物副作用與疾病關(guān)系的動詞。
利用這30個動詞進行信息抽取,共抽取出293個Digoxin、疾病相關(guān)語義類型和動詞三者共現(xiàn)的句子,119個相關(guān)的疾病概念?;谥黝}詞關(guān)聯(lián)規(guī)則的方法共提取出120個與Digoxin/adverseeffects共現(xiàn)的副主題詞為chemicallyinduced的疾病類主題
6、詞。根據(jù)藥品說明書及《藥典》中記載的有關(guān)地高辛副作用的信息,對兩種方法提取的疾病進行評價。利用動詞共現(xiàn)和利用主題詞共現(xiàn)所抽取出的正確疾病數(shù)分別是94個、87個,兩個方法所得到的正確疾病名稱總和為143個,兩種方法的相對查全率分別是94/143(65.73%)、87/143(60.84%);準(zhǔn)確率分別是94/119(78.99%)、87/120(72.50%)。統(tǒng)計學(xué)檢驗結(jié)果表明兩種方法沒有顯著性差異。
結(jié)論:
7、 通過對阿司匹林引起胃腸道出血的相關(guān)文獻進行挖掘分析,我們得出:
(一)本研究基于主題詞關(guān)聯(lián)規(guī)則提取語義關(guān)系動詞的方法是可行的。
利用已經(jīng)經(jīng)過驗證的主題詞關(guān)聯(lián)規(guī)則(藥物/副作用AND疾病/化學(xué)誘導(dǎo))搜集文獻,然后采用基于共現(xiàn)和自然語言處理的方法,可以客觀地提取文獻中表達藥物與疾病間語義關(guān)系的動詞。
此外,本文提取動詞的方法更具有針對性,提取出的動詞能更準(zhǔn)確地表達某些特定的生物醫(yī)學(xué)實體間的關(guān)系。<
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于MeSH主題詞關(guān)聯(lián)規(guī)則的醫(yī)學(xué)熱點挖掘研究——以哮喘為例.pdf
- 主題詞
- 主題詞
- 主題詞
- 主題詞
- 主題詞
- 命名實體間語義關(guān)系抽取研究.pdf
- 年會主題詞
- 基于特征向量的實體間語義關(guān)系抽取研究.pdf
- 基于弱指導(dǎo)學(xué)習(xí)的實體間語義關(guān)系抽取研究.pdf
- 基于特征向量的中文實體間語義關(guān)系抽取研究.pdf
- 中文文本主題詞抽取研究與應(yīng)用.pdf
- 尋找春天的主題詞
- 基于共現(xiàn)詞的改進LSA模型及主題詞抽取方法研究.pdf
- 中秋節(jié)主題詞
- 公文主題詞表
- 語義網(wǎng)環(huán)境下基于SKOS的醫(yī)學(xué)主題詞到本體的轉(zhuǎn)換研究.pdf
- 主題詞主題詞內(nèi)容 - 惠州“兩建”一體化應(yīng)用系統(tǒng)
- 基于句法和語義分析的中文實體關(guān)系抽取.pdf
- 11類翻譯主題詞匯
評論
0/150
提交評論