2023年全國(guó)碩士研究生考試考研英語(yǔ)一試題真題(含答案詳解+作文范文)_第1頁(yè)
已閱讀1頁(yè),還剩5頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、到稿日期:20100710返修日期:20100810陶金火(1985-)男研究生,職稱主要研究方向?yàn)檎Z(yǔ)義知識(shí)發(fā)現(xiàn)等,Email:taojinhuo@;陳華鈞男副教授主要研究方向?yàn)榫W(wǎng)格計(jì)算語(yǔ)義web等;胡雪琴(1978-)女助理研究員主要研究方向?yàn)橹嗅t(yī)藥信息學(xué)等中醫(yī)藥文獻(xiàn)語(yǔ)義關(guān)系圖發(fā)現(xiàn)陶金火1陳華鈞2胡雪琴3(浙江大學(xué)計(jì)算機(jī)學(xué)院浙江310027)1(浙江大學(xué)計(jì)算機(jī)學(xué)院浙江310027)2(中國(guó)中醫(yī)藥科學(xué)院北京100700)3摘要本文提出一

2、種基于中醫(yī)藥語(yǔ)義本體知識(shí)庫(kù)對(duì)中醫(yī)藥文獻(xiàn)的進(jìn)行語(yǔ)義關(guān)系圖發(fā)現(xiàn)的方法。核心方法分為三個(gè)部分:第一步采用中醫(yī)藥語(yǔ)義本體概念名稱為字典進(jìn)行關(guān)鍵詞提?。坏诙讲捎藐P(guān)聯(lián)算法的一種變異算法查找高頻關(guān)鍵詞組;第三步利用中醫(yī)藥語(yǔ)義本體知識(shí)庫(kù)對(duì)關(guān)鍵詞組進(jìn)行語(yǔ)義關(guān)系識(shí)別,對(duì)未能識(shí)別的關(guān)鍵詞進(jìn)行語(yǔ)義關(guān)系預(yù)測(cè)。最后每組關(guān)鍵詞生成一個(gè)對(duì)應(yīng)的語(yǔ)義關(guān)系圖。本文實(shí)驗(yàn)部分將利用中醫(yī)藥語(yǔ)義本體知識(shí)庫(kù)對(duì)中醫(yī)藥文獻(xiàn)進(jìn)行語(yǔ)義關(guān)系圖的發(fā)現(xiàn),驗(yàn)證本文提出的算法。關(guān)鍵詞關(guān)鍵詞中醫(yī)藥語(yǔ)義

3、本體,語(yǔ)義關(guān)系圖中圖法分類號(hào)中圖法分類號(hào)TP39文獻(xiàn)標(biāo)識(shí)碼文獻(xiàn)標(biāo)識(shí)碼ASemanticGraphDiscoveryofTCMDocumentsTAOJinhuo1CHENHuajun2HUXueqin3(DepartmentofComputerScienceZhejiangUniversityZhejiang310027China)1(DepartmentofComputerScienceZhejiangUniversity,Zheji

4、ang310027China)2(InstituteofInfmationonTraditionalChineseMedicineChinaAcademyofChineseMedicalSciencesBeijing100700China)3AbstractAbstractThispaperproposesanontologybasedTCMsemanticgraphdiscoveryofTCMDocument.Thecemethodi

5、ncludesthreeprocedures:FirstlyextractkeywdsfromtheTCMdocumentsusingtheTCMontologyconceptnameasdictionary.Secondlycalculatethefrequencyofthekeywds.ThirdlyidentifythesemanticrelationbetweenthekeywdswiththeTCMontologyknowle

6、dgebase.Furthermepredictthesemanticrelationthatcan’tbeidentified.Therefeeverygroupofkeywdscouldgenerateasemanticgraphthatexpressthepossiblesemanticoftheiginalsentence.IntheexperimentsectiontheTCMontologyknowledgebasewasu

7、sedtoidentifythesemanticgraphfromTCMDocumentsverifythefeasibilityofthemethodofthispaper.KeywdsKeywdsTCMOntology,SemanticGraph1引言歷史悠久的中醫(yī)藥領(lǐng)域擁有大量的包含寶貴知識(shí)的文獻(xiàn),對(duì)中醫(yī)藥文獻(xiàn)的自動(dòng)化的分析處理一直是學(xué)界的研究熱點(diǎn)。不過(guò)受限于中醫(yī)藥文獻(xiàn)一些特點(diǎn),比如中醫(yī)藥學(xué)的概念表達(dá)、術(shù)語(yǔ)使用甚至語(yǔ)句內(nèi)容都具有特

8、殊領(lǐng)域性,計(jì)算機(jī)對(duì)這些文獻(xiàn)的分析處理一直不太理想。語(yǔ)義web技術(shù)作為下一代互聯(lián)網(wǎng)技術(shù),將人類的所有知識(shí)進(jìn)行無(wú)縫鏈接將人類的所有知識(shí)進(jìn)行無(wú)縫鏈接集成,為中醫(yī)藥文獻(xiàn)的分析處理提供了新的解決方案集成,為中醫(yī)藥文獻(xiàn)的分析處理提供了新的解決方案。語(yǔ)義web中的語(yǔ)義圖是一種能夠清楚表達(dá)本體之間的復(fù)雜關(guān)系的模型語(yǔ)義圖的節(jié)點(diǎn)是本體節(jié)點(diǎn)之間的邊采用節(jié)點(diǎn)之間的邊采用RDFRDF的三元組來(lái)表述三元組來(lái)表述。語(yǔ)義圖為中醫(yī)藥知識(shí)提供了一種良好的表述模型,能夠清晰

9、的表達(dá)中醫(yī)藥概念之間的各種關(guān)系。因此,本文提出一種利用中醫(yī)藥語(yǔ)義本體知識(shí)庫(kù),從大量中醫(yī)藥文獻(xiàn)中,進(jìn)行語(yǔ)義關(guān)系圖發(fā)現(xiàn)的方法。在實(shí)驗(yàn)部分本文用中醫(yī)藥本體知識(shí)庫(kù)對(duì)中醫(yī)藥文獻(xiàn)進(jìn)行語(yǔ)義關(guān)系圖發(fā)現(xiàn),以驗(yàn)證算法。2相關(guān)工作相關(guān)工作1998年,TBernersLee與JHendler等首次提出了語(yǔ)義Web的概念[1][2]。語(yǔ)義web的主要目標(biāo)是在web中增加機(jī)器可以理解的語(yǔ)義,提升機(jī)器對(duì)web內(nèi)容的理解,從而更好的支持搜索內(nèi)容,知識(shí)發(fā)現(xiàn),內(nèi)容推薦等服

10、務(wù)。語(yǔ)義語(yǔ)義webweb通過(guò)語(yǔ)義關(guān)系圖,來(lái)表示現(xiàn)實(shí)世界的所有事通過(guò)語(yǔ)義關(guān)系圖,來(lái)表示現(xiàn)實(shí)世界的所有事物之間的語(yǔ)義關(guān)系,從而構(gòu)成一個(gè)巨大的知識(shí)和資源網(wǎng)物之間的語(yǔ)義關(guān)系,從而構(gòu)成一個(gè)巨大的知識(shí)和資源網(wǎng)絡(luò),對(duì)應(yīng)用領(lǐng)域提供相關(guān)的服務(wù)絡(luò),對(duì)應(yīng)用領(lǐng)域提供相關(guān)的服務(wù)。語(yǔ)義web的核心概念是語(yǔ)義本體(semanticontology),本體可以涵蓋任何概念模型。將語(yǔ)義web技術(shù)應(yīng)用到中醫(yī)藥知識(shí)建模是一項(xiàng)非常有意義的工作。作為語(yǔ)義web的基礎(chǔ),語(yǔ)義圖(s

11、emanticgraph)以語(yǔ)義本體為節(jié)點(diǎn),以RDF三元組的形式描述節(jié)點(diǎn)之間語(yǔ)義關(guān)系,也即圖的邊。語(yǔ)義圖可以表達(dá)任意復(fù)雜的語(yǔ)義結(jié)構(gòu),各個(gè)元素及各元素之間的語(yǔ)義關(guān)系。語(yǔ)義圖是一種先進(jìn)的知識(shí)表達(dá)模型,具有直觀性,全面具有直觀性,全面性,性,可推理性等特點(diǎn)推理性等特點(diǎn)。另外,語(yǔ)義圖通常用RDF或者OWL來(lái)表述,計(jì)算機(jī)能夠很好的識(shí)別,便于自動(dòng)化分析處理。將語(yǔ)義圖。將語(yǔ)義圖應(yīng)用于中醫(yī)藥領(lǐng)域,進(jìn)行知識(shí)的表達(dá)和建模是一項(xiàng)很有前景的工作,可以讓中醫(yī)藥知

12、識(shí)達(dá)到規(guī)范化,有利于人們對(duì)中醫(yī)藥知識(shí)的獲取,存儲(chǔ)和分享,同時(shí)增強(qiáng)自動(dòng)化處理的能力。本文將重心放在從中醫(yī)藥文獻(xiàn)中進(jìn)行語(yǔ)義關(guān)系圖的發(fā)現(xiàn),因?yàn)檎Z(yǔ)義關(guān)系圖能夠很好的描述句子所表達(dá)的主要內(nèi)容。比如:主語(yǔ)謂語(yǔ)賓語(yǔ),主語(yǔ)和賓語(yǔ)用語(yǔ)義圖的節(jié)點(diǎn)來(lái)表示,而謂語(yǔ)則用頂點(diǎn)之間的有向邊來(lái)表示。文獻(xiàn)由句子組成,整篇文章的內(nèi)容可以用語(yǔ)義圖來(lái)表達(dá)(不一定可以連通,可能形成的是多個(gè)子圖)。如果將各個(gè)節(jié)點(diǎn)歸并到其所屬的直接父節(jié)點(diǎn)或者更上層的節(jié)點(diǎn),那么我們可以得到精簡(jiǎn)的概括

13、性的圖,這個(gè)圖概括性的描述了文獻(xiàn)的內(nèi)容,可以用于對(duì)文獻(xiàn)的分類;另外對(duì)語(yǔ)義圖進(jìn)行節(jié)點(diǎn)頻度分析,知識(shí)推理等,可以得到文獻(xiàn)的主題詞??傊瑢⑽墨I(xiàn)轉(zhuǎn)化為語(yǔ)義關(guān)系圖,對(duì)文獻(xiàn)的分析處關(guān)鍵詞提取的具體步驟入圖2所示:文獻(xiàn)關(guān)鍵詞識(shí)別分句中醫(yī)藥本體關(guān)鍵詞向量圖2分詞算法的流程圖第一步將數(shù)據(jù)源文獻(xiàn)以句子為單位進(jìn)行分解。第二步以中醫(yī)藥本體概念為字典,對(duì)每個(gè)句子進(jìn)行中醫(yī)藥關(guān)鍵詞的提取。關(guān)鍵詞提取的結(jié)果以向量進(jìn)行存儲(chǔ)。公式2表示數(shù)據(jù)源進(jìn)行關(guān)鍵詞提取后的結(jié)果,集合

14、K是關(guān)鍵詞向量V的集合。K=V1,V2,…,Vn(2)集合K中包含了所有從數(shù)據(jù)源中提取出來(lái)的關(guān)鍵詞,后續(xù)算法將在其中尋找潛在有價(jià)值的語(yǔ)義關(guān)系圖。此處所說(shuō)的有價(jià)值的語(yǔ)義關(guān)系圖的價(jià)值是指文獻(xiàn)中描述的語(yǔ)義關(guān)系,反應(yīng)了文獻(xiàn)語(yǔ)義的語(yǔ)義圖才發(fā)揮了文獻(xiàn)的價(jià)值。3.2高頻詞的計(jì)算高頻詞的計(jì)算關(guān)鍵詞提取完成后,將進(jìn)行高頻關(guān)鍵詞組的發(fā)現(xiàn)。多次一起出現(xiàn)的詞組,其內(nèi)部存在一定的有價(jià)值的語(yǔ)義關(guān)系的可能性較大,這是顯而易見(jiàn)的。這也是關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘算法的思想之一,

15、本文高頻詞計(jì)算方法也借鑒了關(guān)聯(lián)規(guī)則算法。出現(xiàn)次數(shù)越多的關(guān)鍵詞組,其越有可能存在有價(jià)值的語(yǔ)義關(guān)系(有價(jià)值是指文獻(xiàn)中論述的語(yǔ)義關(guān)系)。據(jù)此對(duì)各種數(shù)量的關(guān)鍵詞組進(jìn)行出現(xiàn)次數(shù)的統(tǒng)計(jì)。關(guān)鍵詞組的出現(xiàn)次數(shù)的閾值設(shè)為E,當(dāng)出現(xiàn)次數(shù)達(dá)到E次,那么該關(guān)鍵詞組即為高頻關(guān)鍵詞組。這個(gè)E也就是關(guān)聯(lián)規(guī)則查找算法中的支持度。這里不存在一些詞語(yǔ)比如副詞,連詞,介詞等多次出現(xiàn)的干擾問(wèn)題,因?yàn)榉衷~程序分詞后得到關(guān)鍵詞都是中醫(yī)藥范疇的詞語(yǔ)。高頻關(guān)鍵詞組內(nèi)的關(guān)鍵詞需要保持在

16、關(guān)鍵詞向量中的順序,不過(guò)可以在關(guān)鍵詞向量中隔開m個(gè)詞出現(xiàn)。關(guān)鍵詞之間的位置關(guān)系隱含著詞語(yǔ)之間是否存在有價(jià)值語(yǔ)義關(guān)系的依據(jù),如果兩個(gè)詞的位置相近,那么兩者間存在有價(jià)值的語(yǔ)義關(guān)系的可能性就較大;反之,如果兩個(gè)詞的位置相距較遠(yuǎn),那么其兩者之間存在有價(jià)值的語(yǔ)義關(guān)系的可能性就較小。關(guān)鍵詞不要求連續(xù)出現(xiàn),可以相隔k個(gè)詞出現(xiàn)。因?yàn)橄嗤Z(yǔ)義的關(guān)鍵詞組,可能會(huì)以不同的形式呈現(xiàn),比如:“大黃,瀉火,涼血”和“大黃,瀉火,大黃,涼血”雖然是同一種語(yǔ)義,形成相

17、同的語(yǔ)義圖,但是其關(guān)鍵詞的數(shù)量是不同的,如果在計(jì)算關(guān)鍵詞出現(xiàn)的閾值的時(shí)候,關(guān)鍵詞可以隔開1個(gè)詞的話,那么“大黃,瀉火,涼血”就可以算出現(xiàn)了兩次。在一定間隔范圍內(nèi),關(guān)鍵詞對(duì)前后位置關(guān)系不敏感,也就是說(shuō),和有等價(jià)的語(yǔ)義作用。比如“大黃治療咽腫”和“咽腫被大黃治療”在現(xiàn)實(shí)世界中的意義是相同的,而且在預(yù)測(cè)算法將會(huì)對(duì)兩種位置關(guān)系的關(guān)鍵詞都進(jìn)行語(yǔ)義關(guān)系識(shí)別。在一個(gè)完備的知識(shí)庫(kù)中,對(duì)這兩種關(guān)系都會(huì)進(jìn)行描述,這樣的話,無(wú)論還是都可以在知識(shí)庫(kù)中獲得識(shí)別。

18、如果知識(shí)庫(kù)中對(duì)這樣的語(yǔ)義關(guān)系只描述一種,那么在語(yǔ)義識(shí)別算法中,對(duì)關(guān)鍵詞進(jìn)行正向和反向的識(shí)別,即在識(shí)別的同時(shí),也對(duì)進(jìn)行識(shí)別。如果兩個(gè)關(guān)鍵詞的間隔比較遠(yuǎn),本文認(rèn)為其兩者之間不存在有價(jià)值的語(yǔ)義關(guān)系,因此要在一定范圍內(nèi)討論關(guān)鍵詞前后位置關(guān)系。下面將對(duì)高頻關(guān)鍵詞計(jì)算進(jìn)行詳細(xì)的描述。對(duì)于關(guān)鍵詞向量集K的Vi,設(shè)有n個(gè)關(guān)鍵詞,分別計(jì)算Vi的各種數(shù)量的關(guān)鍵詞組在K中的出現(xiàn)次數(shù),如果達(dá)到閾值E,則對(duì)應(yīng)的關(guān)鍵詞組屬于高頻關(guān)鍵詞組。對(duì)兩個(gè)以上的關(guān)鍵詞進(jìn)行出現(xiàn)

19、次數(shù)的計(jì)算,從最大的關(guān)鍵詞數(shù)量開始計(jì)算,比如Vi有n個(gè)關(guān)鍵詞,那么從n個(gè)關(guān)鍵詞開始計(jì)算,如果n個(gè)關(guān)鍵詞屬于高頻關(guān)鍵詞,那么小于n數(shù)量的關(guān)鍵詞就不必再進(jìn)行統(tǒng)計(jì),因?yàn)樗麄兌紝儆诟哳l詞。高頻關(guān)鍵詞組中的詞,不必前后相鄰,可以相隔m個(gè)關(guān)鍵詞出現(xiàn)。定義高頻關(guān)鍵詞集合FK,對(duì)關(guān)鍵詞向量集合K中的每個(gè)向量Vi進(jìn)行如下步驟的計(jì)算:Step1:定義變量n,n為向量Vi中的關(guān)鍵詞個(gè)數(shù)。Step2:在向量Vi中,對(duì)每組數(shù)量n的關(guān)鍵詞組,不要求連續(xù)可以相隔k個(gè)

20、詞,首先判斷集合FK中是否存在該關(guān)鍵詞組。如果存在,或者包含該關(guān)鍵詞組的關(guān)鍵詞組存在,則不必再進(jìn)行計(jì)算。如果不存在,則進(jìn)行計(jì)算,在其他關(guān)鍵詞向量中尋找該關(guān)鍵詞組,如果該關(guān)鍵詞組出現(xiàn)數(shù)量達(dá)到閾值E,則將該關(guān)鍵詞組加入集合FK中。Step3:將n減1。如果n不小于2則轉(zhuǎn)到step2;否則算法完成,集合FK中的便是發(fā)現(xiàn)的高頻關(guān)鍵詞組。3.3語(yǔ)義關(guān)系圖識(shí)別和預(yù)測(cè)語(yǔ)義關(guān)系圖識(shí)別和預(yù)測(cè)接下來(lái)是算法最核心的一個(gè)步驟,對(duì)高頻關(guān)鍵詞組進(jìn)行的語(yǔ)義關(guān)系圖的識(shí)

21、別,包括識(shí)別和預(yù)測(cè)語(yǔ)義關(guān)系兩個(gè)步驟,最終將語(yǔ)義關(guān)系連成一個(gè)語(yǔ)義關(guān)系圖。3.3.1語(yǔ)義本體知識(shí)庫(kù)語(yǔ)義本體知識(shí)庫(kù)中,本體包含了名稱,定義等屬性,描述了本體的基本信息。而三元組的描述了本體a和本體b之間的語(yǔ)義關(guān)系。在此基礎(chǔ)上整個(gè)知識(shí)庫(kù)中的知識(shí)相互關(guān)聯(lián),整個(gè)知識(shí)庫(kù)的知識(shí)形成一個(gè)語(yǔ)義網(wǎng)絡(luò)。對(duì)于關(guān)鍵詞之間的語(yǔ)義關(guān)系,如果已經(jīng)在知識(shí)庫(kù)中存在描述,通過(guò)在知識(shí)庫(kù)中查找可以確定該關(guān)系;如果在知識(shí)庫(kù)中還沒(méi)有描述,那么可以通過(guò)知識(shí)庫(kù)中已有的相關(guān)的語(yǔ)義關(guān)系,對(duì)該

22、語(yǔ)義關(guān)系類型進(jìn)行預(yù)測(cè)。3.3.2語(yǔ)義關(guān)系識(shí)別如果兩個(gè)關(guān)鍵詞之間關(guān)系在知識(shí)庫(kù)中已經(jīng)存在描述,那么其語(yǔ)義關(guān)系可以通過(guò)查找直接確定。比如在知識(shí)庫(kù)中存在的語(yǔ)義關(guān)系,則對(duì)于關(guān)鍵詞“大黃”和“清熱”,可以直接確定大黃與清熱之間是功效的語(yǔ)義關(guān)系,即大黃有清熱的功效,因此大黃和清熱之間的語(yǔ)義關(guān)系就此識(shí)別。在中醫(yī)藥本體知識(shí)庫(kù)中,有一種語(yǔ)義關(guān)系是“正名關(guān)系”,即概念的正規(guī)名稱,相對(duì)于正名的是異名,正名和異名是相同事物的不同名稱。比如:大黃是正名,其異名包括

23、黃良,火參錦紋等。在中醫(yī)藥中,存在著很多的正名異名現(xiàn)象[10],正名在語(yǔ)義本體知識(shí)庫(kù)中有更全面的語(yǔ)義關(guān)系的描述。將屬于異名的中醫(yī)藥概念詞轉(zhuǎn)換為正名,然后再進(jìn)行語(yǔ)義關(guān)系的識(shí)別,將提高語(yǔ)義關(guān)系識(shí)別的成功率。在中醫(yī)藥本體知識(shí)庫(kù)中,還存在一種“上位詞”的語(yǔ)義關(guān)系,即概念之間的上下級(jí)的關(guān)系,或者說(shuō)是父子關(guān)系。在此知識(shí)庫(kù)中,父概念之間所擁有的關(guān)系,子概念是可以繼承的。比如大黃屬于陰性要去,對(duì)癥候上火具有治療的語(yǔ)義關(guān)系。概念的上位詞的上位詞之間可能也

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論