2013年--外文翻譯--問答通道圖中的答案抽取（譯文）

上傳人：奔*** IP屬地：河北更新時(shí)間：2024-03-01 格式：doc 頁數(shù)：6 大?。?6.00KB 人氣指數(shù)：12 舉報(bào) 版權(quán)申訴

已閱讀1頁，還剩5頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、　　中文7340字，5000單詞，25000英文字符　　出處：Sun H, Duan N, Duan Y, et al. Answer extraction from passage graph for question answering[C]//Proceedings of the Twenty-Third international joint conference on

2、 Artificial Intelligence. AAAI Press, 2013: 2169-2175.　　問答通道圖中的答案抽取　　摘要：在問答中，答案抽取旨在針指向通道的確切答案。然而，大多數(shù)以前的方法都是單獨(dú)的對(duì)每個(gè)通道進(jìn)行提取，而沒有考慮到其他通道所提供的線索。本文通過充分利用不同通道之間的聯(lián)系提出了一種新的方法來提取答案。特別地，提取是通過

3、建立在添加了大量的通道聯(lián)系的通道圖來執(zhí)行的。不同的通道是通過具有相同的連接詞進(jìn)行聯(lián)系的。我們通過使用因子圖作為我們的模型來提取答案。多個(gè)QA數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果集表明，我們的方法顯著提高答案抽取的性能。　　說明　　問答（QA）的任務(wù)旨在自動(dòng)解答自然語言描述中的問題。答案提取是QA系統(tǒng)中的一個(gè)重要組成部分，用來生成通道中的

4、精確答案。答案提取首先從通道中生成候選答案，再通過一些評(píng)分函數(shù)進(jìn)行排名，例如候選的頻度。以往的研究已經(jīng)檢查答案抽取不同的方法，如命名實(shí)體識(shí)別（NER）或模式匹配，然而，這些擁有相同財(cái)產(chǎn)的人是從單獨(dú)的通道中抽取出來的，不考慮由其他通道提供的任何信息。　　然而，其他通道所提供的線索是有用的。如果我們把答案抽取看作是通道中每個(gè)文字是否是問題答案的一項(xiàng)任務(wù)，當(dāng)我們運(yùn)用這種分類時(shí)，所有通道中的一致信息都是

5、有用的。讓我們從基本詞法觀點(diǎn)來考慮：所有的通道都是由同一檢索查詢時(shí)，有可能不同通道中相同的文字表示了相同的意思，作為結(jié)果他們可能都是答案或者他們可能都不是答案。另外，他們共享的上下文越相似，作為是否是答案候選的標(biāo)簽是否相同就越有可能。因此，有可能針指向更多的正確答案或糾正提取過程中的邊界問題。　　表1： 2002年TREC問題。檢索通道　　通過使用作為查

6、詢問題　　問：什么是阿拉斯加的州鳥？　　答：柳雷鳥　　通道1 ：官方阿拉斯加的州鳥是柳雷鳥　　通道2 ：本系列被攝制柳松雞　　拍下...公園在阿拉斯加

7、　　通道3 ：柳松雞是相當(dāng)大的鳥，非常小的雞。　　考慮表1中描述的例子，通道1中的證據(jù)很明顯的表示“柳雷鳥”作為一個(gè)正確的答案，因?yàn)榫渥咏Y(jié)構(gòu)與問題相似以及關(guān)鍵詞在通道中有提到使得答案很變的很明確。與此相反，通道2和通道3中的證據(jù)不是那么明顯，因?yàn)檫@兩個(gè)通道描述了關(guān)于“柳雷鳥”的其他方面。此外，“柳雷鳥“通道2中沒有提到，這使得它更難被提取。但是，如果我們利用通道1中“柳雷鳥“的標(biāo)簽，這兩個(gè)標(biāo)簽作

8、為候選答案的概率會(huì)提高。在通道3中，“柳”和“松雞”很容易被分離，但把通道1中的“柳雷鳥”作為候選答案邊界將會(huì)被修改。其結(jié)果是，找到正確答案的頻率將會(huì)提高。這有助于提高正確回答問題的可能性。　　在本文中，出于這種觀察，我們提出了通過不同通道之間的充分連接進(jìn)行答案的提取。特別地，答案提取是執(zhí)行在為描述所有通道中相同問題而建立的通道圖上。不同通道之間的關(guān)聯(lián)是通過相同連接詞之間添加邊來建立。以這種方式

9、，一個(gè)字符串是否可以被確定為候選答案由兩個(gè)因素共同決定：（1）本地通道中包含證據(jù)（ 2 ）在其他通道中的有與標(biāo)簽中相同的字的證據(jù)。我們采用因子圖作為模型。在因子圖，隨機(jī)變量表示通道中的文字，用來生成一個(gè)1/0的標(biāo)簽。在不同的通道中，我們通過添加一個(gè)因素節(jié)點(diǎn)來連接兩個(gè)變量，這兩個(gè)變量的“莖”是相同的，用來表示變量之間的相近度。實(shí)驗(yàn)執(zhí)行在四大公共QA數(shù)據(jù)集上。結(jié)果表明，利用通道之間的關(guān)系，相對(duì)于沒有使用這種關(guān)系的方法，答案提取的性能有著顯著

10、的提高。　　2相關(guān)工作：　　以往對(duì)答案抽取的研究已經(jīng)討論使用不同的結(jié)構(gòu)進(jìn)行答案抽取，包括模式，命名實(shí)體，正克和句法結(jié)構(gòu)。　　[ 2001] Soubbotin ，使用手工繪制圖案從文本中提取候選人來預(yù)先定義問題的類型（一些工作用使用問題類型來描述該問題是否被問到有關(guān)職能標(biāo)記，

11、列表，定義等等。本文重點(diǎn)是智能標(biāo)記QA ，我們按照符號(hào)在許多QA文件中不區(qū)分問題的類型和答案型）候選人的分?jǐn)?shù)取決于他們來自哪個(gè)模式。無需人工努力， [Ravichandran2002年Hovy ]自動(dòng)學(xué)習(xí)這種模式集并自動(dòng)生成成績。他們發(fā)送問題條款和答案到一個(gè)搜索引擎上并從通道檢索上提取模式。[ Ravichandran等， 2003]通過在問題條款中增加語義類型來提高以前的方法，并使用自動(dòng)學(xué)習(xí)型態(tài)的特點(diǎn)來模擬答案抽取的正確性。盡管它提

12、供了很高的精確度，基于模式的答案抽取方法被預(yù)先定義的問題的類型所限制。　　除了模式，不同的語言單元也被抽取并根據(jù)頻率進(jìn)行排名。[shen和Klakow ，2006年， 2011] 做出發(fā)言，大多數(shù)QA系統(tǒng)使用命名實(shí)體識(shí)別進(jìn)行答案提取，比如說[Prager et al., 2000; Pasca and Harabagiu, 2001;Yang et al., 2003; Xu et al., 2

13、003]。該方法首先提取實(shí)體，然后過濾列表，并將保留的候選人固定在預(yù)期答案類型中。實(shí)現(xiàn)了良好的業(yè)績通常需要實(shí)現(xiàn)給QA類型學(xué)提供一個(gè)命名實(shí)體的工具，因?yàn)楹芏啻鸢割愋筒话ìF(xiàn)有命名實(shí)體識(shí)別工具中。然而，開發(fā)這樣的識(shí)別在答案類型確定中是不平凡和錯(cuò)誤的將傳播到提取。答案提取的另外一個(gè)單元是正克。 [brill等， 2001]從網(wǎng)上檢索到的文件中收集高頻正克。該方法使用表面串特點(diǎn)和手工制作的圖案確定候選人類型并進(jìn)行過濾。此外，一些文字單位通過外

14、部知識(shí)或字典確定，例如文字網(wǎng)或維基百科中的標(biāo)題，錨文章和重定向原數(shù)據(jù)。　　另外，很多方法都依賴于句法結(jié)構(gòu)和提取的名詞短語或依賴通道中的樹節(jié)點(diǎn)。這些類型的方法通常利用問題和答案句子之間的相似度進(jìn)行候選人的排名。[太陽等，2005]以三倍速度分解這種依賴樹并在共同信息的基礎(chǔ)上計(jì)算相似度。[shen，2005]使用樹核函數(shù)計(jì)算的相似性和探索[shen Klakow，2006]的問題和候選句子之間依賴路

15、徑的相關(guān)性。為了克服問題表達(dá)和候選句子之間的表面差距，納入意譯依賴映射的路徑，然后根據(jù)語言模型排列候選人。　　最后的方法類型作為一個(gè)長期的提取工藝來查看答案抽取受到了[Sasaki 2005b]的質(zhì)疑。這種方法運(yùn)用的特點(diǎn)來自問題，文件，以及在兩部分之間匹配BIO標(biāo)簽。　　因子圖[Kschischang，2001]是一個(gè)雙向圖，定義的因素和變量使得“全球”

16、函數(shù)被不同的變量分解的功能。許多NLP（自然語言處理）討論了使用因子圖方法解決不同的問題，如關(guān)系提取，情感分析或事件抽取。在本文中，我們采用因子圖作為我們的模型來執(zhí)行答案提取。不同于以往分別在每個(gè)通道中提取答案的答案抽取方法，本文中，我們?cè)趫D表上執(zhí)行答案抽取，這種圖表是建立在通過連接與該問題相關(guān)的所有通道上的。這使得提取在通道之間不是孤立的，并使得其他段落所提供的證據(jù)被充分利用。

17、;　　3方法：　　3.1任務(wù)定義　　給定的一個(gè)問題Q和其相應(yīng)的通道P ={P1 , P2 ...Pn}，該任務(wù)是針指向從P中提取答案.特別，我們從每個(gè)通道中抽取候選人Ci，以產(chǎn)生候選人名單,我們將同樣出現(xiàn)的Ci 放在一起用來產(chǎn)生C = {C1 ，C2 ...CK} 。在這里， C是基于頻率進(jìn)行排名

18、的。在每個(gè)段落中，我們?cè)谕ǖ繮n中的每個(gè)字Xni的分類上進(jìn)行抽取任務(wù)的交換，用yi?{1,0}標(biāo)簽以表明它是否是一個(gè)答案字符串。在這里，n ? [1 ，N ]是通道的序列號(hào)，i表示這個(gè)詞是通道中的第i個(gè)字。接下來我們連接不同的通道來建立通道圖。在不同的通道中，我們添加的邊緣E1={eijnm}連接變量ym和yn，若Xn和Xm共享相同的“莖”（在這里，我們消除問題中stopwords和word之間的聯(lián)系）。核心任務(wù)是預(yù)測Y在通道圖中。當(dāng)我

19、們得到謂詞，提取每個(gè)通道內(nèi)具有連續(xù)的單詞序列標(biāo)簽1的作為候選人，以產(chǎn)生候選名單C 。　　3.2模型　　我們采用因子圖作為模型來解決在圖形上的預(yù)測。我們規(guī)定因子圖如下。在每個(gè)通道中，我們使用f來表示相關(guān)的變量y。對(duì)于不同通道上的邊e，我們使用因子節(jié)點(diǎn)F來分解定義在這條邊上的功能。圖1顯示了一個(gè)例證因子圖。</p&

20、gt;　　這項(xiàng)工作中，我們使用循環(huán)信念傳播推斷在訓(xùn)練和使用L-BFGS調(diào)整參數(shù)的邊緣可能性。就推理來說，最大積分算法被使用。培訓(xùn)和接口戰(zhàn)略遵循了[liu]中提到的方法。在這里我們忽略節(jié)省空間的詳細(xì)信息。　　3.3特點(diǎn)　　我們定義了兩個(gè)功能集Hgraph和HLOCAL來代表圖中的兩種不同的因素節(jié)點(diǎn)

21、。兩者的功能集包含簡單詞匯特征以及通過POS標(biāo)記和依賴解析所產(chǎn)生的復(fù)雜特征。在下文中，我們說明了兩個(gè)功能集。　　功能集Hgraph：　　此功能集描繪來自不同通道的兩個(gè)詞表示相同含義的可能性。這種可能性越高，詞匯的標(biāo)簽是相同的可能越大。我們根據(jù)其上下文模擬這種可能性。這一集合的特點(diǎn)包括：兩個(gè)通道的LCS含有的包含這些字，如果這兩個(gè)詞都被用到;如果這兩個(gè)詞是

22、相同的，如果他們的POS標(biāo)簽是相同的;如果他們有相同的依賴標(biāo)簽，如果他們的依賴父親是同一個(gè)詞；在他們依賴孩子節(jié)點(diǎn)中重疊詞會(huì)的數(shù)量，在他們周圍字集的重疊詞匯的數(shù)量，（窗口大小=5，類似的詞語下同），其他通道的與這個(gè)字相關(guān)聯(lián)的字的數(shù)量。　　功能設(shè)置HLOCAL：　　這組中的功能是用來描述在給定上下文的情況下一個(gè)字是答案的可能性。不同于傳統(tǒng)NER所采用的功能，

23、我們添加更多的特征描述字與問題之間的關(guān)系。這些特征來自四個(gè)部分：　　問題相關(guān)的特征：這些功能定義在一定語境中一個(gè)給定詞語問題相關(guān)的捕獲程度。這一集合包括：這個(gè)詞是否在問題中;這個(gè)詞的依賴父親是否在問題中;是否與問題中出現(xiàn)的主要詞匯有依賴關(guān)系;它的依賴孩子在問題中的數(shù)量;周圍的詞語在問題中的數(shù)量。　　詞匯的特點(diǎn)：這些功能描述每一個(gè)字的重要性，這個(gè)類別主要包

24、括NER使用的傳統(tǒng)功能：字的POS標(biāo)記及周邊字;字是否被使用;它是否是一個(gè)stopword;是否它包含一個(gè)數(shù)字;是否是標(biāo)點(diǎn)，是否是一個(gè)人，位置，或組織名稱。　　通道功能：這些功能捕捉通道和問題之間的相似之處。他們包括：通路的依賴關(guān)系三元組與問題相匹配的數(shù)量; LCS（最長公共子序列）問題和通道之間最長公共子序列的匹配;通道中的URL；通道的題目;通過通道中檢索組件來排列。

25、　　問題的特點(diǎn)：題型（人，地點(diǎn)，等）;問題焦點(diǎn)（誰，何時(shí)，何地，等）　　4 實(shí)驗(yàn)　　在本節(jié)中，我們講述了實(shí)驗(yàn)的設(shè)置和結(jié)果，并對(duì)結(jié)果進(jìn)行了分析。　　4.1實(shí)驗(yàn)設(shè)置　　QA組件：我們

26、的QA系統(tǒng)主要遵循傳統(tǒng)的QA管道框架包含三個(gè)部分：　　問題分析：我們使用手動(dòng)定義的規(guī)則確定問題類型和重點(diǎn)。問題被用來作為檢索通道的唯一查詢辦法。　　通道檢索：我們使用了一個(gè)精心打造的搜索引擎檢索通道，并保留了前10名的檢索結(jié)果。　　答案抽?。何覀冞x擇出現(xiàn)頻率最多的作為最終的答案，如果有局限的話，最頻繁的搜索結(jié)果的

27、排列順序是按照在已經(jīng)抽取的各種各樣的通道中的第一個(gè)單詞的最大價(jià)值評(píng)分。　　文本預(yù)處理：通過搜索引擎檢索的檢索結(jié)果首先被分解在單獨(dú)的句子里。對(duì)于每一個(gè)句子問題或片段，詞根詞性標(biāo)注，依存分析進(jìn)行。我們使用的是斯坦福大學(xué)解析器[ Marneffe等人， 2006]產(chǎn)生的POS標(biāo)簽和依賴關(guān)系樹。　　數(shù)據(jù)：在我們的實(shí)驗(yàn)中，我們采用四個(gè)QA數(shù)據(jù)集：

28、;　　CLEF [達(dá)尼洛等人， 2008] 2007年， 2008年， 2011年和2012　　QA數(shù)據(jù)。我們手動(dòng)過濾掉非智能標(biāo)記問題。　　這也被提到的問題！　　【楚卡羅爾和風(fēng)扇， 2011] 。　　NTCIR

29、- 5 [佐佐木，2005年]英語問題　　英-日跨越語言問題回答任務(wù)數(shù)據(jù)。　　TREC [ 1999]佛瑞斯，從1999年至2007年的QA數(shù)據(jù)。我們添加人的努力解決照應(yīng)對(duì)于給定主題相關(guān)的一些問題。　　在我們的實(shí)驗(yàn)中，我們使用的數(shù)據(jù)示于表2。為了試驗(yàn)，我們隨機(jī)選擇2000 TREC QA數(shù)據(jù)并且使用殘余的作為測試

30、數(shù)據(jù)。由于上衣步驟所遺漏的答案不影響我們對(duì)提取組件性能的估算。因此，繼設(shè)置[沉Klakow的2006年，我們只保留答案包含在檢索到的通道的問題?？傮w而言這留給我們60.26％左右的問題。該二進(jìn)制召回（答案都包含在搜索結(jié)果中的問題比例）通過檢索組件也示于表2。 NTCIR數(shù)據(jù)集實(shí)現(xiàn)了低記得。這可以歸因于一個(gè)事實(shí)，這個(gè)數(shù)據(jù)集的應(yīng)答是取決于所提問題的時(shí)間或者上下文。我們顯示了一些問題類型測試載于表3中。人工評(píng)估，隨機(jī)選取100測試集上的問題（

31、每套25）顯示精度問題類型的預(yù)測是90％。　　評(píng)估：我們?cè)u(píng)估了前K值的數(shù)目其中這些數(shù)目的問題的答案也是排在前K值里的。我們也給出了MRR。其中等級(jí)（ANSI）的排名，排名最頂尖的是問題的正確答案，N是一些測試題的數(shù)目，只計(jì)算所詢問題的答案可以在檢索通道中找到的。　　4.2 比較結(jié)果<p&

32、gt;　　與不使用通道圖的方法的比較　　為了驗(yàn)證通道之間的效果連接，我們通過去除建立在不同通道之間的變量的因子代碼來構(gòu)建基礎(chǔ)線。因此功能設(shè)置Hgraph和因子節(jié)點(diǎn)ffij被消除。這個(gè)設(shè)置所使用的試驗(yàn)數(shù)據(jù)和工具與我們建議的方法相同。因此，基準(zhǔn)線的方法是類似于中描述的2005B][佐佐木]，但是我們添加更多的依賴　　功能，和NER風(fēng)格的詞匯特征。此外，該日本

33、POS機(jī)使用的功能[佐佐木2005B]也沒有使用。　　試驗(yàn)結(jié)果于表4進(jìn)行了比較。通過增加鏈接不同通道之間的端口，所有的指標(biāo)都比基礎(chǔ)線的辦法好。當(dāng)P = 0:05 （ TREC的結(jié)果是顯著幫助P = 0:1 ）MRR以粗體表示顯著改善。 NTCIR改善并不可觀，但該數(shù)據(jù)集是非常小的，所以它不能代表統(tǒng)計(jì)趨勢。在所有數(shù)據(jù)集，前1措施　　和前5名除了在NTC

34、IR都得到了提高。這一結(jié)果證實(shí)，包含了段落之間的關(guān)系可以有效的提高答案抽取。我們還對(duì)基線的結(jié)果進(jìn)行重新排序，（表示為基線重新排名）11功能（＃停用詞的基礎(chǔ)上，頻率， normalizedunigram的頻率周圍所有候選人，回答類型匹配，長度等）。培訓(xùn)過程在TREC培訓(xùn)數(shù)據(jù)基礎(chǔ)上進(jìn)行了SVM排名。這種辦法被表述在[ Verberne等人， 2009年] 。似乎重排序后的基線結(jié)果是提高了，但是，與建議辦法還是有些差距。</p&g

35、t;　　對(duì)于效率比較，通道圖方法需要執(zhí)行的置信度傳播，推斷過程需要25ms的時(shí)間處理每一個(gè)問題而基線法只需要5ms。兩者的特征提取時(shí)間方法，幾乎是相同的。　　與NER比較　　大多數(shù)答案抽取工作只在它自己的研究路線上進(jìn)行了性能比較，如[沉Klakow ，2006] ，比較其結(jié)果與基于語法的方法。我

36、們的方法雖然使用NER答案抽取，但可以被看作是一個(gè)圖形化的基于模型的提取，尤其是長期的QA任務(wù)。因此我們把結(jié)果與NER方法進(jìn)行了比較。因?yàn)樗蝗菀讓?shí)現(xiàn)一個(gè)復(fù)雜的命名實(shí)體尤其像QA類型學(xué)，我們?cè)?55人地點(diǎn)和組織問題使用我們的辦法和現(xiàn)存的NER工具進(jìn)行比較。實(shí)體的確定是基于頻率的基礎(chǔ)上由工具保持和排序。結(jié)果示于表5 ，表明我們的方法優(yōu)于NER 。這是因?yàn)橐环矫?，斯坦福NER訓(xùn)練CoNLL數(shù)據(jù)集對(duì)搜索結(jié)果的文件具有不同的內(nèi)容，。另一方面，我

37、們使用的與問題相關(guān)的功能的方法，更合適QA任務(wù)。　　提取和排名　　答案抽取通常首先產(chǎn)生的候選名單，然后對(duì)它們根據(jù)排名得分進(jìn)行排序。有些方法在產(chǎn)生列表的時(shí)候會(huì)添加一些限制，例如，NER的方法只保留固定的候選問題類型。而其他的會(huì)開始檢索到很多的候選答案，然后再依靠先進(jìn)的打字或排名函數(shù)，如作為N-gram的方法或基于維基百

38、科德方法表述于[楚卡羅爾和風(fēng)扇，2011]。它很難說哪一種策略更好。我們的方法屬于第一類。我們通過手動(dòng)設(shè)計(jì)功能來限制的產(chǎn)生過程，并得到高質(zhì)量的候選名單。一個(gè)有趣的問題是，是否通過產(chǎn)生時(shí)放松限制然后再利用這些功能進(jìn)行排名，這樣是有可能實(shí)現(xiàn)一個(gè)更好的結(jié)果嗎？　　要回答這個(gè)問題，我們使用n-gram（單字，兩字組和卦）和維基百科標(biāo)題中所描述的[楚卡羅爾和風(fēng)扇，2011]進(jìn)行了探索實(shí)驗(yàn)，以產(chǎn)生候選名單，

39、然后由同一行伍出身重新排名。為了更加公平，255日期和數(shù)字的問題被排除在外。結(jié)果示于表6。重排序之前，使用頻率排名候選名單（所以我們的方法所示）。重新排名之后這兩種辦法的結(jié)果都會(huì)得到改善。但是，結(jié)果仍然不是很滿意。這是因?yàn)楫?dāng)一種方法產(chǎn)生了更多的候選名單的時(shí)候就會(huì)對(duì)排列產(chǎn)生更大的壓力，使得排名更困難。實(shí)現(xiàn)一個(gè)更好的結(jié)果，需要更完善功能以及排名特征選擇，而這不是我們討論的部分。

40、4.3 結(jié)果分析　　通道圖形效果分析　　我們還進(jìn)行一些手動(dòng)的積極分析情況下，研究關(guān)于圖形性能的提高比基準(zhǔn)線方法更好。事實(shí)證明，圖生效果從兩個(gè)方面來看。首先，如果基準(zhǔn)線的方法有確定的答案，添加的連接，可以進(jìn)一步提高答案頻率修正邊界或針指向更多的答案出現(xiàn)。這在第1節(jié)中的示例中有所體現(xiàn)。其次，如果基準(zhǔn)方

41、法忽略了答案，我們的方法可以通過檢索考慮到全球性的信息，從而提高了答案覆蓋范圍。據(jù)我們觀察，答案抽取的二進(jìn)制召回在測試集上從65.53％提高到68.59％。在表7中考慮這樣一個(gè)例子。基線法在不考慮通道聯(lián)系的時(shí)候不能抽取到正確答案。含有答案的所有的通路是類似于在表中的通路，當(dāng)有一個(gè)答案和關(guān)鍵詞之間的可靠性關(guān)系很差時(shí)使得問題相關(guān)性的分?jǐn)?shù)較低。詞匯功能分?jǐn)?shù)也低，所以每個(gè)通道內(nèi)的證據(jù)沒有強(qiáng)大到足以支持字符串作為一個(gè)答案。然而，如果我們看一下在

42、全球范圍內(nèi)，在類似環(huán)境下銀匠具有較高的頻率，它返回給第二部分的方程一個(gè)高分在表1中提取出來以確定它為候選名單。　　不同類型問題對(duì)應(yīng)的結(jié)果：　　不同類型的問題的結(jié)果示于表8。結(jié)果表明，我們的方法有關(guān)非命名實(shí)體問題詢問更有效果。這些問題是占有很大比例的，而且更難以對(duì)付。我們的方法關(guān)于命名實(shí)體問題可以達(dá)到可比較的結(jié)果，因?yàn)榛鶞?zhǔn)線的方法可以有效地識(shí)別命名實(shí)體，例

43、如，借力資本或字典功能。但是，如果答案是未命名的實(shí)體，它們不容易確定。在這樣的條件下，通過利用信息之間的所有通道，我們的方法是更有效的提取答案。　　功能集　　我們比較不同的功能集的有效性于表9。一次性的移除HLOCAL里德功能設(shè)置，我們衡量性能的衰減。我們把MRR作為主要的測量因?yàn)樗茏プ〈鸢傅钠骄琶?。結(jié)果表明，與

44、功能相關(guān)的問題是最重要的。他們衡量每一個(gè)單詞與問題的相關(guān)性有多少。這些特點(diǎn)對(duì)于不用問有關(guān)命名實(shí)體的問題是很必要的。此外，問題功能集是第二重要的。對(duì)于同一問題的所有單詞問題的特點(diǎn)都是相同，它起到在進(jìn)行分類時(shí)調(diào)整閾值的作用。例如，在標(biāo)簽1上的“位置”的重量為負(fù)時(shí)，因此標(biāo)簽1需要一個(gè)較大的成績?cè)~語才能確定為候選名單。當(dāng)從通道中提取大部分的命名實(shí)體時(shí)詞匯特征是有幫助的。如果沒有這些功能，低頻命名實(shí)體，尤其是日期和數(shù)字，將被錯(cuò)過。通道功能發(fā)揮著第

45、二位的作用，我們誘導(dǎo)出這些功能不沒有直接的描述每個(gè)候選的質(zhì)量的原因而且這些原因?qū)τ谕煌ǖ览锏暮蜻x都是一樣的。　　錯(cuò)誤分析　　我們的方法的錯(cuò)誤來自兩個(gè)部分：一個(gè)是當(dāng)答案是在候選名單中錯(cuò)過了，另一種是提取答案排列不正確。該測試集上的錯(cuò)誤的分布示于表10。該結(jié)果表明，提取遺失是主要的錯(cuò)誤。為了進(jìn)一步分析錯(cuò)誤，我們從測試集

46、里隨機(jī)選擇150個(gè)錯(cuò)誤案例（15 NTCIR和35從其他三個(gè)分別設(shè)置），手動(dòng)檢查原因。其中我們的方法提供了45題的正確答案，但確被判斷錯(cuò)誤的，因?yàn)楹蜻x不相匹配答案所給的表面形式。此外，還有35題答案我們的方法給出了錯(cuò)誤界線，還有許多答案是部分給出而這些問題的答案大部分是復(fù)合名詞。我們的方法遺漏了46個(gè)答案，他們中的20個(gè)既不是命名實(shí)體，也沒有大寫，并只出現(xiàn)一次，使得它們非常難以被識(shí)別。<b

47、>　　5 結(jié)論和展望　　在本文中，我們提出通過權(quán)衡不同通道之間的關(guān)系來獲取答案。我們通過通道表來完成這個(gè)提取過程，而通道表是建立在與同一問題都有聯(lián)系的通道之上的。在不同的通道的邊緣構(gòu)建通過具有相同的連接詞進(jìn)行聯(lián)系的。提取是通過給每個(gè)單詞1/0的標(biāo)簽來表明這個(gè)是不是答案字符串來完成的。因子圖的采用是用來推理特征權(quán)重。實(shí)驗(yàn)結(jié)果表明，通過添加不同通道之間的聯(lián)系，答案提取的性能

眾賞文庫> 全部分類> 畢業(yè)設(shè)計(jì)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

2013年--外文翻譯--問答通道圖中的答案抽取（譯文）

文檔簡介

溫馨提示

最新文檔

評(píng)論

2013年--外文翻譯--問答通道圖中的答案抽取（譯文）

文檔簡介

溫馨提示

最新文檔

評(píng)論

免費(fèi)下載