2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩40頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、1畢業(yè)設(shè)計開題報告畢業(yè)設(shè)計開題報告計算機科學(xué)與技術(shù)計算機科學(xué)與技術(shù)基于基于SVMSVM的漢語問句分類研究的漢語問句分類研究一、選題的背景與意義如今已是網(wǎng)絡(luò)信息爆炸的時代,信息浩如煙海,人們對于網(wǎng)絡(luò)的普遍需求是怎樣快速尋找到自己想要的信息。盡管目前有比較知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而對于更加準(zhǔn)確、高效、人性的智能檢索系統(tǒng)的研發(fā)成為人們迫切的愿望。自動問答(QuestionAnswering,QA)系統(tǒng),是指系統(tǒng)

2、接受用戶以自然語言形式描述的提問,隨后能夠從大量的數(shù)據(jù)中查找出并且為用戶返回一個簡潔、準(zhǔn)確的答案。問答系統(tǒng)是目前自然語言處理領(lǐng)域一個非常熱門的問題,它被認(rèn)為是新一代智能檢索系統(tǒng)。不同的問答系統(tǒng)具有不同的結(jié)構(gòu),但大部分系統(tǒng)有著相同的框架,包括問句理解、信息檢索和答案抽取三部分。問題理解雖然是問答系統(tǒng)的一個子過程,但卻是第一個重要的模塊,這直接影響到了信息檢索和答案選取的正確率。因此,找出能夠良好識別漢語問句的方法,將使中文自動問答系統(tǒng)朝著

3、應(yīng)用于多領(lǐng)域的普遍方向發(fā)展。特征選取是問句分類中最關(guān)鍵的一部分,這與文本分類有很多相似的地方,但是除了提取問句中的詞、詞性、語塊句法特征外,還需提取問句中一些隱含的語義特征。目前流行的方法有識別同義詞、關(guān)聯(lián)詞,計算語義相似度和語義相關(guān)度,語義塊和命名實體識別。對于問句分類方法的研究,目前主要集中在兩個方面,一是基于規(guī)則的方法,通過專家提取各種問句類型的疑問詞與其他相關(guān)詞組合的特征規(guī)則,通過規(guī)則來判定問句所屬類型。另一種是通過統(tǒng)計的方法實

4、現(xiàn)問句的分類,通過對真實的經(jīng)過標(biāo)注的問句語料進(jìn)行統(tǒng)計學(xué)習(xí),提取能表達(dá)各種問句類型的特征規(guī)則,建立學(xué)習(xí)模型,實現(xiàn)各種問句的類型識別。二、研究的基本內(nèi)容與擬解決的主要問題:3子結(jié)構(gòu)的基礎(chǔ)因此選擇詞和詞性作為基本的特征空間.詞或詞性特征的提取相對比較容易采用中科院計算所開發(fā)的分詞和詞性標(biāo)注工具ICTCLAS對問句進(jìn)行詞切分和詞性標(biāo)注其中詞性標(biāo)注按照北大的詞性標(biāo)注集規(guī)范進(jìn)行。2、用支持向量機(SVM)進(jìn)行統(tǒng)計分類SVM分類器中的特征都是數(shù)字型為

5、此必須對特征進(jìn)行編碼將其轉(zhuǎn)化為數(shù)字型并提取相應(yīng)編碼項的特征值作為LIBSVM的訓(xùn)練特征向量輸入.其向量輸入格式為:〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉〈indexn〉:〈valuen〉其中l(wèi)abel為問句相應(yīng)類別的編號〈index〉是問句中特征定義的編號〈value〉為其對應(yīng)的特征項的特征值.對于每一個問句要求提取出一個上面表達(dá)形式的特征向量用于訓(xùn)練和測試.問句分類器選取了語義相似度的特征因

6、此對該特征進(jìn)行編碼即確定〈index〉項序號和具體特征之間的對應(yīng)關(guān)系.特征編碼要借助于問句類別表、FAQ標(biāo)準(zhǔn)問句庫、中科院詞表。特征編碼確定后對于每一個問句只需確定這個特征編號(Index)在問句中對應(yīng)的特征值(Value)對選取特征只取兩個值(0或1).。對問句與標(biāo)準(zhǔn)問句庫進(jìn)行相似度計算后判斷該問句是否包含相關(guān)特征項.若問句中出現(xiàn)該對應(yīng)編碼的特征則對應(yīng)的特征值為1否則為0。然后對每一個訓(xùn)練和測試問句構(gòu)建出一個表達(dá)問句的SVM特征向量。

7、按照上述方式構(gòu)造分類器的問句特征維數(shù)很大,SVM能夠處理高維特征,但是訓(xùn)練時間較長。四、研究的總體安排與進(jìn)度:20102011第一學(xué)年:12月20日1月9日:查閱相關(guān)書籍資料,對于中文自動問答系統(tǒng)作整體上的了解。1月10日2月16日:學(xué)習(xí)基于詞和詞性的句法特征選擇方法和SVM算法的分類方法。20102011第二學(xué)年:2月17日3月20日:應(yīng)用這兩種方法構(gòu)造分類器并實現(xiàn)對給定訓(xùn)練集和測試集的分類。3月21日4月10日:對分類器進(jìn)行測試、修

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論