版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告畢業(yè)設(shè)計(jì)開(kāi)題報(bào)告計(jì)算機(jī)科學(xué)與技術(shù)計(jì)算機(jī)科學(xué)與技術(shù)基于基于SVMSVM的漢語(yǔ)問(wèn)句分類(lèi)研究的漢語(yǔ)問(wèn)句分類(lèi)研究一、選題的背景與意義如今已是網(wǎng)絡(luò)信息爆炸的時(shí)代,信息浩如煙海,人們對(duì)于網(wǎng)絡(luò)的普遍需求是怎樣快速尋找到自己想要的信息。盡管目前有比較知名的搜索引擎如百度、谷歌、雅虎等,但是都存在很多不足,而對(duì)于更加準(zhǔn)確、高效、人性的智能檢索系統(tǒng)的研發(fā)成為人們迫切的愿望。自動(dòng)問(wèn)答(QuestionAnswering,QA)系統(tǒng),是指系統(tǒng)接
2、受用戶(hù)以自然語(yǔ)言形式描述的提問(wèn),隨后能夠從大量的數(shù)據(jù)中查找出并且為用戶(hù)返回一個(gè)簡(jiǎn)潔、準(zhǔn)確的答案。問(wèn)答系統(tǒng)是目前自然語(yǔ)言處理領(lǐng)域一個(gè)非常熱門(mén)的問(wèn)題,它被認(rèn)為是新一代智能檢索系統(tǒng)。不同的問(wèn)答系統(tǒng)具有不同的結(jié)構(gòu),但大部分系統(tǒng)有著相同的框架,包括問(wèn)句理解、信息檢索和答案抽取三部分。問(wèn)題理解雖然是問(wèn)答系統(tǒng)的一個(gè)子過(guò)程,但卻是第一個(gè)重要的模塊,這直接影響到了信息檢索和答案選取的正確率。因此,找出能夠良好識(shí)別漢語(yǔ)問(wèn)句的方法,將使中文自動(dòng)問(wèn)答系統(tǒng)朝著應(yīng)
3、用于多領(lǐng)域的普遍方向發(fā)展。特征選取是問(wèn)句分類(lèi)中最關(guān)鍵的一部分,這與文本分類(lèi)有很多相似的地方,但是除了提取問(wèn)句中的詞、詞性、語(yǔ)塊句法特征外,還需提取問(wèn)句中一些隱含的語(yǔ)義特征。目前流行的方法有識(shí)別同義詞、關(guān)聯(lián)詞,計(jì)算語(yǔ)義相似度和語(yǔ)義相關(guān)度,語(yǔ)義塊和命名實(shí)體識(shí)別。對(duì)于問(wèn)句分類(lèi)方法的研究,目前主要集中在兩個(gè)方面,一是基于規(guī)則的方法,通過(guò)專(zhuān)家提取各種問(wèn)句類(lèi)型的疑問(wèn)詞與其他相關(guān)詞組合的特征規(guī)則,通過(guò)規(guī)則來(lái)判定問(wèn)句所屬類(lèi)型。另一種是通過(guò)統(tǒng)計(jì)的方法實(shí)現(xiàn)
4、問(wèn)句的分類(lèi),通過(guò)對(duì)真實(shí)的經(jīng)過(guò)標(biāo)注的問(wèn)句語(yǔ)料進(jìn)行統(tǒng)計(jì)學(xué)習(xí),提取能表達(dá)各種問(wèn)句類(lèi)型的特征規(guī)則,建立學(xué)習(xí)模型,實(shí)現(xiàn)各種問(wèn)句的類(lèi)型識(shí)別。二、研究的基本內(nèi)容與擬解決的主要問(wèn)題:漢語(yǔ)問(wèn)句分類(lèi)目標(biāo)是根據(jù)實(shí)際問(wèn)句特征將其歸為一定集合的漢語(yǔ)問(wèn)句類(lèi)型中的一種,本文的分類(lèi)標(biāo)準(zhǔn)參考文獻(xiàn)[9]中的問(wèn)句分類(lèi)體系,將漢語(yǔ)問(wèn)句分成50多個(gè)類(lèi)型,兩〈label〉〈index1〉:〈value1〉〈index2〉:〈value2〉〈indexn〉:〈valuen〉其中l(wèi)a
5、bel為問(wèn)句相應(yīng)類(lèi)別的編號(hào)〈index〉是問(wèn)句中特征定義的編號(hào)〈value〉為其對(duì)應(yīng)的特征項(xiàng)的特征值.對(duì)于每一個(gè)問(wèn)句要求提取出一個(gè)上面表達(dá)形式的特征向量用于訓(xùn)練和測(cè)試.問(wèn)句分類(lèi)器選取了語(yǔ)義相似度的特征因此對(duì)該特征進(jìn)行編碼即確定〈index〉項(xiàng)序號(hào)和具體特征之間的對(duì)應(yīng)關(guān)系.特征編碼要借助于問(wèn)句類(lèi)別表、FAQ標(biāo)準(zhǔn)問(wèn)句庫(kù)、中科院詞表。特征編碼確定后對(duì)于每一個(gè)問(wèn)句只需確定這個(gè)特征編號(hào)(Index)在問(wèn)句中對(duì)應(yīng)的特征值(Value)對(duì)選取特征只取
6、兩個(gè)值(0或1).。對(duì)問(wèn)句與標(biāo)準(zhǔn)問(wèn)句庫(kù)進(jìn)行相似度計(jì)算后判斷該問(wèn)句是否包含相關(guān)特征項(xiàng).若問(wèn)句中出現(xiàn)該對(duì)應(yīng)編碼的特征則對(duì)應(yīng)的特征值為1否則為0。然后對(duì)每一個(gè)訓(xùn)練和測(cè)試問(wèn)句構(gòu)建出一個(gè)表達(dá)問(wèn)句的SVM特征向量。按照上述方式構(gòu)造分類(lèi)器的問(wèn)句特征維數(shù)很大,SVM能夠處理高維特征,但是訓(xùn)練時(shí)間較長(zhǎng)。四、研究的總體安排與進(jìn)度:20102011第一學(xué)年:12月20日1月9日:查閱相關(guān)書(shū)籍資料,對(duì)于中文自動(dòng)問(wèn)答系統(tǒng)作整體上的了解。1月10日2月16日:學(xué)習(xí)
7、基于詞和詞性的句法特征選擇方法和SVM算法的分類(lèi)方法。20102011第二學(xué)年:2月17日3月20日:應(yīng)用這兩種方法構(gòu)造分類(lèi)器并實(shí)現(xiàn)對(duì)給定訓(xùn)練集和測(cè)試集的分類(lèi)。3月21日4月10日:對(duì)分類(lèi)器進(jìn)行測(cè)試、修改,使分類(lèi)效果盡可能的理想。4月11日5月1日:對(duì)最后的結(jié)果進(jìn)行誤差分析、總結(jié)并撰寫(xiě)畢業(yè)論文。五、主要參考文獻(xiàn):[1]余正濤樊孝忠郭劍毅.基于支持向量機(jī)的漢語(yǔ)問(wèn)句分類(lèi).華南理工大學(xué)學(xué)報(bào)2005.9[2]呂德新.中文自動(dòng)問(wèn)答系統(tǒng)中問(wèn)題理解技
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于svm的漢語(yǔ)問(wèn)句分類(lèi)研究【開(kāi)題報(bào)告+文獻(xiàn)綜述+畢業(yè)設(shè)計(jì)】
- 基于svm的漢語(yǔ)問(wèn)句分類(lèi)研究【畢業(yè)論文】
- 基于漢語(yǔ)框架網(wǎng)的中文問(wèn)句分類(lèi)研究.pdf
- 基于SVM的圖像分類(lèi)研究.pdf
- 基于SVM的指紋分類(lèi)研究.pdf
- 基于SVM圖像分類(lèi)方法的研究.pdf
- 基于SVM的圖像分類(lèi).pdf
- 基于SVM的遙感影像云分類(lèi)研究.pdf
- 基于SVM分類(lèi)的圖像邊緣檢測(cè)研究.pdf
- 基于SVM的網(wǎng)頁(yè)分類(lèi)技術(shù)研究.pdf
- 基于SVM方法的醫(yī)學(xué)圖像分類(lèi)研究.pdf
- 基于svm的網(wǎng)絡(luò)輿情文本分類(lèi)研究
- 基于SVM的郵件內(nèi)容分類(lèi)方法研究.pdf
- 基于SVM分類(lèi)算法的主題爬蟲(chóng)研究.pdf
- 基于近鄰準(zhǔn)則的SVM分類(lèi)器研究及在漢語(yǔ)歧義切分中的應(yīng)用.pdf
- 基于SVM的醫(yī)學(xué)圖像分類(lèi).pdf
- 基于SVM的車(chē)型自動(dòng)分類(lèi)方法的研究.pdf
- 基于卷積神經(jīng)網(wǎng)絡(luò)的問(wèn)句分類(lèi)研究.pdf
- 基于SVM的漢語(yǔ)語(yǔ)音情感識(shí)別研究.pdf
- 基于SVM的膠囊缺陷分類(lèi)識(shí)別研究.pdf
評(píng)論
0/150
提交評(píng)論