版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、在現(xiàn)今社會(huì),隨著近十年計(jì)算機(jī)科學(xué)迅猛發(fā)展的浪潮,多文檔摘要技術(shù)已經(jīng)逐漸成長(zhǎng)為一個(gè)令人興奮并充滿著挑戰(zhàn)的研究前沿,往往通過自然語言處理和信息檢索的聯(lián)合技術(shù)來加以解決。面對(duì)著當(dāng)今互聯(lián)網(wǎng)上的信息快速增長(zhǎng),找尋信息的人們往往會(huì)發(fā)現(xiàn)自己很難能跟上信息更新的頻率和速度。新聞信息如洪水一般在互聯(lián)網(wǎng)上洶涌襲來,人們很容易被“淹沒”在浩如煙海的信息中,不知道從何開始。因此,人們認(rèn)為對(duì)新聞信息的自動(dòng)理解已經(jīng)成為Web信息處理的一個(gè)重要成分。
對(duì)于
2、一個(gè)演進(jìn)式的新聞主題而言,人們往往有著多重興趣,如:該事件是如何起始的,如何發(fā)展的,當(dāng)前狀況又是如何,但是傳統(tǒng)的新聞理解技術(shù)并不足以應(yīng)對(duì)用戶的這種需求。普通的搜索引擎僅僅只能按照它們的理解對(duì)新聞數(shù)據(jù)按照查詢相關(guān)度來進(jìn)行排序,但是它們很難應(yīng)對(duì)各種意圖模糊的新聞主題類查詢。再比如說,即使搜索引擎返回給用戶的結(jié)果排序十分理想(雖然這不太可能),用戶也不太會(huì)愿意將這些文檔一一閱讀。人們希望能夠有一種簡(jiǎn)單瀏覽的方式來掌握整個(gè)事態(tài)的發(fā)展流程和演化軌
3、跡。而新聞?wù)獎(jiǎng)t正是一個(gè)很好的解決方式,可以提供一個(gè)經(jīng)過了壓縮,具有極大信息含量的文檔重組織和展現(xiàn)形式,可以讓用戶能輕松掌握事件的發(fā)展。我們提出了“時(shí)序年表”(Timeline)的概念,把一個(gè)演進(jìn)式的新聞按照時(shí)間的維度,動(dòng)態(tài)的摘要生成為一系列相互獨(dú)立又互相依賴的子摘要,從而提供了一個(gè)展示事件發(fā)展全景概況的靈活方式。
本文具體工作和創(chuàng)新性如下:
1.我們提出了一個(gè)面向新聞文檔的全新文本分段算法。相比于傳統(tǒng)的多文檔摘要任
4、務(wù)而言,演進(jìn)式新聞文檔摘要面向的是更為龐大的海量新聞數(shù)據(jù)集。因此,我們?cè)陂_始摘要生成工作之前,首先會(huì)進(jìn)行一些針對(duì)新聞特征的預(yù)處理。由于一篇新聞文檔并非是完全不可再分的:一篇新聞文檔通常包含了不止一個(gè)事件,而每個(gè)事件可能代表著某個(gè)新聞主題的某個(gè)側(cè)面,因此我們從新聞文檔中,抽取出具有原子事件特征的新聞元片段。在同一篇新聞文檔中的所有新聞元事件在一定程度上也是彼此互相獨(dú)立的。所以,對(duì)于它們而言,并不是所有新聞元都和某個(gè)特定的新聞主題緊密關(guān)聯(lián)。
5、經(jīng)過一個(gè)細(xì)粒度的事件元提取過程,我們可以去除一些事件無關(guān)的描述性語句或者過濾掉和當(dāng)前新聞主題無關(guān)的新聞元事件,通過這種方式對(duì)海量數(shù)據(jù)進(jìn)行一步壓縮和預(yù)處理。這項(xiàng)工作的挑戰(zhàn)也很明顯,我們需要應(yīng)對(duì)來自文法(如文本,命名實(shí)體,時(shí)間等)、句法(句子位移,連接詞等)以及視覺要素上的一些約束來進(jìn)行新聞元片段提取。
2.我們引入了一種全新的摘要任務(wù)“演進(jìn)式動(dòng)態(tài)新聞文檔摘要”,并提出了兩種解決的算法框架,這些算法框架都可以推廣到所有依賴式摘要生
6、成問題中。給定一個(gè)新聞主題文檔集合,系統(tǒng)會(huì)自動(dòng)輸出一個(gè)時(shí)間年表,而該時(shí)間年表下的一系列子摘要代表著該事件隨著時(shí)間推移的發(fā)展軌跡。兩個(gè)方法之一是基于全局優(yōu)先圖排序算法和局部?jī)?yōu)先圖排序算法的優(yōu)化結(jié)合框架,考慮到句子之間跨時(shí)間的依賴關(guān)系以及同時(shí)間下的相互依賴關(guān)系。其中,跨時(shí)間依賴關(guān)系是通過一個(gè)時(shí)序投影函數(shù),將所有其他時(shí)間結(jié)點(diǎn)下的句子都投影到某個(gè)特定的時(shí)間平面上來加以建模的。第二種方式是一個(gè)基于約束條件下的迭代式句子替換框架,從一個(gè)句子集合中優(yōu)
7、選出最佳句子的子集合生成摘要:子摘要之間不是完全獨(dú)立的,而是通過鄰居子摘要來互相優(yōu)化互相精煉生成,反映出新聞演進(jìn)式的特征。對(duì)于每一個(gè)子摘要,我們都從兩種角度去考量評(píng)價(jià):一種是局部的,基于周圍鄰居時(shí)間結(jié)點(diǎn);一種是全局的,基于全數(shù)據(jù)時(shí)間結(jié)點(diǎn)。
3.我們首次提出了視覺化演進(jìn)式動(dòng)態(tài)新聞文檔摘要的概念,并提出了針對(duì)視覺化摘要和基于迭代式互相增強(qiáng)算法框架的解決方法。給定某個(gè)新聞主題以及相關(guān)帶有時(shí)間標(biāo)簽的文檔集,系統(tǒng)會(huì)生成一個(gè)帶視覺信息的演
8、進(jìn)式動(dòng)態(tài)新聞文檔摘要,其中分別包含文字部分以及圖片部分,兩個(gè)部分互為說明互為補(bǔ)充。每個(gè)子摘要代表著事件的發(fā)展過程,被全局信息的優(yōu)化條件所約束。在這里,圖片信息可以被用作提示句子摘要信息的線索,從而改變傳統(tǒng)文本摘要的生成方式,這一點(diǎn)將是非常有利的。對(duì)于視覺化演進(jìn)式動(dòng)態(tài)新聞文檔摘要的生成,我們使用了兩個(gè)異質(zhì)數(shù)據(jù)流,其中圖片數(shù)據(jù)流在以往文檔摘要的生成方法中是往往被忽略了的。此外,由于我們要同時(shí)使用兩種異質(zhì)數(shù)據(jù)流,我們需要通過翻譯模型來建立兩個(gè)
9、語義維度的橋梁跨越語義隔閡。對(duì)于每個(gè)子摘要而言都包含有兩個(gè)部分:文本部分和圖片部分。對(duì)圖片的選擇會(huì)影響到對(duì)文本的選擇,反之亦然。我們提出了一個(gè)有效的方式來保證這兩部分能夠很好的通過互相增強(qiáng)的方式匹配起來,并且通過全局-局部的約束,將各個(gè)子摘要的生成進(jìn)行統(tǒng)一優(yōu)化。
4.我們提出了兩種可能整合到演進(jìn)式動(dòng)態(tài)新聞文檔摘要中的擴(kuò)展特性。第一種是引入用戶個(gè)性化。因?yàn)橛脩粲兄鴤€(gè)人的喜好,所以可能對(duì)自己喜歡閱讀什么樣的內(nèi)容具有某種傾向性,很明
10、顯的是對(duì)于所有用戶都生成一個(gè)一模一樣的摘要是不夠的。我們提出了一個(gè)交互式的摘要生成方法,允許用戶可以使用“點(diǎn)擊”和“查看”的方式來和摘要生成系統(tǒng)進(jìn)行交互。人機(jī)交互的方式支持用戶點(diǎn)擊句子,并且查看該內(nèi)容的來源文檔,提供了實(shí)時(shí)的偽相關(guān)反饋。這種隱式的“點(diǎn)擊日志”能反映出人們的興趣。由于用戶的點(diǎn)擊可能比較稀疏,我們使用了“點(diǎn)擊平滑”的方式來擴(kuò)大點(diǎn)擊數(shù)據(jù)的影響。第二種可擴(kuò)展的方向是引入大眾熱點(diǎn)信息,我們使用了Twitter網(wǎng)社交媒體的數(shù)據(jù)來捕獲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于子主題增強(qiáng)的演化式多文檔摘要生成方法研究.pdf
- XML到OWL文檔生成方法研究.pdf
- 基于GPU的快速摘要生成方法.pdf
- 面向主題的Web文檔自動(dòng)文摘生成方法研究.pdf
- 微博事件的圖文摘要生成方法研究.pdf
- 建筑生成方法研究
- 基于引文的英文文檔文摘自動(dòng)生成方法研究.pdf
- 紅外紋理生成方法研究.pdf
- 基于單幅圖像的高動(dòng)態(tài)范圍圖像生成方法研究.pdf
- 分布式組件軟件測(cè)試用例生成方法研究.pdf
- ISS結(jié)構(gòu)自動(dòng)生成方法研究.pdf
- 動(dòng)態(tài)數(shù)據(jù)結(jié)構(gòu)的測(cè)試數(shù)據(jù)自動(dòng)生成方法研究.pdf
- 面向人像卡通的動(dòng)態(tài)表情自動(dòng)生成方法
- 支持動(dòng)態(tài)服務(wù)聚合的融合業(yè)務(wù)生成方法的研究與實(shí)現(xiàn).pdf
- 視頻海報(bào)自動(dòng)生成方法.pdf
- 農(nóng)業(yè)領(lǐng)域云本體生成方法研究.pdf
- 跨模態(tài)人臉圖像生成方法研究.pdf
- 構(gòu)件測(cè)試腳本生成方法研究.pdf
- 曲線字庫(kù)自動(dòng)生成方法的研究.pdf
- 簡(jiǎn)筆畫的自動(dòng)生成方法研究.pdf
評(píng)論
0/150
提交評(píng)論