

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
1、在現(xiàn)今社會,隨著近十年計算機科學迅猛發(fā)展的浪潮,多文檔摘要技術已經(jīng)逐漸成長為一個令人興奮并充滿著挑戰(zhàn)的研究前沿,往往通過自然語言處理和信息檢索的聯(lián)合技術來加以解決。面對著當今互聯(lián)網(wǎng)上的信息快速增長,找尋信息的人們往往會發(fā)現(xiàn)自己很難能跟上信息更新的頻率和速度。新聞信息如洪水一般在互聯(lián)網(wǎng)上洶涌襲來,人們很容易被“淹沒”在浩如煙海的信息中,不知道從何開始。因此,人們認為對新聞信息的自動理解已經(jīng)成為Web信息處理的一個重要成分。
對于
2、一個演進式的新聞主題而言,人們往往有著多重興趣,如:該事件是如何起始的,如何發(fā)展的,當前狀況又是如何,但是傳統(tǒng)的新聞理解技術并不足以應對用戶的這種需求。普通的搜索引擎僅僅只能按照它們的理解對新聞數(shù)據(jù)按照查詢相關度來進行排序,但是它們很難應對各種意圖模糊的新聞主題類查詢。再比如說,即使搜索引擎返回給用戶的結果排序十分理想(雖然這不太可能),用戶也不太會愿意將這些文檔一一閱讀。人們希望能夠有一種簡單瀏覽的方式來掌握整個事態(tài)的發(fā)展流程和演化軌
3、跡。而新聞摘要則正是一個很好的解決方式,可以提供一個經(jīng)過了壓縮,具有極大信息含量的文檔重組織和展現(xiàn)形式,可以讓用戶能輕松掌握事件的發(fā)展。我們提出了“時序年表”(Timeline)的概念,把一個演進式的新聞按照時間的維度,動態(tài)的摘要生成為一系列相互獨立又互相依賴的子摘要,從而提供了一個展示事件發(fā)展全景概況的靈活方式。
本文具體工作和創(chuàng)新性如下:
1.我們提出了一個面向新聞文檔的全新文本分段算法。相比于傳統(tǒng)的多文檔摘要任
4、務而言,演進式新聞文檔摘要面向的是更為龐大的海量新聞數(shù)據(jù)集。因此,我們在開始摘要生成工作之前,首先會進行一些針對新聞特征的預處理。由于一篇新聞文檔并非是完全不可再分的:一篇新聞文檔通常包含了不止一個事件,而每個事件可能代表著某個新聞主題的某個側面,因此我們從新聞文檔中,抽取出具有原子事件特征的新聞元片段。在同一篇新聞文檔中的所有新聞元事件在一定程度上也是彼此互相獨立的。所以,對于它們而言,并不是所有新聞元都和某個特定的新聞主題緊密關聯(lián)。
5、經(jīng)過一個細粒度的事件元提取過程,我們可以去除一些事件無關的描述性語句或者過濾掉和當前新聞主題無關的新聞元事件,通過這種方式對海量數(shù)據(jù)進行一步壓縮和預處理。這項工作的挑戰(zhàn)也很明顯,我們需要應對來自文法(如文本,命名實體,時間等)、句法(句子位移,連接詞等)以及視覺要素上的一些約束來進行新聞元片段提取。
2.我們引入了一種全新的摘要任務“演進式動態(tài)新聞文檔摘要”,并提出了兩種解決的算法框架,這些算法框架都可以推廣到所有依賴式摘要生
6、成問題中。給定一個新聞主題文檔集合,系統(tǒng)會自動輸出一個時間年表,而該時間年表下的一系列子摘要代表著該事件隨著時間推移的發(fā)展軌跡。兩個方法之一是基于全局優(yōu)先圖排序算法和局部優(yōu)先圖排序算法的優(yōu)化結合框架,考慮到句子之間跨時間的依賴關系以及同時間下的相互依賴關系。其中,跨時間依賴關系是通過一個時序投影函數(shù),將所有其他時間結點下的句子都投影到某個特定的時間平面上來加以建模的。第二種方式是一個基于約束條件下的迭代式句子替換框架,從一個句子集合中優(yōu)
7、選出最佳句子的子集合生成摘要:子摘要之間不是完全獨立的,而是通過鄰居子摘要來互相優(yōu)化互相精煉生成,反映出新聞演進式的特征。對于每一個子摘要,我們都從兩種角度去考量評價:一種是局部的,基于周圍鄰居時間結點;一種是全局的,基于全數(shù)據(jù)時間結點。
3.我們首次提出了視覺化演進式動態(tài)新聞文檔摘要的概念,并提出了針對視覺化摘要和基于迭代式互相增強算法框架的解決方法。給定某個新聞主題以及相關帶有時間標簽的文檔集,系統(tǒng)會生成一個帶視覺信息的演
8、進式動態(tài)新聞文檔摘要,其中分別包含文字部分以及圖片部分,兩個部分互為說明互為補充。每個子摘要代表著事件的發(fā)展過程,被全局信息的優(yōu)化條件所約束。在這里,圖片信息可以被用作提示句子摘要信息的線索,從而改變傳統(tǒng)文本摘要的生成方式,這一點將是非常有利的。對于視覺化演進式動態(tài)新聞文檔摘要的生成,我們使用了兩個異質數(shù)據(jù)流,其中圖片數(shù)據(jù)流在以往文檔摘要的生成方法中是往往被忽略了的。此外,由于我們要同時使用兩種異質數(shù)據(jù)流,我們需要通過翻譯模型來建立兩個
9、語義維度的橋梁跨越語義隔閡。對于每個子摘要而言都包含有兩個部分:文本部分和圖片部分。對圖片的選擇會影響到對文本的選擇,反之亦然。我們提出了一個有效的方式來保證這兩部分能夠很好的通過互相增強的方式匹配起來,并且通過全局-局部的約束,將各個子摘要的生成進行統(tǒng)一優(yōu)化。
4.我們提出了兩種可能整合到演進式動態(tài)新聞文檔摘要中的擴展特性。第一種是引入用戶個性化。因為用戶有著個人的喜好,所以可能對自己喜歡閱讀什么樣的內容具有某種傾向性,很明
10、顯的是對于所有用戶都生成一個一模一樣的摘要是不夠的。我們提出了一個交互式的摘要生成方法,允許用戶可以使用“點擊”和“查看”的方式來和摘要生成系統(tǒng)進行交互。人機交互的方式支持用戶點擊句子,并且查看該內容的來源文檔,提供了實時的偽相關反饋。這種隱式的“點擊日志”能反映出人們的興趣。由于用戶的點擊可能比較稀疏,我們使用了“點擊平滑”的方式來擴大點擊數(shù)據(jù)的影響。第二種可擴展的方向是引入大眾熱點信息,我們使用了Twitter網(wǎng)社交媒體的數(shù)據(jù)來捕獲
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于子主題增強的演化式多文檔摘要生成方法研究.pdf
- XML到OWL文檔生成方法研究.pdf
- 基于GPU的快速摘要生成方法.pdf
- 面向主題的Web文檔自動文摘生成方法研究.pdf
- 微博事件的圖文摘要生成方法研究.pdf
- 建筑生成方法研究
- 基于引文的英文文檔文摘自動生成方法研究.pdf
- 紅外紋理生成方法研究.pdf
- 基于單幅圖像的高動態(tài)范圍圖像生成方法研究.pdf
- 分布式組件軟件測試用例生成方法研究.pdf
- ISS結構自動生成方法研究.pdf
- 動態(tài)數(shù)據(jù)結構的測試數(shù)據(jù)自動生成方法研究.pdf
- 面向人像卡通的動態(tài)表情自動生成方法
- 支持動態(tài)服務聚合的融合業(yè)務生成方法的研究與實現(xiàn).pdf
- 視頻海報自動生成方法.pdf
- 農(nóng)業(yè)領域云本體生成方法研究.pdf
- 跨模態(tài)人臉圖像生成方法研究.pdf
- 構件測試腳本生成方法研究.pdf
- 曲線字庫自動生成方法的研究.pdf
- 簡筆畫的自動生成方法研究.pdf
評論
0/150
提交評論