Web實(shí)體事件重復(fù)檢測問題研究.pdf_第1頁
已閱讀1頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、隨著網(wǎng)絡(luò)技術(shù)的日新月異,Web上的信息量也在飛速增長。Web已經(jīng)成為一個(gè)巨大的數(shù)據(jù)源,擁有著海量的數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含著大量有價(jià)值的實(shí)體事件,對人們的工作和社會的生產(chǎn)具有舉足輕重的作用。對Web上的實(shí)體事件進(jìn)行充分的挖掘和分析,能夠獲取豐富的知識,在市場情報(bào)分析、輿情分析、電子商務(wù)、商業(yè)智能等領(lǐng)域具有十分重要的意義。但是Web是一個(gè)自由和開放的空間,Web實(shí)體事件來自不同的數(shù)據(jù)源,Web數(shù)據(jù)源具有自治性強(qiáng)的特點(diǎn),發(fā)布信息相對隨意,再加上

2、自然語言也具有自由靈活的特點(diǎn),同一實(shí)體事件采用不同的表述方式是一種極其常見的現(xiàn)象。這給實(shí)體事件的發(fā)現(xiàn)分析工作帶來了極大的困難,也給搜索信息的用戶和決策者帶來了很大的困擾。
  為了讓用戶獲得簡潔、準(zhǔn)確、無重復(fù)的實(shí)體事件信息,就需要對來自不同數(shù)據(jù)源的實(shí)體事件表象進(jìn)行重復(fù)檢測,這也是Web實(shí)體事件發(fā)現(xiàn)研究領(lǐng)域的重要子任務(wù)。要實(shí)現(xiàn)以上目標(biāo),就必須解決以下兩個(gè)關(guān)鍵問題:(1)實(shí)體事件表象的重復(fù)檢測。對來自不同數(shù)據(jù)源的實(shí)體事件表象進(jìn)行重復(fù)檢

3、測,識別同一實(shí)體事件的多種表象,即將來自不同數(shù)據(jù)源的表意相同、表達(dá)方式不同的實(shí)體事件表象識別出來。(2)實(shí)體事件的重復(fù)檢測。實(shí)體事件是由重復(fù)的實(shí)體事件表象組成的集合表示的,經(jīng)過實(shí)體事件表象的重復(fù)檢測之后,實(shí)體事件之間仍然可能存在重復(fù),需要進(jìn)一步識別實(shí)體事件之間的重復(fù)現(xiàn)象。
  本文對不同的實(shí)體事件表象、實(shí)體事件之間的關(guān)系進(jìn)行了研究,以Web實(shí)體事件重復(fù)檢測為目標(biāo),針對以上兩個(gè)待解決的關(guān)鍵問題展開研究,探索了實(shí)體事件表象的重復(fù)檢測和

4、實(shí)體事件的重復(fù)檢測兩方面的問題,主要工作與研究內(nèi)容如下:
  (1)針對實(shí)體事件表象的重復(fù)問題,根據(jù)商業(yè)領(lǐng)域中,同一時(shí)間、同一地點(diǎn),一個(gè)特定的主體只能參加一個(gè)活動這一個(gè)規(guī)律,本文提出了“基于動態(tài)權(quán)重的線性組合方法”。將實(shí)體事件表象對的時(shí)間、地點(diǎn)、主體三個(gè)主要屬性,以及其他輔助屬性進(jìn)行相似度計(jì)算,并利用屬性相似度計(jì)算出動態(tài)權(quán)重,然后利用各個(gè)屬性的相似度得分和動態(tài)權(quán)重求出實(shí)體事件表象對的相似度得分。最后將實(shí)體事件表象對的相似度得分與特

5、定的閾值進(jìn)行比較,對實(shí)體事件表象對是否重復(fù)做出判斷。實(shí)驗(yàn)結(jié)果表明,該方法相對于其他方法能夠獲得較高的F-measure值,有效的解決了實(shí)體事件表象的重復(fù)問題。
  (2)實(shí)體事件由重復(fù)的實(shí)體事件表象組成的集合表示,不同的實(shí)體事件之間也可能存在重復(fù)。因此,在基于動態(tài)權(quán)重的線性組合方法的基礎(chǔ)之上,本文進(jìn)一步提出了兩種實(shí)體事件重復(fù)檢測的方法:基于實(shí)體事件屬性的重復(fù)檢測方法和基于實(shí)體事件關(guān)系的重復(fù)檢測方法,用以解決不同實(shí)體事件之間的重復(fù)問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論