版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、隨著網(wǎng)絡(luò)技術(shù)的日新月異,Web上的信息量也在飛速增長。Web已經(jīng)成為一個(gè)巨大的數(shù)據(jù)源,擁有著海量的數(shù)據(jù)。這些數(shù)據(jù)中蘊(yùn)含著大量有價(jià)值的實(shí)體事件,對人們的工作和社會的生產(chǎn)具有舉足輕重的作用。對Web上的實(shí)體事件進(jìn)行充分的挖掘和分析,能夠獲取豐富的知識,在市場情報(bào)分析、輿情分析、電子商務(wù)、商業(yè)智能等領(lǐng)域具有十分重要的意義。但是Web是一個(gè)自由和開放的空間,Web實(shí)體事件來自不同的數(shù)據(jù)源,Web數(shù)據(jù)源具有自治性強(qiáng)的特點(diǎn),發(fā)布信息相對隨意,再加上
2、自然語言也具有自由靈活的特點(diǎn),同一實(shí)體事件采用不同的表述方式是一種極其常見的現(xiàn)象。這給實(shí)體事件的發(fā)現(xiàn)分析工作帶來了極大的困難,也給搜索信息的用戶和決策者帶來了很大的困擾。
為了讓用戶獲得簡潔、準(zhǔn)確、無重復(fù)的實(shí)體事件信息,就需要對來自不同數(shù)據(jù)源的實(shí)體事件表象進(jìn)行重復(fù)檢測,這也是Web實(shí)體事件發(fā)現(xiàn)研究領(lǐng)域的重要子任務(wù)。要實(shí)現(xiàn)以上目標(biāo),就必須解決以下兩個(gè)關(guān)鍵問題:(1)實(shí)體事件表象的重復(fù)檢測。對來自不同數(shù)據(jù)源的實(shí)體事件表象進(jìn)行重復(fù)檢
3、測,識別同一實(shí)體事件的多種表象,即將來自不同數(shù)據(jù)源的表意相同、表達(dá)方式不同的實(shí)體事件表象識別出來。(2)實(shí)體事件的重復(fù)檢測。實(shí)體事件是由重復(fù)的實(shí)體事件表象組成的集合表示的,經(jīng)過實(shí)體事件表象的重復(fù)檢測之后,實(shí)體事件之間仍然可能存在重復(fù),需要進(jìn)一步識別實(shí)體事件之間的重復(fù)現(xiàn)象。
本文對不同的實(shí)體事件表象、實(shí)體事件之間的關(guān)系進(jìn)行了研究,以Web實(shí)體事件重復(fù)檢測為目標(biāo),針對以上兩個(gè)待解決的關(guān)鍵問題展開研究,探索了實(shí)體事件表象的重復(fù)檢測和
4、實(shí)體事件的重復(fù)檢測兩方面的問題,主要工作與研究內(nèi)容如下:
(1)針對實(shí)體事件表象的重復(fù)問題,根據(jù)商業(yè)領(lǐng)域中,同一時(shí)間、同一地點(diǎn),一個(gè)特定的主體只能參加一個(gè)活動這一個(gè)規(guī)律,本文提出了“基于動態(tài)權(quán)重的線性組合方法”。將實(shí)體事件表象對的時(shí)間、地點(diǎn)、主體三個(gè)主要屬性,以及其他輔助屬性進(jìn)行相似度計(jì)算,并利用屬性相似度計(jì)算出動態(tài)權(quán)重,然后利用各個(gè)屬性的相似度得分和動態(tài)權(quán)重求出實(shí)體事件表象對的相似度得分。最后將實(shí)體事件表象對的相似度得分與特
5、定的閾值進(jìn)行比較,對實(shí)體事件表象對是否重復(fù)做出判斷。實(shí)驗(yàn)結(jié)果表明,該方法相對于其他方法能夠獲得較高的F-measure值,有效的解決了實(shí)體事件表象的重復(fù)問題。
(2)實(shí)體事件由重復(fù)的實(shí)體事件表象組成的集合表示,不同的實(shí)體事件之間也可能存在重復(fù)。因此,在基于動態(tài)權(quán)重的線性組合方法的基礎(chǔ)之上,本文進(jìn)一步提出了兩種實(shí)體事件重復(fù)檢測的方法:基于實(shí)體事件屬性的重復(fù)檢測方法和基于實(shí)體事件關(guān)系的重復(fù)檢測方法,用以解決不同實(shí)體事件之間的重復(fù)問
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 基于領(lǐng)域本體的Web實(shí)體事件抽取問題研究.pdf
- 不確定數(shù)據(jù)的重復(fù)檢測及清洗研究.pdf
- 大規(guī)模視頻集中的近重復(fù)檢測.pdf
- 源代碼重復(fù)檢測系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn).pdf
- 音頻樣例優(yōu)選與重復(fù)檢測方法.pdf
- [教育]有關(guān)檢測的咨詢:重復(fù)檢測msm的新方法-powerpointpresenta
- 基于局部關(guān)鍵點(diǎn)特征的視頻近重復(fù)檢測算法研究.pdf
- 基于音頻指紋的多媒體數(shù)據(jù)庫重復(fù)檢測技術(shù)研究.pdf
- Web數(shù)據(jù)集成中實(shí)體演化與關(guān)聯(lián)問題研究.pdf
- Web實(shí)體活動與實(shí)體關(guān)系抽取研究.pdf
- Web數(shù)據(jù)集成中實(shí)體統(tǒng)一問題研究.pdf
- Web中相關(guān)實(shí)體發(fā)現(xiàn)研究.pdf
- 基于Web的事件檢測與評價(jià)系統(tǒng)的研究分析.pdf
- 基于web的事件檢測與評價(jià)系統(tǒng)的研究分析
- Web實(shí)體間關(guān)系發(fā)現(xiàn).pdf
- 56014.組合信息的重復(fù)檢查方法及并行化實(shí)現(xiàn)研究
- [學(xué)習(xí)]獨(dú)立重復(fù)事件概率-理科
- 重復(fù)問題
- 領(lǐng)域?qū)嶓w屬性及事件抽取技術(shù)研究.pdf
- Web事件關(guān)聯(lián)關(guān)系挖掘研究.pdf
評論
0/150
提交評論