基于LDA的國(guó)內(nèi)數(shù)字圖書(shū)館研究主題發(fā)現(xiàn)與演化.pdf_第1頁(yè)
已閱讀1頁(yè),還剩62頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、由于科學(xué)技術(shù)的快速發(fā)展、文獻(xiàn)出版周期的大大縮短,文獻(xiàn)成果目前呈現(xiàn)數(shù)量龐大、主題多樣的特點(diǎn),在這樣情況下,如何快速獲取當(dāng)前領(lǐng)域的研究熱點(diǎn)、把握研究趨勢(shì)是擺在科研工作者及科研部門面前亟待解決的問(wèn)題,也是數(shù)字圖書(shū)館需要解決的難題。數(shù)字圖書(shū)館作為知識(shí)經(jīng)濟(jì)實(shí)現(xiàn)的基礎(chǔ)設(shè)施,是國(guó)民經(jīng)濟(jì)運(yùn)行不可缺少的必要條件;同時(shí)作為社會(huì)的公共信息存儲(chǔ)中心、信息中轉(zhuǎn)站,數(shù)字圖書(shū)館為社會(huì)公眾提供綜合的信息服務(wù),發(fā)揮著素質(zhì)教育、文化保護(hù)與傳播的作用。數(shù)字圖書(shū)館自上世紀(jì) 9

2、0 年代提出并付諸實(shí)施以來(lái),經(jīng)歷了近 20 年的理論研究及其實(shí)踐發(fā)展,現(xiàn)已進(jìn)入相對(duì)成熟的階段,對(duì)其學(xué)術(shù)成果進(jìn)行主題分析,將有助于發(fā)現(xiàn)學(xué)術(shù)發(fā)展脈絡(luò)、學(xué)術(shù)熱點(diǎn)及學(xué)術(shù)發(fā)展趨勢(shì),有利于學(xué)者尋找新的研究切入點(diǎn),也有助于延續(xù)和提升數(shù)字圖書(shū)館生命力與活力。LDA(Latent Dirichlet Allocation)作為一種經(jīng)典有效的概率生成模型,包含文本-主題-詞項(xiàng)三層貝葉斯結(jié)構(gòu),能挖掘出文本中的潛在語(yǔ)義信息,已在文本分類、信息檢索、情感分析、話

3、題挖掘等領(lǐng)域廣泛應(yīng)用,在科技文獻(xiàn)主題發(fā)現(xiàn)與演化研究中的作用也日益凸顯。同時(shí),科技文獻(xiàn)中的題目、摘要、關(guān)鍵詞是一篇文獻(xiàn)的重要組成部分,通常代表了作者對(duì)文章內(nèi)容要點(diǎn)的濃縮和總結(jié),在進(jìn)行文獻(xiàn)主題分析時(shí)能發(fā)揮巨大作用。遺憾的是,現(xiàn)有數(shù)字圖書(shū)館相關(guān)主題研究未能重視和利用這些元素。本文利用LDA模型對(duì)2007-2016近十年的國(guó)內(nèi)數(shù)字圖書(shū)館研究論文進(jìn)行內(nèi)容挖掘,分析其主題結(jié)構(gòu),揭示熱點(diǎn)主題及主題演化過(guò)程,最后結(jié)合實(shí)際背景對(duì)演化結(jié)果進(jìn)行討論,以期為數(shù)

4、字圖書(shū)館的相關(guān)研究及工作開(kāi)展提供參考與支持,進(jìn)而促進(jìn)數(shù)字圖書(shū)館的健康發(fā)展。
  具體內(nèi)容如下:(1)總結(jié)現(xiàn)有的主題識(shí)別演化分析方法,從基本原理、研究現(xiàn)狀、優(yōu)缺點(diǎn)等方面對(duì)這些方法進(jìn)行詳細(xì)分析。對(duì)利用LDA進(jìn)行建模的完整過(guò)程進(jìn)行研究(其中包括:Gibbs參數(shù)估計(jì)方法、最優(yōu)主題數(shù)確定方法、基于信息熵的主題過(guò)濾技術(shù)、熱點(diǎn)主題選取方法、后離散主題演化方式以及主題演化度量方法等)。將其中關(guān)鍵問(wèn)題進(jìn)行提煉研究,在此基礎(chǔ)上提出了一種基于主題強(qiáng)度聚

5、類的主題趨勢(shì)的識(shí)別分析方法。(2)選取國(guó)內(nèi)數(shù)字圖書(shū)館2007-2016十年的期刊論文,引入時(shí)間因素,運(yùn)用LDA對(duì)其進(jìn)行主題演化分析,識(shí)別出數(shù)字圖書(shū)館研究的主題結(jié)構(gòu)(用戶研究、建設(shè)對(duì)策、評(píng)價(jià)研究、信息服務(wù)、教育與培訓(xùn)、知識(shí)管理、資源組織、資源共享、版權(quán)研究、移動(dòng)圖書(shū)館、資源存儲(chǔ)與安全、領(lǐng)域研究述評(píng)、應(yīng)用技術(shù)研究、云計(jì)算下的數(shù)字圖書(shū)館),可以作為數(shù)字圖書(shū)館研究人員以及數(shù)字圖書(shū)館管理人員、建設(shè)人員的決策實(shí)施參考方案。(3)利用上述同樣數(shù)據(jù),通

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論