命名實體識別在方志內容挖掘中的應用研究——以廣東、福建、臺灣三省《方志物產》為例_7696.pdf_第1頁
已閱讀1頁,還剩153頁未讀 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、中國方志類古籍起源早、持續(xù)久、類型全、數量多。據《中國地方志聯合目錄》的統計,僅保存至今的宋至民國時期的方志就有8264種,11萬余卷,占中國古籍的十分之一左右。整理和使用方志資料,是我國歷史上的一個優(yōu)良傳統。《方志物產》是20世紀50年代,我國著名農史學家、中國農史學科主要創(chuàng)始人之一的萬國鼎先生,組織數十人歷時6年,人工摘抄方志整理的專題性資料。該方志資料詳細記載了物產的名稱、性能、作用及分布情況,具有極高的農業(yè)科技和經濟史料價值。信

2、息技術日益發(fā)展的今天,如何利用現代信息技術整理方志資料,降低開發(fā)利用的難度,已成為一個十分現實的課題。本文將以《方志物產》為基礎,探索方志類古籍整理的新方法,
   首先從方志整理的主要內容、基本手段、現有成果三方面論述方志的整理,詳細介紹《方志物產》的緣起及其手工整理和數字化整理的過程,分析目前方志整理存在的問題,進而引出本研究的目的和意義;其次從命名實體識別的概念和作用、識別的任務、中文命名實體識別的特點和難點等方面闡述命名

3、實體識別的基本語言學知識,重點討論命名實體識別的方法,對目前國內外已有的相關研究作總結;然后結合方志類古籍的特點以及《方志物產》中地名的特點,制定《方志物產》地名識別方法.
   以廣東、福建和臺灣三省《方志物產》為例,構建《方志物產》地名識別系統,通過對地名識別結果的統計分析,進行《方志物產》內容挖掘。主要研究內容如下:
   (1)《方志物產》地名識別系統的設計和構建。該系統包括全文數據庫和地名識別子系統兩大功能模塊

4、。
   全文數據庫構建,從三省《方志物產》物產敘述格式的特點出發(fā),借鑒前人分析、提取的統一行文格式,對三省《方志物產》文本格式作規(guī)范處理,并以此為據設計數據庫結構。全文數據庫具有全文檢索、關鍵詞檢索、聚類檢索和數據統計等功能.
   物產地名識別子系統,采用規(guī)則與統計相結合的命名實體識別方法,結合方志類古籍自身的特點,實現物產地名的自動識別。物產地名識別子系統具有規(guī)則管理、地名識別、地名庫修正、信息統計四大功能。經測試

5、,該系統能夠滿足相關研究人員在方志類古籍領域進行古籍檢索和知識發(fā)現的需要。系統的識別效果可通過規(guī)則的不斷完善得以逐步優(yōu)化。
   (2)《方志物產》的物產研究
   按歷史時期、志書類型、地域位置對廣東、福建、臺灣三省《方志物產》的全部載述物產進行統計和分析。按歷史時期統計分析的結果表明:從明代到清代再到民國時期,平均每部志書記載物產的數量呈遞增趨勢。按志書類型統計分析的結果表明:從通志到府志再到縣志,平均每部志書所載物

6、產的數量呈遞減趨勢。按地域位置統計分析的結果表明:廣東、福建、臺灣三省《方志物產》記述的不僅是這三省的物產,還包括海南省全部和廣西部分地域的物產。
   (3)基于物產地名的《方志物產》內容挖掘研究,包括全部正確地名的統計分析、各省物產分布、物產傳播和外來物產引進研究。
   全部正確地名的統計分析,基于7179條有效地名識別記錄。各省《方志物產》地名識別結果分別按省內地名、省外地名、國外地名和寬泛地名分類統計。統計分析

7、的結果表明:相比其他兩省,臺灣省同外界的物產交流、傳播相對更為廣泛。
   各省物產分布研究,基于相關統計數據,詳細分析了廣東、福建、臺灣三省物產的具體分布情況,并利用ArcGIS軟件繪制物產分布專題地圖,全面、直觀地顯示相:關內容。研究結果表明:決定一個地域物產多樣性的主要因素有兩點,一是該地域的自然因素,包括其地理位置、自然環(huán)境和氣候條件;二是該地域的人文因素.包括人類對自然資源的開發(fā)與利用、外來物產的引進和傳播。
 

8、  各省物產傳播研究,基于相關統計數據,詳細分析了廣東、福建、臺灣三省物產的傳播概況,同樣利用ArcGIS軟件繪制專題地圖,進行全面、直觀的顯示。研究結果表明:地區(qū)間物產交流和傳播的廣度隨地區(qū)間距離的擴大呈遞減趨勢。距離越遠,物產交流和傳播相對越少。
   各省外來物產引進研究,基于相關統計數據,分析、比較了廣東、福建、臺灣三省外來物產的引進概況。研究表明:促進物產引進和傳播的原因有兩點,一是地區(qū)間的貿易往來。二是殖民侵略和戰(zhàn)

9、爭。
   (4)基于識別規(guī)則的《方志物產》內容挖掘研究,包括全部識別規(guī)則的統計分析、物產分布比較研究、物產引進和傳播途徑研究。
   全部識別規(guī)則的統計分析,同樣基于7179條有效地名識別記錄。根據規(guī)則表達的含義,將識別規(guī)則分為識別物產分布地名的規(guī)則和識別物產引進傳播地名的規(guī)則兩類,各類分別加以統計。
   物產分布比較研究,基于識別規(guī)則的相關統計數據,挖掘出志書對物產原產地、分布地、各地物產孰優(yōu)孰劣、孰多孰少

10、等相關內容的描述,進而歸納出部分物產的原產地、優(yōu)產地和高產地。
   物產引進和傳播途徑研究,基于識別規(guī)則的分類統計數據,總結出明清時期外來物產引進和傳播的主要途徑:一是對外貿易,二是朝貢,三是朝廷使者或僧侶傳入。
   總而言之,本文以農史資料《方志物產》為語料,將信息組織的理論、方法借助于命名實體識別技術實現《方志物產》的地名識別,通過對識別結果的文獻計量學分析,進行《方志物產》內容挖掘研究,旨在探索一種基于內容的古

11、籍整理新方法。本研究所做的主要工作和貢獻在于:
   (1)將命名實體識別相關理論和方法嘗試應用于方志類古籍文獻,用來識別、挖掘方志文獻中的地名;
   (2)運用文獻計量學方法,分析《方志物產》地名識別結果中的物產名、物產地名和識別規(guī)則,獲得物產分布、物產引進和傳播等相關知識,實現基于內容的古籍數字化整理;
   (3)借助GIS專題地圖,直觀顯示《方志物產》中物產分布、物產引進和傳播等知識內容,突破傳統的文字

12、表達模式,使方志類古籍這一歷史文化資源的時空特性得以充分揭示。
   命名實體包括人名、地名、組織機構名等,本文重點是對廣東、福建和臺灣三省《方志物產》中的地名進行識別,其他的諸如志書名稱、成書年代、物產名稱等命名:實體是文檔處理過程中采用機器輔助粗分出來的。今后可通過修改或重新錄入、組織規(guī)則,實現對其他省份的方志資料,或其他類型的古籍資料進行地名以外的人名、官職名、機構名等其他命名實體的識別研究,以求從多角度挖掘和利用古籍資料

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論