版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
1、<p> 面向論文相似性檢測(cè)的數(shù)據(jù)預(yù)處理研究</p><p> 劉伙玉1,3 王東波2 </p><p> 1(南京大學(xué)信息管理學(xué)院 江蘇南京 210023)</p><p> 2(南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院 江蘇南京 210095) </p><p> 3(江蘇省數(shù)據(jù)工程與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室 江蘇南京 210023)&
2、lt;/p><p> 摘要:【目的】探究論文相似性檢測(cè)中數(shù)據(jù)預(yù)處理的數(shù)據(jù)問(wèn)題及相關(guān)方法。【方法】對(duì)數(shù)據(jù)預(yù)處理中的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換和數(shù)據(jù)歸約進(jìn)行概述;對(duì)數(shù)據(jù)進(jìn)行了細(xì)致的分析,采用基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于語(yǔ)義的方法進(jìn)行預(yù)處理?!窘Y(jié)果】揭示了論文相似性檢測(cè)中原始數(shù)據(jù)存在的數(shù)據(jù)質(zhì)量問(wèn)題,并在此基礎(chǔ)上給出了數(shù)據(jù)預(yù)處理模型?!窘Y(jié)論】</p><p> 數(shù)據(jù)預(yù)處理有助于提高論文相
3、似性檢測(cè)結(jié)果的準(zhǔn)確性;有效結(jié)合基于規(guī)則、統(tǒng)計(jì)、語(yǔ)義的三種方法有助于提高數(shù)據(jù)預(yù)處理效果。</p><p> 關(guān)鍵詞:相似性檢測(cè);抄襲檢測(cè);數(shù)據(jù)預(yù)處理;數(shù)據(jù)質(zhì)量;數(shù)據(jù)清洗</p><p> 分類號(hào):TP311.13</p><p> Research and Implementation of Data Preprocessing Oriented to Pape
4、r Similarity Detection</p><p> LIU Huoyu1,3 WANG Dongbo2</p><p> 1(School of Information Management, Nanjing University, Nanjing 210023, China)</p><p> 2(College of Information a
5、nd Technology, Nanjing Agricultural University, Nanjing 210095, China)</p><p> 3(Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China)</p><p> ABSTRACT:[Obje
6、ctive] Explore the data issues and methods of data preprocessing on paper similarity detection. [Methods] This article firstly summarizes data cleaning、data integration、data transformation and data reduction; It makes a
7、deep analysis to original data, and briefly introduces three data preprocessing methods: The rule-based method, the statistics-based method and semantic-based method. [Results] There are many data problems in the origina
8、l data, based on which it describes the model </p><p> KEY WORDS: Similarity Detection; Plagiarism Detection; Data Preprocessing; Data Quality; Data Cleaning</p><p><b> 1 引言</b><
9、;/p><p> 1.1 研究背景與意義</p><p> 隨著云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,以博客(微博)、社交網(wǎng)絡(luò)為代表的新型信息發(fā)布方式的不斷涌現(xiàn),計(jì)算機(jī)信息系統(tǒng)在各行各業(yè)的普及,數(shù)據(jù)種類和規(guī)模正以前所未有的速度在增長(zhǎng)和累積[1]。大數(shù)據(jù)時(shí)代的到來(lái),使得各行各業(yè)的決策也從“業(yè)務(wù)驅(qū)動(dòng)”開(kāi)始向“數(shù)據(jù)驅(qū)動(dòng)”轉(zhuǎn)變,從海量的數(shù)據(jù)中獲取潛在的有價(jià)值的信息也成為學(xué)術(shù)、商業(yè)、軍事等領(lǐng)域關(guān)注的重中之重。
10、然而紛繁復(fù)雜的數(shù)據(jù)往往都存在著大量質(zhì)量問(wèn)題,這將直接影響數(shù)據(jù)的信息服務(wù)質(zhì)量;因此大數(shù)據(jù)分析離不開(kāi)數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理,高質(zhì)量的數(shù)據(jù)和有效的數(shù)據(jù)管理,都是保證分析結(jié)果的真實(shí)和有價(jià)值的必要手段。由此需要對(duì)海量數(shù)據(jù)中存在的粗糙的、不合時(shí)宜的數(shù)據(jù)進(jìn)行預(yù)處理,將非清潔數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量的符合要求的數(shù)據(jù),這對(duì)于保證數(shù)據(jù)分析結(jié)果的準(zhǔn)確性和有價(jià)值性具有重要意義。</p><p><b> 1.2 研究?jī)?nèi)容</b&g
11、t;</p><p> 相似性檢測(cè)(Similarity detection)就是判斷一個(gè)文件(包括文檔、圖像、音頻、視頻等文件)的內(nèi)容與其他某個(gè)或多個(gè)文件是否相似并根據(jù)檢測(cè)結(jié)果給出一個(gè)相似度的數(shù)值表示。按照其檢測(cè)的對(duì)象,可以分為文檔、圖像、音頻、視頻相似性檢測(cè)等。文檔相似性檢測(cè)又可分程序或代碼相似性檢測(cè)和自然語(yǔ)言文本相似性檢測(cè)[2]。論文相似性檢測(cè)屬于自然語(yǔ)言相似性檢測(cè)中的一種,就是判斷一篇論文的內(nèi)容是否與其
12、他某篇或多篇論文相似,給出相似度結(jié)果,進(jìn)而判斷該論文是否抄襲、剽竊或復(fù)制于其他論文。由于學(xué)術(shù)論文中可能會(huì)出現(xiàn)程序代碼、圖片等內(nèi)容,因此論文相似性檢測(cè)過(guò)程中也需運(yùn)用到程序和圖像相似性檢測(cè)技術(shù)。</p><p> 國(guó)內(nèi)外對(duì)于論文相似性檢測(cè)的研究主要分為以下幾類:論文抄襲的理論分析研究、論文相似性檢測(cè)系統(tǒng)設(shè)計(jì)、論文相似性檢測(cè)算法研究等。</p><p> 自然語(yǔ)言文本相似性檢測(cè)的研究始于20
13、世紀(jì)90年代,自1991年Richard采用關(guān)鍵詞匹配算法開(kāi)發(fā)Word Check[3]后研究取得了較大的進(jìn)展后,出現(xiàn)多個(gè)抄襲檢測(cè)系統(tǒng)。目前針對(duì)文本相似度問(wèn)題學(xué)者提出的檢測(cè)方法主要有基于統(tǒng)計(jì)學(xué)和基于語(yǔ)義理解的相似度計(jì)算方法。然而由于論文相似性檢測(cè)對(duì)象的特殊性,其算法也有相應(yīng)的特殊性;國(guó)內(nèi)學(xué)者提出了相應(yīng)的算法,包括金博等[4]提出的基于篇章結(jié)構(gòu)相似度算法,王森等[5]提出的基于文本結(jié)構(gòu)樹(shù)的檢測(cè)算法,秦玉平[6]、趙俊杰[7]提出的基于局部
14、詞頻、段落詞頻的檢測(cè)算法,趙俊杰等[8]提出的基于自動(dòng)文摘的論文抄襲檢測(cè)算法等。</p><p> 目前關(guān)于數(shù)據(jù)預(yù)處理的研究已經(jīng)很成熟,這方面的研究成果也較多。數(shù)據(jù)預(yù)處理一般包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約四個(gè)方面,每個(gè)方面都有不同的技術(shù)手段,本文在第二部分?jǐn)?shù)據(jù)預(yù)處理簡(jiǎn)述中有較為詳細(xì)的闡述。數(shù)據(jù)預(yù)處理技術(shù)應(yīng)用在廣泛的領(lǐng)域,如生物、物理、化學(xué)、地質(zhì)科學(xué)等,同時(shí)在大數(shù)據(jù)時(shí)代其重要性更加突顯,如在數(shù)據(jù)挖掘[
15、9]、web日志挖掘[10]、數(shù)據(jù)倉(cāng)庫(kù)[11]等方面的應(yīng)用。</p><p> 然而目前論文相似性檢測(cè)的研究主要集中于相似性檢測(cè)核心階段,著眼于相似性檢測(cè)算法的研究與探討以及系統(tǒng)的開(kāi)發(fā),而忽視了對(duì)數(shù)據(jù)預(yù)處理的研究。面向論文相似性檢測(cè)的數(shù)據(jù)預(yù)處理方面的研究相對(duì)較少,在文獻(xiàn)[12]中采用XML技術(shù)對(duì)數(shù)字報(bào)刊中的數(shù)據(jù)進(jìn)行存儲(chǔ),并對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化、消除重復(fù)項(xiàng)、補(bǔ)全缺失數(shù)據(jù)等處理,但未涉及到對(duì)具體的學(xué)術(shù)論文進(jìn)行結(jié)構(gòu)化處理
16、以及其他針對(duì)性的處理。在學(xué)術(shù)論文構(gòu)成要素識(shí)別與抽取方面較多采用機(jī)器學(xué)習(xí)的方法[13,14],未涉及到其他數(shù)據(jù)質(zhì)量問(wèn)題的預(yù)處理。</p><p> 本文正是基于以上內(nèi)容,重點(diǎn)針對(duì)論文相似性檢測(cè)中的數(shù)據(jù)預(yù)處理進(jìn)行了分析與研究。數(shù)據(jù)預(yù)處理是論文相似性檢測(cè)前的數(shù)據(jù)準(zhǔn)備工作,它以領(lǐng)域知識(shí)作為指導(dǎo),用新的數(shù)據(jù)模型來(lái)組織原始數(shù)據(jù),擯棄與相似性檢測(cè)無(wú)關(guān)的要素,調(diào)整數(shù)據(jù)格式和內(nèi)容,一方面使得數(shù)據(jù)更符合檢測(cè)算法的需要,也減少了檢測(cè)
17、內(nèi)核的數(shù)據(jù)處理量,提高了檢測(cè)效率;另一方面也提高了相似性檢測(cè)結(jié)果的準(zhǔn)確度和可信度。</p><p><b> 2數(shù)據(jù)預(yù)處理簡(jiǎn)述</b></p><p> 現(xiàn)實(shí)中的數(shù)據(jù)不可避免的存在冗余數(shù)據(jù)、缺失數(shù)據(jù)、不確定數(shù)據(jù)、不一致數(shù)據(jù)等諸多情況,這樣的數(shù)據(jù)我們稱之為“臟數(shù)據(jù)”,它們成為數(shù)據(jù)挖掘、信息分析等領(lǐng)域的一大障礙?!芭K數(shù)據(jù)”的存在,將會(huì)影響數(shù)據(jù)分析結(jié)果的準(zhǔn)確性, 誤導(dǎo)決
18、策,影響信息服務(wù)的質(zhì)量。因此,在這些“臟數(shù)據(jù)”被使用之前必須對(duì)它進(jìn)行預(yù)處理,消除冗余數(shù)據(jù),彌補(bǔ)缺失數(shù)據(jù),糾正錯(cuò)誤數(shù)據(jù)等等,使得數(shù)據(jù)達(dá)到進(jìn)行知識(shí)獲取研究所要求的標(biāo)準(zhǔn)。數(shù)據(jù)預(yù)處理主要包括四個(gè)方面的內(nèi)容:數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)歸約。</p><p> 數(shù)據(jù)清洗的范疇在微觀層面分為單數(shù)據(jù)源、多數(shù)據(jù)源,分別體現(xiàn)在模式層和實(shí)例層上[15]。單數(shù)據(jù)源的問(wèn)題集中體現(xiàn)在拼寫(xiě)錯(cuò)誤的數(shù)據(jù)、相似重復(fù)數(shù)據(jù)及非關(guān)聯(lián)數(shù)據(jù)(孤立數(shù)
19、據(jù))等;多數(shù)據(jù)源的問(wèn)題則反映在時(shí)間的不一致、粒度的不一致,如圖2-1所示。</p><p> 圖2-1 數(shù)據(jù)清洗的范疇</p><p> 數(shù)據(jù)集成主要有兩種方式,一種是物理集成,就是把不同數(shù)據(jù)源中的數(shù)據(jù)合并到一個(gè)統(tǒng)一的數(shù)據(jù)源中;另一種是邏輯集成,這種方式不改變數(shù)據(jù)的物理位置,只在有需要時(shí)進(jìn)行數(shù)據(jù)抽取,提供虛擬的全局視圖。無(wú)論使用何種數(shù)據(jù)集成方式,都需要考慮到很多問(wèn)題,如實(shí)體識(shí)別問(wèn)題、冗
20、余問(wèn)題、數(shù)據(jù)值沖突的檢測(cè)與處理等??傊?,數(shù)據(jù)集成的目的就是將分布在不同數(shù)據(jù)源中的數(shù)據(jù)進(jìn)行整合,最終以一個(gè)統(tǒng)一的視圖提供給用戶使用[16]。</p><p> 數(shù)據(jù)源中的數(shù)據(jù)不一定符合我們最終數(shù)據(jù)分析算法的要求,在數(shù)據(jù)類型和數(shù)據(jù)格式上都可能存在不一致性,因此需要數(shù)據(jù)變換。數(shù)據(jù)變換的目的就是將數(shù)據(jù)轉(zhuǎn)換或統(tǒng)一成符合算法分析要求的數(shù)據(jù)。數(shù)據(jù)變換主要涉及的內(nèi)容包括[16-18]:光滑、數(shù)據(jù)規(guī)范化、數(shù)據(jù)泛化、數(shù)據(jù)聚集、屬性
21、構(gòu)造、離散化。</p><p> 當(dāng)把不同數(shù)據(jù)源的數(shù)據(jù)集成到一起時(shí)會(huì)發(fā)現(xiàn)數(shù)據(jù)量相當(dāng)大,處理起來(lái)將會(huì)耗費(fèi)較長(zhǎng)時(shí)間,甚至?xí)沟梅治鲎兊貌滑F(xiàn)實(shí)或不可行,此時(shí)可以利用數(shù)據(jù)歸約技術(shù)在保證原數(shù)據(jù)完整性的前提下對(duì)數(shù)據(jù)進(jìn)行約簡(jiǎn)。常用的數(shù)據(jù)歸約方法有[18,19]:維歸約,也稱為屬性歸約,減少所考慮的隨機(jī)變量或?qū)傩缘膫€(gè)數(shù),主要方法有小波變換、主成分分析、屬性子集選擇等;數(shù)量歸約:也稱為數(shù)據(jù)塊歸約,實(shí)例約簡(jiǎn)等,是指用替代的、較小的
22、數(shù)據(jù)表示形式替換原數(shù)據(jù)。此外,在數(shù)據(jù)變換中使用的數(shù)據(jù)聚集、離散化、數(shù)據(jù)泛化方法也可以用于數(shù)據(jù)歸約。</p><p> 3論文相似性檢測(cè)中數(shù)據(jù)預(yù)處理的研究</p><p><b> 3.1 問(wèn)題的提出</b></p><p> 隨著互聯(lián)網(wǎng)和數(shù)字媒體技術(shù)的快速發(fā)展,人們獲取文獻(xiàn)資源的途徑也在發(fā)生巨大的變化,相比傳統(tǒng)購(gòu)買(mǎi)紙質(zhì)期刊的方式,人們更傾
23、向于直接從互聯(lián)網(wǎng)文獻(xiàn)全文數(shù)據(jù)庫(kù)中獲取資源。如今,數(shù)字化文獻(xiàn)服務(wù)領(lǐng)域發(fā)展迅猛,眾多組織機(jī)構(gòu)也在投入巨大資源開(kāi)發(fā)形式多樣的服務(wù);其中,論文相似性檢測(cè)服務(wù)是目前三大文獻(xiàn)資源提供商重點(diǎn)關(guān)注的服務(wù)之一。而需要對(duì)海量數(shù)據(jù)進(jìn)行相似性檢測(cè),首先涉及到的就是數(shù)字化文獻(xiàn)資源的加工,需要通過(guò)OCR或其他轉(zhuǎn)換軟件將PDF等格式的文獻(xiàn)資源進(jìn)行格式轉(zhuǎn)換,這可能會(huì)造成字符轉(zhuǎn)換錯(cuò)誤等一系列問(wèn)題。本文將重點(diǎn)針對(duì)由OCR軟件對(duì)學(xué)術(shù)論文轉(zhuǎn)換之后的TXT文檔所存在的數(shù)據(jù)問(wèn)題進(jìn)
24、行分析并提出數(shù)據(jù)預(yù)處理方案。</p><p> 筆者通過(guò)對(duì)大量原始TXT文檔進(jìn)行分析,初步確定了針對(duì)論文相似性檢測(cè)數(shù)據(jù)預(yù)處理的范疇(見(jiàn)圖3-1)。需要特別說(shuō)明的是,本文主要針對(duì)中文學(xué)術(shù)論文相似性檢測(cè)的數(shù)據(jù)。</p><p> 圖3-1 論文相似性檢測(cè)中數(shù)據(jù)預(yù)處理的范疇</p><p> 3.2 數(shù)據(jù)預(yù)處理模型的構(gòu)建</p><p>
25、本文根據(jù)論文相似性檢測(cè)中的數(shù)據(jù)預(yù)處理的范疇,給出了數(shù)據(jù)預(yù)處理模型(見(jiàn)圖3-2),詳細(xì)描述了原始文檔準(zhǔn)備-數(shù)據(jù)預(yù)處理-結(jié)果文檔輸出,最后將結(jié)果文檔交予相似性檢測(cè)階段的整個(gè)過(guò)程。接下來(lái)重點(diǎn)針對(duì)論文相似性檢測(cè)中特有的編碼問(wèn)題、要素劃分、亂碼問(wèn)題、段落合并的分析與處理進(jìn)行詳細(xì)闡述。</p><p> 圖3-2 論文相似性檢測(cè)中數(shù)據(jù)預(yù)處理模型</p><p> 3.2.1 編碼問(wèn)題</p&
26、gt;<p> 編碼問(wèn)題是信息處理的基本問(wèn)題,但是由于歷史、政治、文化等多方面的原因,現(xiàn)實(shí)中存在著大量不統(tǒng)一的編碼方式,造成在信息處理過(guò)程中出現(xiàn)信息丟失,轉(zhuǎn)換錯(cuò)誤、大段亂碼等問(wèn)題,只有充分了解與字符編碼標(biāo)準(zhǔn)相關(guān)的概念,進(jìn)行編碼的統(tǒng)一,才能便于信息的表示、傳輸、交換、處理、存儲(chǔ)、輸入及顯現(xiàn)。常見(jiàn)的編碼方式主要有:ASCII碼、ISO8859-1、GB2312、GBK、GB18030、Unicode、UTF。筆者處理的原始T
27、XT文檔主要的編碼方式有GB2312、GBK、Unicode、UTF-8、UTF-16等。</p><p> 在實(shí)際操作中,要想打開(kāi)一個(gè)文本文件,就必須知道它的編碼方式,否則用錯(cuò)誤的編碼方式解析,就會(huì)出現(xiàn)亂碼。編碼的轉(zhuǎn)換也必須建立在以正確的編碼方式解析一個(gè)文本文件的基礎(chǔ)上,否則也會(huì)出現(xiàn)亂碼現(xiàn)象。在論文相似性檢測(cè)中,一旦出現(xiàn)編碼問(wèn)題導(dǎo)致的亂碼,將會(huì)產(chǎn)生極其嚴(yán)重的后果,因?yàn)檫@種情況下,一般整個(gè)文件都會(huì)是亂碼,這就基
28、本意味著已經(jīng)失去進(jìn)行相似性檢測(cè)的必要性。因此在進(jìn)行相似性檢測(cè)之前必須對(duì)文件的編碼方式進(jìn)行轉(zhuǎn)換,這種轉(zhuǎn)換主要涉及兩個(gè)方面:從數(shù)據(jù)庫(kù)中導(dǎo)出文件時(shí)統(tǒng)一編碼方式,這是最有效的方式;在相似性檢測(cè)前的數(shù)據(jù)預(yù)處理階段對(duì)文件編碼方式進(jìn)行轉(zhuǎn)換。但在讀入文件階段必須事先獲取文件編碼方式,獲取的方法主要有兩種:由于文件最開(kāi)頭的三個(gè)字節(jié)中一般存儲(chǔ)著編碼信息,因此可編寫(xiě)程序自動(dòng)讀取文件頭信息來(lái)判斷編碼方式;或者依次使用不同的編碼方式解析文件,如果內(nèi)容正常顯示即可
29、判斷其編碼。</p><p> 3.2.2 要素劃分 </p><p> 學(xué)術(shù)論文一般都有其相對(duì)固定的組成要素,規(guī)范的學(xué)術(shù)論文包括兩個(gè)部分:前置部分和主體部分。前置部分是論文的一些重要屬性信息,例如標(biāo)題、分類號(hào)、摘要、關(guān)鍵詞等要素;論文的主體部分一般是以緒論引言開(kāi)始以結(jié)論結(jié)束,最后是參考文獻(xiàn)。每一要素都有其存在的特殊意義,如摘要是以提供文獻(xiàn)內(nèi)容梗概為目的,簡(jiǎn)明確切地介紹文章要點(diǎn);參考文
30、獻(xiàn)是撰寫(xiě)或編輯論文和著作過(guò)程中所引用的有關(guān)文獻(xiàn)信息資源的說(shuō)明等。意義不同,其作用必然會(huì)有所區(qū)別,如正文是文章主體部分,文獻(xiàn)編號(hào)、作者簡(jiǎn)介、基金項(xiàng)目等屬于文章次要屬性,與文章核心思想觀點(diǎn)沒(méi)有太多聯(lián)系。因而,論文相似性檢測(cè)過(guò)程中首先需要判別論文哪些部分需要參與檢測(cè),哪些部分的相似所占的比重應(yīng)該更大等等。</p><p> 一般來(lái)說(shuō),我們會(huì)認(rèn)為標(biāo)題、摘要、關(guān)鍵詞、正文、參考文獻(xiàn)等是需要參與相似性檢測(cè)的,而像發(fā)表時(shí)間、
31、所在期刊、分類號(hào)、文獻(xiàn)編號(hào)、作者簡(jiǎn)介等應(yīng)屬于不參與檢測(cè)的內(nèi)容。但參與檢測(cè)內(nèi)容中不同要素也有不同的作用,不能一概而論。如關(guān)鍵詞和摘要是整篇論文的核心,如果它們屬于不同學(xué)科領(lǐng)域或相差較大的話,則兩篇論文存在抄襲的可能性就比較小[20];因此關(guān)鍵詞和摘要可以用來(lái)進(jìn)行可疑文獻(xiàn)快速排查,首先比較兩篇論文的關(guān)鍵詞和摘要,看是否屬于同一領(lǐng)域或相關(guān)領(lǐng)域,若是則歸入可疑文獻(xiàn)集中,若不是則歸入非可疑文獻(xiàn)集,之后不參與檢測(cè)。而像標(biāo)題、參考文獻(xiàn)是否抄襲的認(rèn)定比
32、較困難,假如兩篇論文的參考文獻(xiàn)存在很高的相似度,不能直接認(rèn)定為是抄襲,因?yàn)榭赡苁莾烧哐芯恐黝}接近所導(dǎo)致的,因此這些要素的相似需要作另外的認(rèn)定和處理。</p><p> 不參與檢測(cè)的內(nèi)容并非沒(méi)有意義,如分類號(hào)可以用來(lái)判斷文章所屬學(xué)科,作者簡(jiǎn)介可以用來(lái)排除同一作者合理重復(fù)使用自己學(xué)術(shù)成果的情況,發(fā)表時(shí)間對(duì)于檢測(cè)已發(fā)表文章的相似性也非常重要,可用來(lái)排除發(fā)表在需要檢測(cè)文章之后的文章。因此這一部分內(nèi)容也需要加以區(qū)分并保存
33、下來(lái)。</p><p> 金博、史彥軍、滕弘飛等學(xué)者提出了一種基于篇章結(jié)構(gòu)相似度的中文學(xué)術(shù)論文相似性檢測(cè)算法,將論文的篇章結(jié)構(gòu)表示為八元組:發(fā)表時(shí)間、標(biāo)題、作者與單位、摘要、關(guān)鍵詞集合、中圖分類號(hào)、段落集合、參考文獻(xiàn)集合,綜合考慮多方面因素。研究結(jié)果表明該模型與基于全文數(shù)字指紋和基于全文詞頻統(tǒng)計(jì)的檢測(cè)方法相比更適合用于論文的拼抄、部分抄襲和全抄等現(xiàn)象的初步檢測(cè)[4],王建國(guó)[21]等也在此基礎(chǔ)上進(jìn)行了探討分析。
34、</p><p> 因此,將一個(gè)文檔中屬于該論文的各個(gè)要素的內(nèi)容標(biāo)記出來(lái)具有重要意義,一方面有助于提高論文相似性檢測(cè)結(jié)果的準(zhǔn)確性、有效性和合理性,若不進(jìn)行要素區(qū)分,直接將整個(gè)文檔的內(nèi)容進(jìn)行相似性檢測(cè),將會(huì)存在大量干擾信息,影響最終結(jié)果的可信度;另一方面,為相似性檢測(cè)算法提供了改進(jìn)思路與空間,提高了檢測(cè)算法的性能與效率,同時(shí)為論文相似性檢測(cè)產(chǎn)品與服務(wù)的開(kāi)發(fā)提供了思路,在此基礎(chǔ)上可以為用戶提供更多的個(gè)性化服務(wù)。&l
35、t;/p><p> 要素劃分問(wèn)題的處理具體流程詳見(jiàn)圖3-3。圖中所指的異常情況主要是指類似掃描到了摘要的標(biāo)識(shí),卻未掃描到關(guān)鍵詞或掃描到了KEYWORDS卻未掃描到ABSTRACT的情況,此時(shí)需要對(duì)文檔重新掃描,根據(jù)某些規(guī)則添加相應(yīng)要素的標(biāo)識(shí)。</p><p> 圖3-3 要素劃分問(wèn)題處理流程圖</p><p> 由于參考文獻(xiàn)和關(guān)鍵詞自身的特殊性以及兩者對(duì)于論文相似
36、性檢測(cè)的重要影響,筆者在前文預(yù)處理模型中也將這兩個(gè)要素單獨(dú)列了出來(lái)。</p><p> 對(duì)于參考文獻(xiàn),如果作者在撰寫(xiě)論文時(shí)未按照著錄規(guī)則進(jìn)行書(shū)寫(xiě),同一條參考文獻(xiàn)可能就會(huì)出現(xiàn)不同形式,或在文件轉(zhuǎn)換過(guò)程中出現(xiàn)信息丟失或亂碼,這都會(huì)導(dǎo)致最后檢測(cè)結(jié)果的不準(zhǔn)確,因此不僅應(yīng)該在檢測(cè)算法編寫(xiě)階段考慮這些因素,在數(shù)據(jù)預(yù)處理階段也應(yīng)該進(jìn)行針對(duì)性處理。目前的處理方法是盡可能通過(guò)正則表達(dá)式匹配參考文獻(xiàn)的各個(gè)要素,然后盡可能修改由于轉(zhuǎn)
37、換導(dǎo)致的錯(cuò)誤。如果能夠較準(zhǔn)確獲取某文章的標(biāo)題、作者等信息,可以通過(guò)已有的數(shù)據(jù)庫(kù)(如萬(wàn)方文獻(xiàn)資源數(shù)據(jù)庫(kù))或?qū)W術(shù)搜索引擎(如谷歌學(xué)術(shù)搜索引擎)獲取該文章準(zhǔn)確的且符合著錄規(guī)則的參考文獻(xiàn)形式。</p><p> 關(guān)鍵詞清洗主要指兩個(gè)方面:(1)在要素劃分階段將關(guān)鍵詞內(nèi)容塊識(shí)別出來(lái);(2)若在關(guān)鍵詞識(shí)別階段出現(xiàn)較大問(wèn)題,如關(guān)鍵詞丟失、將非關(guān)鍵詞內(nèi)容識(shí)別為關(guān)鍵詞、出現(xiàn)較多亂碼現(xiàn)象等,則需進(jìn)行關(guān)鍵詞自動(dòng)抽取。這就將涉及到關(guān)鍵
38、詞自動(dòng)抽取技術(shù),也稱為關(guān)鍵詞自動(dòng)標(biāo)引,是指利用計(jì)算機(jī)從文本中自動(dòng)提取出能夠代表該文本主題的詞匯或短語(yǔ)集合以實(shí)現(xiàn)文本表示的過(guò)程[22]。該技術(shù)在文本分類、文本聚類、知識(shí)挖掘、自動(dòng)摘要、信息檢索等領(lǐng)域有著廣泛應(yīng)用,因而該技術(shù)也相對(duì)較成熟。目前,關(guān)鍵詞自動(dòng)抽取方法可以分為三類:基于統(tǒng)計(jì)學(xué)的方法、基于語(yǔ)言學(xué)的方法和人工智能方法[23]。</p><p> 3.2.4 亂碼問(wèn)題</p><p>
39、 一般來(lái)說(shuō),亂碼的分布位置以開(kāi)篇的獨(dú)創(chuàng)性聲明及使用授權(quán)書(shū)部分(學(xué)位論文)、正文中的圖表、每頁(yè)開(kāi)頭與結(jié)尾處較多。具體來(lái)說(shuō),獨(dú)創(chuàng)性聲明部分的亂碼原因主要是手寫(xiě)字跡(簽字和日期);正文中的亂碼三大來(lái)源:圖、表和公式,圖的亂碼多是成行出現(xiàn),并且每行字符數(shù)較少,表格的亂碼是各種數(shù)字錯(cuò)位,公式的亂碼是由于一些特定符號(hào)的識(shí)別問(wèn)題以及一些表達(dá)式的組合形式問(wèn)題;論文中的英文部分亦經(jīng)常出現(xiàn)亂碼,出現(xiàn)較多的是英文摘要和英文參考文獻(xiàn),形式多為英文中夾雜個(gè)別中文
40、漢字。需要特別說(shuō)明的是,“亂碼問(wèn)題”中的亂碼指的是編碼方式正確的文檔中,由于轉(zhuǎn)換、格式等原因出現(xiàn)的失去實(shí)際意義的詞、短語(yǔ)或句子。</p><p> 亂碼按其字符類型可分為符號(hào)亂碼、漢字亂碼、混合型亂碼。符號(hào)亂碼又分為特殊符號(hào)亂碼和一般標(biāo)點(diǎn)符號(hào)亂碼。特殊符號(hào)即不常用的符號(hào),多不具有實(shí)際意義,以單個(gè)出現(xiàn)為多,亦常間雜在其他亂碼中;標(biāo)點(diǎn)符號(hào)成為亂碼一般是以連續(xù)一串為表現(xiàn)形式,其間常夾雜空格、運(yùn)算符、數(shù)字或英文字符;漢
41、字亂碼的特征較難概括,可能是非常用漢字序列,但也經(jīng)常夾雜一些常用漢字,普遍特征為單字詞較多,字與字之間共現(xiàn)概率低或是以單行出現(xiàn),如單字詞過(guò)多或者低頻單字詞過(guò)多?;旌闲蛠y碼最為復(fù)雜,以漢字和符號(hào)的交替序列為表現(xiàn)形式,有以下類型:整句中符號(hào)比重較大;英文字符中夾雜有少量漢字或數(shù)字等。</p><p> 亂碼是造成文本處理效果不佳以及檢測(cè)結(jié)果不理想的重要因素之一,必須采取有效的辦法將文本中的亂碼自動(dòng)識(shí)別出來(lái)并剔除。由
42、于亂碼類型較多,情況復(fù)雜,對(duì)于亂碼的識(shí)別與處理比較困難。本文主要采用針對(duì)不同類型的亂碼建立不同處理規(guī)則的方法。</p><p> 首先,將疑似亂碼段切分成8字及以上字符串(必須以標(biāo)點(diǎn)符號(hào)或空格結(jié)尾,連續(xù)符號(hào)需在同一個(gè)字符串中);</p><p> 然后分別計(jì)算出每個(gè)字符串或子句中低頻單字詞、單字詞、亂碼漢字、標(biāo)點(diǎn)符號(hào)、英文字母、英文單詞等的個(gè)數(shù);</p><p>
43、; 最后根據(jù)制定的規(guī)則來(lái)判斷該字符串或子句是否為亂碼或部分為亂碼。由于要保證規(guī)則對(duì)于大數(shù)據(jù)集的普遍適應(yīng)性,規(guī)則的制定是一個(gè)非常繁瑣、費(fèi)時(shí)費(fèi)力,且需要不斷完善的過(guò)程。</p><p> 3.2.3 段落合并問(wèn)題</p><p> 進(jìn)行段落合并的根源,主要是由于期刊排版時(shí)的分欄、跨頁(yè),頁(yè)眉頁(yè)腳,圖表內(nèi)容等可能會(huì)將正常一段話的內(nèi)容或正文分割成多個(gè)部分,最終目標(biāo)就是還原文本,使其盡可能與原始
44、文章段落結(jié)構(gòu)保持一致。</p><p> 論文相似性檢測(cè)粒度的選擇是所有相似性檢測(cè)算法都需要重點(diǎn)考慮的問(wèn)題之一;不同的粒度劃分是選擇相似性檢測(cè)算法和影響檢測(cè)效果的重要因素。論文相似性檢測(cè)的粒度可以分為整篇文章、段落、句子、定長(zhǎng)字符串、詞或短語(yǔ)、單個(gè)字符或字[24]。通常一個(gè)段落都是圍繞一個(gè)主題或中心論點(diǎn)進(jìn)行闡述,段落內(nèi)句子的關(guān)聯(lián)性較大,以段落作為檢測(cè)粒度是相對(duì)較好的選擇,不但檢測(cè)效率較高,檢測(cè)效果較好,檢測(cè)結(jié)果
45、的可信度也較高。趙俊杰[7,25]等討論了基于段落相似度的論文抄襲判定算法,可在一定程度上防止抄襲者將論文的段落順序打亂,或?qū)⒍温湔Z(yǔ)句次序打亂重新組合或更改部分詞語(yǔ)的情況。</p><p> 圖3-4為論文相似性檢測(cè)計(jì)算過(guò)程的一個(gè)簡(jiǎn)單模型圖,可以看出劃分段落是論文相似性檢測(cè)中的一個(gè)重要過(guò)程。句子的劃分一般是以句末標(biāo)點(diǎn)如‘!’、‘。’、‘;’、‘?’等作為劃分標(biāo)識(shí)的;詞語(yǔ)的劃分即分詞一般使用相應(yīng)的分詞算法或分詞系
46、統(tǒng),如北京理工大學(xué)張華平團(tuán)隊(duì)所開(kāi)發(fā)的漢語(yǔ)詞法分析系統(tǒng)NLPIR/ICTCLAS。但是在粗糙的原始文檔中,排版分欄、跨頁(yè)、頁(yè)眉頁(yè)腳等都可能將一個(gè)完整的詞語(yǔ)、句子、段落分割開(kāi)來(lái),因此句子劃分和分詞需要建立在段落準(zhǔn)確合并的基礎(chǔ)上,否則句子劃分和分詞都會(huì)出現(xiàn)錯(cuò)誤,劃分之后的結(jié)果與原文存在較大的不一致性,最終導(dǎo)致相似性檢測(cè)結(jié)果出現(xiàn)較大偏差,檢測(cè)效果不佳。</p><p> 圖3-4 論文相似性檢測(cè)計(jì)算過(guò)程</p&g
47、t;<p> 對(duì)于段落合并問(wèn)題的解決方案,詳見(jiàn)下圖處理流程圖(圖3-5),其中最大的難點(diǎn)在于準(zhǔn)確識(shí)別段落結(jié)束的位置,頁(yè)眉頁(yè)腳、跨頁(yè)、圖表的起始位置。其中需要說(shuō)明的是,目前的論文相似性檢測(cè)方法大部分是針對(duì)文檔中的文本而言,對(duì)于結(jié)構(gòu)化的表格、圖片還不能進(jìn)行有效的處理,因而處理過(guò)程中將圖表內(nèi)容暫且輸出到指定的文檔中,若需對(duì)圖表進(jìn)行相似性檢測(cè),可調(diào)用指定文檔的內(nèi)容。</p><p> 圖3-5 段落合并
48、問(wèn)題處理流程圖</p><p> 3.3 數(shù)據(jù)預(yù)處理方法介紹</p><p> 上文針對(duì)論文相似性檢測(cè)中原始TXT文檔存在的數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行了具體闡述,據(jù)此給出了數(shù)據(jù)預(yù)處理模型,然后對(duì)主要的處理模塊進(jìn)行了詳細(xì)介紹并給出了處理的一般流程圖。在處理的過(guò)程中,還需運(yùn)用到相關(guān)的數(shù)據(jù)預(yù)處理技術(shù),本文將對(duì)筆者實(shí)際處理過(guò)程中使用到的方法進(jìn)行總結(jié),主要有:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法、基于語(yǔ)義的方法
49、。</p><p> 3.3.1 基于規(guī)則的方法</p><p> 絕大多數(shù)相關(guān)領(lǐng)域的研究人員認(rèn)為,要想很好地完成數(shù)據(jù)預(yù)處理過(guò)程,一定要結(jié)合特定應(yīng)用領(lǐng)域的知識(shí);因此,人們通常將領(lǐng)域知識(shí)用規(guī)則的形式表示出來(lái)[26]。論文相似性檢測(cè)中針對(duì)的檢測(cè)對(duì)象是學(xué)術(shù)論文,在前面中已有闡述,學(xué)術(shù)論文有其自身的特殊性,因此可以結(jié)合其自身特點(diǎn)在預(yù)處理階段定義相關(guān)處理規(guī)則。</p><p&
50、gt; 在進(jìn)行數(shù)據(jù)預(yù)處理的過(guò)程中,較多地采用了基于規(guī)則的方法進(jìn)行處理。以要素劃分為例,筆者根據(jù)學(xué)術(shù)論文的書(shū)寫(xiě)規(guī)范等,制定了相應(yīng)的規(guī)則,如:</p><p> a、如果該文檔有中文摘要,那么也應(yīng)該有中文關(guān)鍵詞;</p><p> b、如果該文檔有英文摘要,那么也應(yīng)該有英文關(guān)鍵詞;</p><p> c、在中文關(guān)鍵詞和英文關(guān)鍵詞之間的大段英文有可能是未識(shí)別出來(lái)的
51、英文摘要;</p><p> d、目錄出現(xiàn)在正文之前;</p><p> e、參考文獻(xiàn)、責(zé)任編輯必須出現(xiàn)在正文內(nèi)容之后;</p><p> f、無(wú)法使用正則表達(dá)式匹配要素的起始位置時(shí),可利用形式特征進(jìn)行判斷,如參考文獻(xiàn)有其特有的著錄規(guī)范;目錄中一般每行含有多個(gè)‘.’,或者連續(xù)多行結(jié)尾為數(shù)字;</p><p> 但也應(yīng)考慮到特殊情況的存
52、在,如部分學(xué)位論文中可能每個(gè)章節(jié)后面都會(huì)出現(xiàn)參考文獻(xiàn),連續(xù)多行結(jié)尾為數(shù)字可能是表格內(nèi)容等,因此也需要對(duì)各條規(guī)則制定更多相應(yīng)的規(guī)則加以限制,提高判斷的準(zhǔn)確度。</p><p> 由于原始論文在寫(xiě)作、編輯出版時(shí)可能出現(xiàn)的不規(guī)范以及在轉(zhuǎn)換成TXT文檔之后出現(xiàn)的臟亂情況,想要制定完善的規(guī)則非常困難。筆者采用的方法是先用隨機(jī)抽樣的方法從巨大的數(shù)據(jù)集中取出小量樣本,在此基礎(chǔ)上通過(guò)人工的參與產(chǎn)生初步規(guī)則,在得到初步規(guī)則之后,
53、把它們應(yīng)用到樣本數(shù)據(jù)上,通過(guò)觀察處理結(jié)果,進(jìn)而修改已有規(guī)則或者添加新的領(lǐng)域知識(shí),如此反復(fù),直到獲得相對(duì)滿意的結(jié)果為止;這時(shí),就可以將這些規(guī)則應(yīng)用到整個(gè)數(shù)據(jù)集中了。本文中涉及到的規(guī)則都是人工總結(jié),然后使用java將規(guī)則轉(zhuǎn)換為程序代碼,通過(guò)計(jì)算機(jī)實(shí)現(xiàn)自動(dòng)化處理。</p><p> 3.3.2 基于統(tǒng)計(jì)的方法</p><p> 基于統(tǒng)計(jì)的方法,首先需要準(zhǔn)備大量的訓(xùn)練語(yǔ)料,然后通過(guò)統(tǒng)計(jì)方法得到
54、某類事物出現(xiàn)的概率。以亂碼處理為例,在前期分析亂碼的過(guò)程中總結(jié)了亂碼的主要類型,如低頻單字詞過(guò)多、標(biāo)點(diǎn)符號(hào)比例過(guò)高、英文段落中夾雜漢字等,通過(guò)統(tǒng)計(jì)的方法得到相應(yīng)的處理規(guī)則和方法:</p><p> a、概率小于10-6的單漢字的比例大于35%時(shí),認(rèn)為該子句為亂碼。</p><p> b、當(dāng)英文字母比例大于75%且漢字比例小于20%時(shí),若子句中出現(xiàn)漢字,則該漢字必為亂碼;當(dāng)英文字母比例小
55、于40%,若子句中出現(xiàn)漢字,且該漢字左右兩邊都是英文字母時(shí)判定該漢字是亂碼;</p><p> 繼而通過(guò)大量語(yǔ)料對(duì)以上處理方法進(jìn)行訓(xùn)練,不斷調(diào)整相關(guān)的比例指標(biāo),并產(chǎn)生新的處理方法。</p><p> 基于統(tǒng)計(jì)的方法側(cè)重于語(yǔ)料的定量描寫(xiě),通過(guò)不斷記錄和統(tǒng)計(jì)真實(shí)的語(yǔ)言現(xiàn)象來(lái)不斷生成新的規(guī)則和方法,該方法適應(yīng)性強(qiáng),且受非語(yǔ)言因素影響小,可信度較高。但該方法對(duì)語(yǔ)料的依賴性較強(qiáng),且僅僅是基于數(shù)據(jù)
56、的統(tǒng)計(jì),因此總結(jié)出來(lái)的規(guī)則和方法穩(wěn)定性較弱,是浮動(dòng)、似然的,也很容易出現(xiàn)片面性,因此在實(shí)際應(yīng)用中需要人的參與,對(duì)最終的規(guī)則方法進(jìn)行把關(guān)。</p><p> 3.3.3 基于語(yǔ)義的方法 </p><p> 漢語(yǔ)自然語(yǔ)言是語(yǔ)義型語(yǔ)言,重意合而輕形式,且漢語(yǔ)復(fù)雜靈活,語(yǔ)言知識(shí)難以規(guī)則化,因此中文文本較英文文本在結(jié)構(gòu)、詞序、處理等方面都存在著特殊性。文本的語(yǔ)義是基于概念的,詞是構(gòu)成這些概念的基
57、本單位[27]。因此一般進(jìn)行語(yǔ)義分析的第一步就是將文本進(jìn)行分詞,并在分詞基礎(chǔ)上進(jìn)行詞性標(biāo)注。本文采用張華平博士團(tuán)隊(duì)研發(fā)的NLPIR漢語(yǔ)分詞系統(tǒng)(又名ICTCLAS)對(duì)文本進(jìn)行分詞及詞性標(biāo)注。</p><p> 本文利用基于語(yǔ)義的方法進(jìn)行數(shù)據(jù)預(yù)處理主要是在段落合并階段和亂碼處理階段。以段落合并為例,一般來(lái)說(shuō)根據(jù)句末標(biāo)點(diǎn)及字符串長(zhǎng)度等規(guī)則進(jìn)行處理即可,但對(duì)于章節(jié)標(biāo)題或跨頁(yè)問(wèn)題中的段落合并則需要結(jié)合基于語(yǔ)義的方法。如
58、以下示例1,2,3都是原始語(yǔ)料中出現(xiàn)的實(shí)際情況。</p><p><b> 例1:1.1材料</b></p><p><b> 與方法</b></p><p> 例2:3.2 流域污染綜合整治評(píng)價(jià)指標(biāo)體系的</p><p><b> 構(gòu)建</b></p>
59、<p> 例3:果、應(yīng)急防治能力和整體控防水平,確保農(nóng)(下轉(zhuǎn)190頁(yè))</p><p> 夜10—13℃。隨著天氣轉(zhuǎn)暖要加大通風(fēng)量,超過(guò)30℃要……</p><p> (上接118頁(yè))業(yè)生產(chǎn)安全、農(nóng)產(chǎn)品質(zhì)量安全、生態(tài)環(huán)境安全。……</p><p> (上接130頁(yè))仔細(xì)分析、研究,探索出高效、環(huán)保的控防新方法……</p><p&
60、gt; 表3-1 分詞結(jié)果及詞性標(biāo)注</p><p> 表3-2 NLPIR漢語(yǔ)文本詞性標(biāo)注集(部分)</p><p> 例1和例2是同一段的內(nèi)容被分成了兩行且無(wú)法用一般的規(guī)則判斷下一行是否與上一行屬于同一段的內(nèi)容。例3中根據(jù)一般規(guī)則無(wú)法判斷“下轉(zhuǎn)”之后應(yīng)該接哪個(gè)“上接”的內(nèi)容,第一種情況為“下轉(zhuǎn)”之后接第一個(gè)“上接”,第二種情況為“下轉(zhuǎn)”之后接第二個(gè)“上接”。因此對(duì)當(dāng)前行與下一行的
61、內(nèi)容合并后進(jìn)行分詞,并進(jìn)行詞性標(biāo)注。根據(jù)表3-1的分詞及詞性標(biāo)注結(jié)果,例1、例2中根據(jù)一般中文語(yǔ)法規(guī)則,可以判斷下一行極有可能與上一行內(nèi)容屬于同一段內(nèi)容。例3中,第一種情況上一行的“農(nóng)”與“業(yè)”恰好組成了一個(gè)名詞,且整個(gè)短句是“動(dòng)詞+名詞”結(jié)構(gòu),而第二種情況“農(nóng)”作為一個(gè)名詞性語(yǔ)素,整個(gè)短句結(jié)構(gòu)為“動(dòng)詞+名詞性語(yǔ)素+副形容詞+動(dòng)詞”,綜合考慮第一種情況的可能性極大。該方法同時(shí)需要結(jié)合中文語(yǔ)法規(guī)則,建立現(xiàn)代漢語(yǔ)句型規(guī)則來(lái)判斷。</p
62、><p> 基于規(guī)則、統(tǒng)計(jì)、語(yǔ)義的三種方法,是本文進(jìn)行數(shù)據(jù)預(yù)處理中使用的主要方法,三種方法之間相互區(qū)別,但也密切聯(lián)系;在實(shí)際運(yùn)用中,通常會(huì)將三者結(jié)合起來(lái)使用。基于統(tǒng)計(jì)和基于語(yǔ)義的方法都需要建立相應(yīng)的規(guī)則來(lái)完成預(yù)期目標(biāo),而利用基于統(tǒng)計(jì)和基于語(yǔ)義的方法又能生成新的有價(jià)值的規(guī)則,只有將三種方法相互結(jié)合,才能取得更好的預(yù)處理效果,保證處理結(jié)果的合理性、準(zhǔn)確性、有效性。</p><p><b&g
63、t; 4 總結(jié)</b></p><p> 由于學(xué)術(shù)論文原作者書(shū)寫(xiě)不規(guī)范或者出版社最終的編輯排版等,以及文件格式轉(zhuǎn)換軟件在轉(zhuǎn)換過(guò)程中出現(xiàn)的各種問(wèn)題,導(dǎo)致論文相似性檢測(cè)的原始數(shù)據(jù)存在大量的數(shù)據(jù)質(zhì)量問(wèn)題,這些數(shù)據(jù)質(zhì)量問(wèn)題很大程度上影響著相似性檢測(cè)結(jié)果的準(zhǔn)確性和有效性。因此,在進(jìn)行論文相似性檢測(cè)之前,使用數(shù)據(jù)預(yù)處理技術(shù)對(duì)數(shù)據(jù)進(jìn)行處理,改善數(shù)據(jù)的質(zhì)量顯得尤為重要。</p><p>
64、 本文通過(guò)對(duì)面向論文相似性檢測(cè)的原始學(xué)術(shù)論文數(shù)據(jù)進(jìn)行分析,總結(jié)了數(shù)據(jù)中存在的數(shù)據(jù)質(zhì)量問(wèn)題,并在此基礎(chǔ)上給出了數(shù)據(jù)預(yù)處理模型,并分別對(duì)編碼方式問(wèn)題、要素劃分問(wèn)題、亂碼問(wèn)題和段落合并問(wèn)題進(jìn)行了詳細(xì)闡述,包括進(jìn)行相關(guān)處理的緣由與意義、處理的方式等的介紹。不同的數(shù)據(jù)質(zhì)量問(wèn)題需要使用到不同的數(shù)據(jù)預(yù)處理方法,本文最后總結(jié)了在數(shù)據(jù)預(yù)處理過(guò)程中使用到的三種方法,分別是基于規(guī)則的方法,基于統(tǒng)計(jì)的方法,基于語(yǔ)義的方法。三種方法有其各自應(yīng)用的場(chǎng)合,既又相互區(qū)
65、別,相互聯(lián)系,只有將三者結(jié)合起來(lái),才能取得更好的預(yù)處理效果。</p><p> 本文研究的意義在于重點(diǎn)針對(duì)面向論文相似性檢測(cè)的數(shù)據(jù)進(jìn)行了數(shù)據(jù)預(yù)處理研究,對(duì)數(shù)據(jù)中存在的質(zhì)量問(wèn)題進(jìn)行了分析總結(jié),給出了數(shù)據(jù)預(yù)處理模型,并采用數(shù)據(jù)預(yù)處理技術(shù)對(duì)數(shù)據(jù)質(zhì)量問(wèn)題進(jìn)行了處理,這對(duì)于提高論文相似性檢測(cè)的準(zhǔn)確性、合理性,以及為論文相似性檢測(cè)提供新的思路等方面具有重要意義。但也存在一定的局限性,如本研究基于的原始語(yǔ)料規(guī)模有限;對(duì)于圖表
66、內(nèi)容未能提出有效的處理方式;對(duì)于某些數(shù)據(jù)質(zhì)量問(wèn)題的處理仍存在缺陷。本文在后續(xù)的研究中將重點(diǎn)針對(duì)這些問(wèn)題進(jìn)行分析,并更多地應(yīng)用數(shù)據(jù)挖掘技術(shù)、機(jī)器學(xué)習(xí)方法進(jìn)行數(shù)據(jù)預(yù)處理,以期獲得更好的處理效果。</p><p><b> 參考文獻(xiàn)</b></p><p> [1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念,技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1): 146-16
67、9.( Meng Xiaofeng, Ci Xiang. Big Data Management: Concepts, Techniques and Challenges[J]. Journal of Computer Research and Development, 2013, 50(1): 146-169. )</p><p> [2] 鮑軍鵬,沈鈞毅,劉曉東,等.自然語(yǔ)言文檔復(fù)制檢測(cè)研究綜述[J].軟件
68、學(xué)報(bào),2003,14(10).(Bao Junpeng, Shen Junyi, Liu Xiaodong, Song Qinbao. A Survey on Natural Language Text Copy Detection[J]. Journal of Software,2003,14(10).)</p><p> [3] Clough P. Plagiarism in natural and pro
69、gramming languages: an overview of current tools and technologies. Research Memoranda: CS-00-05, Department of Computer Science, University of Sheffield, 2000.</p><p> [4] 金博,史彥軍,滕弘飛.基于篇章結(jié)構(gòu)相似度的復(fù)制檢測(cè)算法[J].大連理
70、工大學(xué)學(xué)報(bào),2007, 47(1):125-130. (Jin Bo, Shi Yanjun, Teng Hongfei. Document-structure-based copy detection algorithm[J]. Journal of Dalian University of Technology,2007, 47(1):125-130.)</p><p> [5] 王森,王宇.基于文本結(jié)構(gòu)樹(shù)
71、的論文復(fù)制檢測(cè)算法[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2009,10:010. (Wang Sen, Wang Yu. Algorithm of the TextCopy Detection Based on Text Structure Tree[J]. New Technology of Library and Information Service, 2009,10:010.)</p><p> [6] 秦玉平,冷
72、強(qiáng)奎,等.基于局部詞頻指紋的論文抄襲檢測(cè)算法[J].計(jì)算機(jī)工程,2011(6):193-197. (Qin Yuping, Leng Qiangkui, Wang Xiukun, Wang Chunli. Plagiarism-detection Algorithm for Scientific Papers Based on Local Word-frequency Fingerprint[J].Computer Engineerin
73、g,2011(6):193-197.)</p><p> [7] 趙俊杰,胡學(xué)鋼.一種基于段落詞頻統(tǒng)計(jì)的論文抄襲判定算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(4):231-233. (Zhao Junjie, Hu Xuegang. A Way to Judge Plagiarism in Academic Papers Based on Word- Frequency Statistics of Para
74、graphs[J]. COM PUT ER TECHNOLOGY AND DEVELOPMENT,2009,19(4):231-233. ) </p><p> [8] 趙俊杰,汪麗,王平水.基于自動(dòng)文摘的論文抄襲檢測(cè)研究[J].電腦與電信,2010(2):31-33. (Zhao Junjie, Wang Li, Wang Pingshui. The Research on How to Detect Pla
75、giarism in the Theses Based on Automatic Abstraction[J]. Computer & Telecommunication,2010(2):31-33.)</p><p> [9] 劉明吉,王秀峰,黃亞樓.數(shù)據(jù)挖掘中的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)科學(xué), 2000, 27(4):54-57. (Liu Mingji, WangXiufeng, Huang Yal
76、ou. Data Preprocessing in Data Mining[J]. Computer Science, 2000, 27(4):54-57.)</p><p> [10] 陸麗娜,楊怡玲. Web日志挖掘中的數(shù)據(jù)預(yù)處理的研究[J].計(jì)算機(jī)工程,2000,26(4): 66-67. (Lu Lina, Yang Yiling. Data Preparation in Web Log Mining[
77、J]. Computer Engineering,2000,26(4): 66-67.)</p><p> [11] 李瑞欣,張水平.數(shù)據(jù)倉(cāng)庫(kù)建設(shè)中的數(shù)據(jù)預(yù)處理[J].計(jì)算機(jī)系統(tǒng)應(yīng)用, 2002 (5): 18-21. (Li Ruixin, Zhang Shuiping. Data-processing in the building of data
78、;warehouse [J].Computer Systems& Applications, 2002 (5): 18-21.)</p><p> [12] 呂景耀.數(shù)據(jù)清洗及XML技術(shù)在數(shù)字報(bào)刊中的研究與應(yīng)用[D].北京郵電大學(xué),2009. (Lv Jingyao. Research and application of data cleaning and XML technolo
79、gies based on digital newspaper [D]. Beijing University of Posts and Telecommunications, 2009)</p><p> [13] Peng F, McCallum A. Information extraction from research papers using conditional random fields[J]
80、. Information processing & management, 2006, 42(4): 963-979.</p><p> [14] Han H, Giles C L, Manavoglu E, et al. Automatic document metadata extraction using support vector machines[C].Digital Libraries,
81、 2003. Proceedings. 2003 Joint Conference on. IEEE, 2003:37-48.</p><p> [15] 王曰芬,章成志,張蓓蓓,等.數(shù)據(jù)清洗研究綜述[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,12: 50-56.( Wang Yuefen, Zhang Chengzhi, Zhang Beibei, Wu Tingting[J]. New Technology of
82、Library and Information Service,2007,12: 50-56.)</p><p> [16] 趙飛國(guó).面向數(shù)據(jù)挖掘的數(shù)據(jù)預(yù)處理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].北京交通大學(xué),2011.(Zhao Feiguo. Desin and Implementation of Data Preprocessing System Oriented to Data Mining[D]. Beijing J
83、iaotong University,2011.)</p><p> [17] 方洪鷹. 數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理的方法研究[D]. 碩士, 西南大學(xué), 2009.(Fang Hongying. Data Processing Method of Dimensionless[D].Southwest University,2009.)</p><p> [18] 韓家煒,坎伯.數(shù)據(jù)挖掘:概
84、念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2001:232-233.(Han Jiawei, Kamber. Data Mining: Data Mining: Concepts and Techniques[J].Beijing:China Machine Press,2001:232-233.)</p><p> [19] 蘇成.數(shù)據(jù)挖掘中不可忽視的環(huán)節(jié)——數(shù)據(jù)預(yù)處理[J].華南金融電腦,2006,14(1):
85、64-66.(Su Cheng. The aspects that could not be ignored in Data Mining--- Data Preprocessing[J]. Financial Computer,2006,14(1):64-66.)</p><p> [20] 易彤,徐升華,萬(wàn)常選,等.抄襲剽竊論文識(shí)別研究綜述[J].情報(bào)學(xué)報(bào),2007,26(4):567-573.(Yi To
86、ng, Xu Shenghua, Wan Changxuan and Wu Fangjun. Literature Review on Copy and Plagiarism Detections[J]. Journal of The China Society For Scientific and Technical Information,2007,26(4):567-573.)</p><p> [21]
87、 王建國(guó),楊煥海.基于篇章結(jié)構(gòu)相似度的中文學(xué)術(shù)論文復(fù)制檢測(cè)技術(shù)研究[J].現(xiàn)代計(jì)算機(jī):下半月版,2010(6):20-23.(Wang Jianguo, Yang Huanhai. Research on Copy Detection Technology of Chinese Scientific Papers Based on Text Structure Similarity[J].Modern Computer,2010(6):
88、20-23.)</p><p> [22] Hulth A.Combining machine learning and natural language processing for automatic keyword extraction[M].Department of Computer and Systems Sciences[Institutionen för Data-och system
89、vetenskap],Univ.,</p><p><b> 2004.</b></p><p> [23] 高燕.關(guān)鍵詞自動(dòng)標(biāo)引方法綜述[J].電子世界,2012(6):118-120.(Gao Yan. Literature Review on Keywords Automatic Indexing [J]. Electronic World, 2012(6)
90、:118-120.)</p><p> [24] 耿崇,薛德軍.中文文檔復(fù)制檢測(cè)方法研究[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2007,6:33-37.(Geng Chong, Xue Dejun. Study on Chinese Document Copy Detection[J]. New Technology of Library and Information Service, 2007,6:33-37. )&l
91、t;/p><p> [25] 趙俊杰,謝飛.基于段落相似度的論文抄襲判定[J].電腦與電信,2008(8):22-23.(Zhao Junjie, Xie Fei. The Way to Judge Plagiarism Based on Similarity Between Paragraphs[J]. Computer & Telecommunication,2008(8):</p>&l
92、t;p><b> 22-23. )</b></p><p> [26] 郭志懋,周傲英.數(shù)據(jù)質(zhì)量和數(shù)據(jù)清洗研究綜述[J].軟件學(xué)報(bào),2002,13(11):2076-2082.(Guo Zhimao, Zhou Aoying.Research on Data Quality and Data Cleaning: a Survey .[J]. Journal of Software,
93、2002,13(11):2076-2082. )</p><p> [27] 張寧.基于語(yǔ)義的中文文本預(yù)處理研究[D].西安電子科技大學(xué), 2011.(Zhang Ning. Research of Chinese Test Preprocessing based on Semantic[D]. Xidian University, 2011. )</p><p><b>
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 面向相似性的時(shí)間序列數(shù)據(jù)挖掘研究.pdf
- 面向聚類分析的數(shù)據(jù)集相似性研究.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
- 論文相似性檢測(cè)報(bào)告.pdf
評(píng)論
0/150
提交評(píng)論