畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預警監(jiān)控系統(tǒng)--預處理模塊和 x-means 算法改進

上傳人：奔*** IP屬地：河北更新時間：2024-03-02 格式：docx 頁數(shù)：87 大?。?.69MB 人氣指數(shù)：12 舉報 版權(quán)申訴

畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預警監(jiān)控系統(tǒng)--預處理模塊和 x-means 算法改進_第1頁

已閱讀1頁，還剩86頁未讀，繼續(xù)免費閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進行舉報或認領

文檔簡介

1、　　本科畢業(yè)論文　　基于數(shù)據(jù)挖掘的納稅人預警監(jiān)控系統(tǒng)——預處理模塊和 X-Means 算法改進　　Early-warning Supervisory System of Taxpayers Based on Data Mining　　——Implementation of Data P

2、re-processing Module and Improvement of the X-Means Algorithm　　姓名： 　　學號： 　　學院：軟件學院<

3、;p>　　系：軟件工程　　專業(yè)：軟件工程　　年級： 　　指導教師： 　　二〇XX 年 X 月

4、;　　摘要　　許多國家和地區(qū)每年都會因為納稅人的偷稅漏稅問題而損失大量的財政收　　入，稅務稽查部門一直以來都致力于解決這方面的問題?？萍嫉陌l(fā)展使得一些先　　進的數(shù)據(jù)庫和信息存儲工具用于稅收數(shù)據(jù)的錄入、存儲、統(tǒng)計和檢索等。隨著稅&

5、lt;p>　　收信息化工作的深入，稅務部門積累了海量的業(yè)務明細數(shù)據(jù)，這其中包含著大量　　對決策有價值的信息。但沒有強有力的分析工具，理解這些存放在大型和大量數(shù)　　據(jù)庫中的海量數(shù)據(jù)已經(jīng)遠遠超出了人類的能力，很有可能會使這些系統(tǒng)和數(shù)據(jù)變　　成一個個“信息孤島”和“數(shù)據(jù)墳墓”。因此，將數(shù)據(jù)挖掘技術(shù)應用于對納稅人

6、　　進行預警和監(jiān)控這一全新的領域，對稅務系統(tǒng)中積累的海量數(shù)據(jù)進行挖掘，從中　　提取對決策有價值的信息，解決數(shù)據(jù)和信息之間的鴻溝，將“數(shù)據(jù)墳墓”轉(zhuǎn)換成　　知識“金塊”就顯得很有必要。　　本文首先對課題的研究背景及實際意義、國內(nèi)外研究現(xiàn)狀以及存在的問題本文的研究內(nèi)容以及特色等

7、做了介紹，并簡單說明了論文的組織結(jié)構(gòu)。然后，本文闡述了納稅人預警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求，對用于挖掘工作的原始數(shù)據(jù)作了詳細說明，并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu)。接著，詳細闡述了數(shù)據(jù)預處理模塊的實現(xiàn)過程，包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設計和實現(xiàn)。進而，本文介紹了 X-Means 算法的思想，對其做了改進，并且分析了算法在不同數(shù)據(jù)源上進行數(shù)據(jù)挖掘以及算法改進前后所得挖掘結(jié)果的不同。<p&

8、gt;　　采用改進后的 X-Means 算法對經(jīng)過預處理的數(shù)據(jù)進行挖掘，得到的結(jié)果能清楚的把那些有購電，但 XSE=0 且 SE=0 的有重大偷稅嫌疑的納稅戶；有偷稅漏稅嫌疑，但嫌疑不重大的納稅戶；納稅記錄優(yōu)良、納稅額高于同行業(yè)平均水平，需要提供適當稅收扶持的納稅戶和沒有嚴重納稅指標異常，只需進行日常征管的納稅戶分離出來，這些納稅戶分別占總量的 1%、6%、0%和 93%。關(guān)鍵詞：數(shù)據(jù)挖掘；數(shù)據(jù)預處理；X-Means 算法</p&

9、gt;　　Abstract　　Many countries and regions bear significant loss of fiscal revenue because of the taxpayer's tax evasion every year. Tax inspection departments have b

10、een committed to solve this problem. The development of technology makes some of the advanced databases and information storage tools used in the entry, storage, statistic and retrieval of tax datas. As the deepening of

11、taxation information, The tax department has accumulated vast amounts of detailed business data, which includes a large number of 　　Firstly, this thesis illustrated the background and significance of

12、 this research, the status quo and existing problems of related researches at home and abroad. The main contents and characters as well as the arrangements of the thesis were presented after that. Then, the thesis introd

13、uced the requirement of the Taxpayer’s early-warning and monitoring system and the data mining subsystem. Explained the raw data we used for our mining process in detail, and then analysised the structure of the d</p&

14、gt;　　Using the improved X-Means algorithm to mining the pre-processed data, we can　　classified the taxpayers needed to be focus on, spot check, support, administrate as usual clearly. Thes

15、e types of taxpayers separately account for 1%, 6%, 0% and 93% of the total.　　Key words: Data Mining; Data Pre-processing; X-Means Algorithm　　4.3.4算法改進后的挖掘結(jié)果分析71<

16、;p>　　4.4 本章小結(jié)75　　第五章總結(jié)與展望76　　參考文獻77　　致謝79　　CONTENTS

17、;　　4.3.2Analysis of result after Pre-process64　　4.3.3Analysis of result without algorithm improvement68　　4.3.4Analysis of result after algorithm improvement71&l

18、t;p>　　4.4 Summary75　　Chapter 5: Conclusions and future works76　　References77　　Acknowledgements79　　緒論

19、;　　第一章緒論　　1.1 研究背景及選題意義　　世界各地許多國家每年都會因為納稅人的偷稅漏稅問題而損失大量的財政收入，稅務稽查部門一直以來都致力于解決這方面的問題。在沒有引入進算計工具和數(shù)據(jù)挖掘技術(shù)之前，這方面的工作在很大程度上是依靠專業(yè)的稽查人員根據(jù)以往的工作經(jīng)驗和某些直覺上的判斷來圈定那

20、些不法納稅人的特征。雖然這種方法在稅務稽查初期可能會有很大的幫助，但是隨著經(jīng)濟的發(fā)展、稅務體制的改革，自然而然會引起稅源和稅種的增加，這時，如果再使用以往那種憑稽查人員的經(jīng)驗和直覺的稽查方法去區(qū)分判斷違法納稅人，勢必會導致稽查效率低下和稽查效果不明顯。　　在過去的十幾年中，一些先進的數(shù)據(jù)庫技術(shù)大大推動了稅務部門的稅收應用，使得大量數(shù)據(jù)庫和信息存儲工具用于稅收數(shù)據(jù)的錄入、存儲、統(tǒng)計和檢索等。隨

21、著稅收信息化工作的深入，稅務部門積累了海量的業(yè)務明細數(shù)據(jù)，這其中包含著大量對決策有價值的信息。但由于這些數(shù)據(jù)多以不同的數(shù)據(jù)結(jié)構(gòu)存放在不同的數(shù)據(jù)庫中，分布存放、備份文件格式各異，所以很難從中抽取出有價值的信息。同時，隨著數(shù)據(jù)的不斷豐富，帶來了對強有力的數(shù)據(jù)分析工具的需求，沒有強有力的分析工具，理解這些存放在大型和大量數(shù)據(jù)庫中的海量數(shù)據(jù)已經(jīng)遠遠超出了人類的能力，很有可能會使這些系統(tǒng)和數(shù)據(jù)變成一個個“信息孤島”和“數(shù)據(jù)墳墓”。因此，人們迫切需

22、要一種能夠去粗取精、對數(shù)據(jù)進行深層次加工的自動化技術(shù)，而這正是數(shù)據(jù)挖掘技術(shù)——從海量的數(shù)據(jù)中提取知識和信息的技術(shù)的用武之地[1]。　　數(shù)據(jù)挖掘 DM（Data Mining）是指借助于人工智能和高級統(tǒng)計方法技術(shù)，　　運用聚類分析、神經(jīng)網(wǎng)絡、數(shù)據(jù)可視化、決策樹等技術(shù)，從大量數(shù)據(jù)中提取隱含　　的、全面的和有用的信息，

23、該信息可以揭示數(shù)據(jù)的不明顯的模式、趨勢或規(guī)則[2]。　　數(shù)據(jù)挖掘技術(shù)是面向應用的，它不僅面向特定數(shù)據(jù)庫的簡單檢索查詢調(diào)用，而且　　要對這些數(shù)據(jù)進行微觀、中觀乃至宏觀的統(tǒng)計、分析、綜合和推理，以知道實際　　問題的求解，企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián)，甚至利用已有的數(shù)據(jù)對未來的活動進

24、;　　1　　緒論　　行預測[3]。而稅務部門可以充分利用數(shù)據(jù)挖掘的這種功能，對既有數(shù)據(jù)進行全面　　的分析，對納稅人未來的納稅狀況進行預警和監(jiān)控。比如，可以通過了解各稅種　　的稅源戶數(shù)基本信息及其

25、變化、各時期納稅申報的基本情況、稅款入庫情況及其　　分析、稅源調(diào)查及發(fā)展趨勢預測等信息，為納稅人預警監(jiān)控提供充分的依據(jù)。還　　可以通過分析各稅種在全部稅收任務中所占的比例以及某一稅種中各行業(yè)稅收　　占總額的百分比，來預測未來的財政收入，并制定合理的稅收政策以充分發(fā)揮稅&l

26、t;b>　　收的經(jīng)濟調(diào)節(jié)作用。　　鑒于以上所述情況，將傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)應用于納稅人進行預警和監(jiān)控這　　一全新的領域，對稅務系統(tǒng)中積累的海量數(shù)據(jù)進行挖掘，從中提取對決策有價值　　的信息，解決數(shù)據(jù)和信息之間的鴻溝，建設基于數(shù)據(jù)倉庫、應用數(shù)據(jù)挖掘技術(shù)的

27、;　　納稅人預警監(jiān)控系統(tǒng)，將“數(shù)據(jù)墳墓”轉(zhuǎn)換成知識“金塊”就顯得很有必要。　　1.2 研究現(xiàn)狀及存在問題　　目前，致力于數(shù)據(jù)挖掘算法研究的學術(shù)團體、會議和組織有很多，其中比較著名的有 ACM SIGKDD、IEEE ICDM、SDM、PAKDD、VLDB、FSKD、MLDM等。到目前為止，由美國人工智能協(xié)會主辦的 KDD 國際研討會已經(jīng)召開了 18 次，

28、規(guī)模由原來的專題討論會發(fā)展到國際學術(shù)大會，研究重點也組建從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應用，注重多種發(fā)現(xiàn)策略和技術(shù)的集成，以及多種學科之間的相互滲透，如近年來注重對 Bayes（貝葉斯）方法以及 Boosting 方法的研究和提高；傳統(tǒng)的統(tǒng)計學回歸法在 KDD 中的應用等[4]。　　與國外相比，國內(nèi)對數(shù)據(jù)挖掘的研究稍晚，還沒有形成整體力量[5]。1993年國家自然科學基金首次支持對該領域的研究項目。目前，

29、國內(nèi)的許多科研單位和高等院校競相展開數(shù)據(jù)挖掘的基礎理論及其應用研究，包括清華大學、中科院計算技術(shù)研究所、空軍第三研究所、海軍裝備論證中心等。　　在稅務應用方面，隨著數(shù)據(jù)挖掘技術(shù)和數(shù)據(jù)挖掘平臺的不斷成熟，通過建立基于數(shù)據(jù)挖掘的決策支持系統(tǒng)來從海量數(shù)據(jù)中提取有價值的信息作為決策者的參考，從而提高管理者效率和稅收征管質(zhì)量已經(jīng)不再是不可能的事。澳大利亞哦稅務部門將數(shù)據(jù)挖掘技術(shù)應用于稅收征管，系統(tǒng)經(jīng)過三年

30、的運行，投入回報率高達 1：15；2002 年美國華盛頓國家稅務局通過建立數(shù)據(jù)倉庫和數(shù)據(jù)挖掘工作進行　　2　　緒論　　稽查選案，大大提高了對稽查選案時的準確性和稽查額度，節(jié)約了稽查成本并使稽查成果得到了大幅度提高[6]。</p&g

31、t;　　相比國外而言，我國國內(nèi)數(shù)據(jù)挖掘技術(shù)在稅務方面的應用還處在淺層次的應用階段中，金稅工程二期的實施使得全國建立了總局、省、地市、縣四級稅務廣域網(wǎng)，稅務部門以四級網(wǎng)絡為依托，實現(xiàn)了業(yè)務數(shù)據(jù)省級集中，積累了大量分布在各個應用系統(tǒng)中的涉稅信息，是稅務部門進行稅收分析的重要依據(jù)。國家的宏觀政策上已經(jīng)在金稅三期的工程里提到用數(shù)據(jù)挖掘方法來解決目前困擾稅務機關(guān)的納稅評估和稽查選案兩大問題，而且也有一部分地市作為帶頭人開始使

32、用數(shù)據(jù)挖掘工具。作為預警監(jiān)控和決策支持系統(tǒng)的一個重要組成部分，數(shù)據(jù)挖掘已經(jīng)越來越成為近年來稅務部門關(guān)注的焦點之一。　　稅務應用中用到的數(shù)據(jù)挖掘算法有關(guān)聯(lián)分析、序列模式分析、分類分析、聚類分析、預測分析和回歸分析 6 種[7]：　　1、關(guān)聯(lián)分析：關(guān)聯(lián)規(guī)則挖掘算法可以有效的識別出數(shù)據(jù)中不同字段之間內(nèi)在的關(guān)聯(lián)關(guān)系，關(guān)聯(lián)分析的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系，

33、在給定一組 Item 和一個記錄集合后，通過分析記錄集合，推導出 Item 間的相關(guān)性[8]。　　山東科技大學設計了一種稅務數(shù)據(jù)倉庫與數(shù)據(jù)挖掘系統(tǒng)，研究了 OLAP 技術(shù)以及數(shù)據(jù)倉庫的邏輯模型，并利用數(shù)據(jù)倉庫的理論來指導整個項目的設計和開發(fā)，針對如何從已有的大量稅收征管數(shù)據(jù)中發(fā)現(xiàn)其中隱含的對決策有用的信息這一問題，主要運用關(guān)聯(lián)規(guī)則進行數(shù)據(jù)挖掘，提取出供稅務機關(guān)各級領導分析和決策的信息[9]。但是

34、這個系統(tǒng)只實現(xiàn)了關(guān)聯(lián)規(guī)則算法，數(shù)據(jù)分析工具不完備，同時數(shù)據(jù)獲取成本較高。　　2、序列模式分析：序列模式用于預測一個具有時間先后順序的動作序列。比如，在購物的交易數(shù)據(jù)庫中，可能會發(fā)現(xiàn)“用戶在購買了電腦以后一段時間內(nèi) ，一定會去購買打印機”這樣的規(guī)則。　　華中科技大學提出了一種基于數(shù)據(jù)挖掘、 OLAP（On-Line Analytical Processin

35、g）以及 XML 的稅收決策支持系統(tǒng)的設計方案。論文討論了 OLAP、數(shù)據(jù)挖掘和數(shù)據(jù)倉庫在稅收決策支持系統(tǒng)上的應用，結(jié)合 XML 技術(shù)和多維數(shù)據(jù)模式設計的思想勾畫了一個稅收決策支持系統(tǒng)的架構(gòu)[2]。但對于挖掘過程和結(jié)果的展示，如分析預測功能的實現(xiàn)、多維分析模型或數(shù)據(jù)挖掘統(tǒng)計模型的發(fā)布等沒有　　3

36、緒論　　進行深入的討論及應用。　　3、分類分析：分類方法是一種有指導的學習，類別必須明確，并且必須有一定的己經(jīng)獲取到分類結(jié)果的數(shù)據(jù)用以創(chuàng)建分類模型，然后可以采用這個分類模型對新的數(shù)據(jù)進行分類。　　浙江臨海市地稅局 2002 年開發(fā)了地稅征管系統(tǒng)，該系統(tǒng)運用分類規(guī)則等數(shù)據(jù)挖掘技術(shù)提取了與地稅有

37、關(guān)的信息，并且獲得了稅種收入同比增與稅收總收入同比增的關(guān)系規(guī)則，為稅收預測和各級地稅管理層決策提供了科學的幫助，對提高臨海地稅征管質(zhì)量和管理者效率有較好的促進作用[10]。但是此系統(tǒng)只是在現(xiàn)有數(shù)據(jù)庫上進行簡單的數(shù)據(jù)挖掘，還處于嘗試階段，不能滿足新時期的管理需求。　　4、聚類分析：聚類就是將數(shù)據(jù)對象分組成為多個類，在同一個類中的對象之間具有較高的相似度，而不同類中的對象差別較大。相異度是根據(jù)描述

38、對象的屬性值來計算的。距離是經(jīng)常采用的度量方式。　　天津大學分析了目前廣泛應用的傳統(tǒng)神經(jīng)網(wǎng)絡方法在財務預警時存在的局限，提出了基于粗糙集屬性約簡的模糊神經(jīng)網(wǎng)絡預警模型，并且提出了兩種聚類方法，一種是基于粒子群優(yōu)化的模糊聚類算法，一種是基于粗糙集的 K-Means 聚類算法，為把聚類算法引入財務預警研究領域提供了一種新的嘗試[11]。雖然此系統(tǒng)提出的三種方法可以從不同角度去研究財務預警，但是對在哪

39、種情況下使用哪種方法具有更好的預測效果并沒有做出確切的結(jié)論，需要由研究人員根據(jù)經(jīng)驗和數(shù)據(jù)的現(xiàn)有狀況去判斷。　　5、預測分析(也稱時間序列分析)：根據(jù)按照時間順序的一定數(shù)量的連續(xù)的歷史數(shù)據(jù)，對于未來一個時間點或者幾個時間點的數(shù)據(jù)進行預測。預測分析是被經(jīng)常采用的分析手段，對于一些數(shù)值型的屬性，經(jīng)常采用這種分析手段來獲取未來的發(fā)展趨勢，并且根據(jù)預測結(jié)果進行預警分析等應用。<

40、;p>　　6、回歸分析：回歸分析用來分析兩個或者兩個以上的變量相互影響的程度，可以通過一個或者多個屬性的值來預測另一個變量的值。比如，在商品流通領域，經(jīng)常用回歸分析來分析商品價格與商品需要量之間的關(guān)系，以便對商品的價格和需求量進行控制。　　南京地稅建立的預警系統(tǒng)，利用 BP 神經(jīng)網(wǎng)絡、多元回歸和組合預測模型，探討了多元回歸模型中經(jīng)濟變量的篩選問題，但其實現(xiàn)的功能單一，不能滿足稅</

41、p>　　4　　緒論　　收各個層面的管理需要[12]。　　雖然各單位在把數(shù)據(jù)挖掘應用到稅務系統(tǒng)中都取得了一定的效果，但是數(shù)　　據(jù)、數(shù)據(jù)挖掘任務和數(shù)據(jù)挖掘方法的多樣性仍然

42、給數(shù)據(jù)挖掘提出了許多挑戰(zhàn)：　　1、數(shù)據(jù)挖掘準確性的提高，由于數(shù)據(jù)挖掘所處理的數(shù)據(jù)規(guī)模通常十分龐大　　并且在稅務應用中數(shù)據(jù)類型復雜、變化迅速，現(xiàn)有系統(tǒng)無法保證挖掘結(jié)果的準確　　性。　　2、現(xiàn)有系統(tǒng)一般無法提供對所使用算法的有效性和科學性

43、的證明，對在何　　種情況下使用何種方法效果更好不能給出確切的結(jié)論，需要由研究人員根據(jù)經(jīng)驗　　和數(shù)據(jù)的現(xiàn)有狀況去判斷。　　3、目前大多數(shù)基于數(shù)據(jù)挖掘的稅務系統(tǒng)實現(xiàn)的功能都比較單一，不能滿足　　稅收各個層面的管理需要。　　1.3 主要

44、研究內(nèi)容及特色　　我們的研究內(nèi)容是基于納稅人預警監(jiān)控系統(tǒng)的數(shù)據(jù)挖掘。在對原始數(shù)據(jù)進行多次預處理后，轉(zhuǎn)化成 csv 格式導入 Weka，然后以 Weka 作為數(shù)據(jù)挖掘平臺，對 Simple K-Means、X-Means、DBScan 等聚類算法進行改進和實現(xiàn)，最后對挖掘結(jié)果進行分析。具體來講，研究內(nèi)容包括以下幾個方面：　　1、數(shù)據(jù)預處理，由于原始數(shù)據(jù)分布

45、在不同的表中，并且存在許多字段冗余，因此，需要在數(shù)據(jù)庫中進行數(shù)據(jù)的集成和選擇，將分布在多個表中的原始數(shù)據(jù)進行關(guān)聯(lián)組合，提取與分析任務相關(guān)的屬性和數(shù)據(jù)；由于所要挖掘的原始數(shù)據(jù)存在大量缺失值和不合理數(shù)據(jù)，我們對原始數(shù)據(jù)做了清理，對缺失值根據(jù)數(shù)據(jù)的特點采用 Hot deck 插補、最大頻數(shù)或最近鄰域插補法處理，對噪音數(shù)據(jù)采用鄰域插補法進行平滑；由于我們采用 Weka 作為數(shù)據(jù)挖掘的平臺，還要把經(jīng)過預處理的數(shù)據(jù)轉(zhuǎn)化成其所能識別的格式導入 Wek

46、a，然后做進一步的預處理，如不相關(guān)屬性數(shù)據(jù)的清除、數(shù)據(jù)規(guī)范化處理等。　　2、聚類過程，以 Weka 作為數(shù)據(jù)挖掘平臺，對 K-Means、X-Means、DBScan　　EM 等數(shù)據(jù)挖掘算法進行改進，并且把改進的算法作為 Weka 平臺的插件來對數(shù)據(jù)進行聚類，使整個挖掘子系統(tǒng)能夠以 Weka 作為平臺來流暢的運行，并且能夠更有針對性的滿足我們的需求。&l

47、t;/p>　　5　　緒論　　3、聚類結(jié)果的分析和比較，對同一種數(shù)據(jù)挖掘算法進行改進前后挖掘結(jié)果進行縱向?qū)Ρ群头治?，對不同?shù)據(jù)挖掘算法挖掘所得結(jié)果進行橫向的對比，以評估所采用的算法的效果。　　本文主要研究預處理

48、算法，并對 X-Means 算法做了改進。其主要特點如下：　　1、通過對原始數(shù)據(jù)進行多種預處理，減弱了缺失值和不合理數(shù)據(jù)對數(shù)據(jù)挖　　掘過程的影響，使挖掘結(jié)果盡可能準確。　　2、通過對 X-Means 算法的改進，把實例個數(shù)少于 10 的簇單獨返回進行分析，并對其余實例重新進行聚類，這樣消除了少數(shù)噪聲點的干擾，使

49、聚類結(jié)果更具有實際參考價值。　　3、提供對數(shù)據(jù)預處理前后以及算法改進前后的對比分析，以驗證本文所采用的算法的效果。　　1.4 論文組織結(jié)構(gòu)　　本文重點探討預處理模塊的實現(xiàn)，同時對 X-Means 算法做了一些改進，并對結(jié)果進行了對比分析。總共分為五章，本為的組織結(jié)構(gòu)和各章的主要內(nèi)容如下：

50、　　第一章緒論，介紹了課題研究背景及實際意義、國內(nèi)外研究現(xiàn)狀以及存在的問題、本文的研究內(nèi)容以及特色等，并對本文的組織結(jié)構(gòu)進行了概述；　　第二章需求分析與系統(tǒng)結(jié)構(gòu)，闡述了納稅人預警監(jiān)控系統(tǒng)和數(shù)據(jù)挖掘子系統(tǒng)的需求，對用于挖掘工作的原始數(shù)據(jù)作了詳細說明，并且分析了數(shù)據(jù)挖掘子系統(tǒng)的系統(tǒng)結(jié)構(gòu)；　　第三章數(shù)據(jù)預處理模塊的實現(xiàn)，對 Weka 做

51、了簡單的描述并著重介紹了 Weka 平臺下預處理模塊的結(jié)構(gòu)和包含的算法。分析了用于數(shù)據(jù)挖　　掘的原始數(shù)據(jù)中存在的問題、預處理的功能和主要方法以及本系統(tǒng)中所用到的數(shù)據(jù)預處理方法。詳細闡述了數(shù)據(jù)預處理模塊的實現(xiàn)過程，包括數(shù)據(jù)集成和選擇、數(shù)據(jù)清洗和數(shù)據(jù)變化算法的設計和實現(xiàn)；第四章 X-Means 算法改進和結(jié)果分析，闡述了 X-Means 算法的思想，對其做了改進，并且分析了算法在不同數(shù)據(jù)源上進行數(shù)

52、據(jù)挖掘以及算法改進前后所得挖掘結(jié)果的不同，以評估本研究所采用算法的效果；　　6　　緒論　　第五章總結(jié)與展望，對本文和本系統(tǒng)研究的結(jié)果進行了概括和總結(jié)，分析　　了其尚待優(yōu)化之處，并對下一步研究進

53、行展望。　　7　　需求分析與系統(tǒng)結(jié)構(gòu)　　第二章需求分析與系統(tǒng)結(jié)構(gòu)　　稅收是一個古老的經(jīng)濟學范疇，在人類發(fā)展歷程中，稅收隨著國家的形成而　　產(chǎn)生，我國在吸

54、收西方稅收理論研究成果的基礎上，強調(diào)了稅收的法律特征，形　　成了對稅收本質(zhì)的基本認識，即：稅收是國家為了實現(xiàn)其職能，憑借政治權(quán)力參　　與社會產(chǎn)品分配，依照法律法規(guī)向經(jīng)濟單位和個人無償征收實物或貨幣所形成的　　特殊分配關(guān)系[13]。　　從稅收的本質(zhì)可以看出，稅收是收入從納稅

55、人向國家單方面的、無償?shù)霓D(zhuǎn)移。　　納稅人本能上會排斥這種使自身收入減少的稅收活動。為了使稅收征繳活動能夠　　順利實施，就迫切需要通過科學的管理手段來維持這種國家與納稅人之間的特殊　　分配關(guān)系，以確保稅收的征繳得以實現(xiàn)。　　本章將對納稅人預警監(jiān)控系統(tǒng)的需求和數(shù)據(jù)挖掘子系統(tǒng)

56、的需求進行分析，并　　且給出詳細的原始數(shù)據(jù)說明和系統(tǒng)結(jié)構(gòu)流程說明。　　2.1 納稅人預警監(jiān)控系統(tǒng)　　2.1.1系統(tǒng)概述　　當今社會，隨著科技日新月異的發(fā)展，現(xiàn)代化的信息技術(shù)在包括稅務征管在　　內(nèi)的各個社會層面得到了廣泛運用，對社

57、會生活生活正在并且將持續(xù)產(chǎn)生深遠的　　影響?，F(xiàn)代社會對信息技術(shù)的需求和依賴愈發(fā)強烈，稅務征管系統(tǒng)也不例外。發(fā)　　展稅務征管系統(tǒng)是充分發(fā)揮稅務機關(guān)的職能作用。它包括以下三個職能[14]:　　1、信息職能:是指根據(jù)科學稅收分析預測指標體系和方法，為各級領導科學　　決策和管理采

58、集、處理、傳遞、存儲和提供大量綜合反映稅務工作和社會經(jīng)濟信　　息；　　2、咨詢職能:是指利用已經(jīng)掌握的稅務信息資源，運用科學的分析預測方法，　　開展稅收分析預測和專題研究，為各級稅務部門領導決策和管理提供各種可供選　　擇的咨詢建議與

59、對策方案；　　3、監(jiān)督職能:是指根據(jù)稅收分析預測，及時、準確地從總體上反映稅務管理　　8　　需求分析與系統(tǒng)結(jié)構(gòu)　　活動和社會經(jīng)濟運行狀態(tài)，并對其實行全面、系統(tǒng)的定量檢查、監(jiān)測和預警，以使稅務管理活

60、動充分發(fā)揮職能作用，促進國民經(jīng)濟和社會事業(yè)按照客觀規(guī)律的要求持續(xù)穩(wěn)定協(xié)調(diào)的發(fā)展。　　雖然數(shù)據(jù)挖掘技術(shù)在稅務征管系統(tǒng)中的應用已經(jīng)取得很大進展，但是研究人員所側(cè)重的應用目標、挖掘的類型、采用的算法等均有所不同，互有優(yōu)劣。由于稅法和稅收政策的差異，以及具體業(yè)務流程的特點，導致了各個系統(tǒng)的功能和側(cè)重點都不盡相同，因此需要針對具體的情況設計解決方案。　　我們的納稅

61、人預警監(jiān)控系統(tǒng)的主要目標是建立一個納稅人稅收指標預警監(jiān)控模型，對已有的納稅人的違法事實與稅收異常行為進行相關(guān)分析，應用所獲取的知識，將有相似納稅行為的納稅人歸類，并遴選處于離群點位置的、有偷漏稅行為的潛在違法嫌疑的納稅人，實施重點監(jiān)控和稽查,提高稅務機關(guān)征管預警監(jiān)控的能力和稽查選案的工作效率。　　系統(tǒng)的開發(fā)環(huán)境如下：　　開發(fā)工具：基于 Eclipse3

62、.2(MyEclipse 5.5.1GA 插件)　　數(shù)據(jù)庫環(huán)境：Oracle10g　　數(shù)據(jù)挖掘平臺:WEKA3.6　　操作系統(tǒng)： Windows XP　　運行設備：后臺 PC 服務器、前端臺式機　　2.1.2系統(tǒng)功能</p

63、>　　目前，金稅工程以總局、省、地市、縣四級稅務廣域網(wǎng)為依托，實現(xiàn)了業(yè)　　務數(shù)據(jù)省級集中，但技術(shù)方面仍停留在建立數(shù)據(jù)倉庫、實現(xiàn)報表、查詢和多維分　　析上，系統(tǒng)運行效率不高，分析功能不多，抽取的有價值的信息有限。而隨著經(jīng)　　濟的發(fā)展和科學的進步，許多不法企業(yè)游走在偷逃稅款的灰色地帶，利用

64、各種方　　法弄虛作假，隱瞞應納稅額，蒙蔽執(zhí)法機關(guān)，稅務部門需要一種更先進更有效的　　稽查手段對其進行監(jiān)控。顯然，基于傳統(tǒng)事務處理的查詢、報表工具是無法完成　　這一任務的。　　因此，納稅人預警監(jiān)控系統(tǒng)應當滿足以下功能：

65、;　?。?）建立數(shù)據(jù)倉庫。由于各系統(tǒng)中數(shù)據(jù)格式不一致，且有可能存在大量重　　9　　需求分析與系統(tǒng)結(jié)構(gòu)　　復數(shù)據(jù)，在完成系統(tǒng)整合之后還需要對數(shù)據(jù)進行整合集中，消除冗余數(shù)據(jù)，統(tǒng)一數(shù)據(jù)格式，建立一體化的數(shù)據(jù)存儲環(huán)境。<

66、;/p>　　（2）數(shù)據(jù)預處理(缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理)。數(shù)據(jù)的質(zhì)量直接決定數(shù)據(jù)挖掘效果的好壞，數(shù)據(jù)質(zhì)量不高會給后續(xù)的加工和分析帶來很大的困難，因此，應當摸索缺失、冗余、不一致、噪音數(shù)據(jù)的判定和處理的可行方法。　　（3）運用數(shù)據(jù)挖掘技術(shù)，通過聚類分析（基于K-Means或DBSCAN等）、相關(guān)性分析等方法，建立一個納稅人稅收指標預警監(jiān)控模型，對已有的

67、納稅人的違法事實與稅收異常行為進行相關(guān)分析，應用所獲取的知識，遴選處于離群點位置的、有類似行為的潛在違法嫌疑的納稅人，實施重點監(jiān)控和稽查,提高稅務機關(guān)征管預警監(jiān)控的能力和稽查選案的工作效率。　　同時，納稅人預警監(jiān)控系統(tǒng)應當滿足以下特性：1、實用性，系統(tǒng)應該符合稅收工作實際要求，滿足領導決策需要。2、準確性，得出的預警監(jiān)控模型應有較高的置信度，可以明顯地提高稅務<p&

68、gt;　　機關(guān)征管預警監(jiān)控的能力和稽查選案的工作效率。　　3、可伸縮性，能夠適應大規(guī)模數(shù)據(jù)對象的處理，運行時間隨數(shù)據(jù)的規(guī)模以近似線性的方式遞增。　　4、可擴展性，設計的系統(tǒng)應該具備良好的擴展能力。5、可視化，具有良好的展現(xiàn)界面，有助于領導更簡潔、更方便地理解數(shù)據(jù)　　含義、在較高的抽象層次上觀察數(shù)據(jù)，做出決策。&l

69、t;/p>　　2.1.3數(shù)據(jù)說明　　系統(tǒng)采集的數(shù)據(jù)是廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的稅收　　征管業(yè)務原始系統(tǒng)數(shù)據(jù)。數(shù)據(jù)庫版本是 Oracle10g,字符集是 US7ASCII。　　從稅收征管業(yè)務原始系統(tǒng)數(shù)據(jù)中可以得到納稅人登記信息表（基礎表和<

70、/p>　　擴展表，包括納稅人的登記信息:經(jīng)營范圍、所屬行業(yè)代碼，所屬稅務機關(guān)　　代碼等）、代碼表（行業(yè)代碼、行業(yè)明細代碼、稅務機關(guān)代碼）、增值稅納稅　　申報表（其中包括銷售收入、已納稅額、所屬期等信息）和所得稅納稅申報　　表等六張表。表之間的 E-R 關(guān)系圖為：

71、　　10　　需求分析與系統(tǒng)結(jié)構(gòu)　　圖 2-1稅收征管業(yè)務原始系統(tǒng)數(shù)據(jù) E-R 圖　　各個表的結(jié)構(gòu)說明如下：　　11

72、　　需求分析與系統(tǒng)結(jié)構(gòu)　　12　　需求分析與系統(tǒng)結(jié)構(gòu)　　表 2-2dj_nsrxx_kz（登記_納稅人信息_擴展表）

73、13　　需求分析與系統(tǒng)結(jié)構(gòu)　　14　　需求分析與系統(tǒng)結(jié)構(gòu)　　15<p&

74、gt;　　需求分析與系統(tǒng)結(jié)構(gòu)　　16　　需求分析與系統(tǒng)結(jié)構(gòu)　　納稅人信息表（包括基本標和擴展表）包含了大約 68 萬條數(shù)據(jù)，詳盡且全面的描述了屬于廣西省國稅局征管范圍內(nèi)的所有納稅人的信息，包括納稅人名

75、稱、代碼、經(jīng)營內(nèi)容、所屬行業(yè)等。我們可以提取出納稅人識別號作為聚類分析所用結(jié)果事實表的主鍵，如果通過數(shù)據(jù)挖掘發(fā)現(xiàn)需要進行重點稽查的用戶，我們可以根據(jù)納稅人識別號與這兩張表中所提供的信息進行對應，對納稅人進行了解和找出進行稽查工作所需要的信息如納稅人的名稱、所處經(jīng)營地、聯(lián)系方式等。　　表 2-3dm_hymx(代碼_行業(yè)明細表)　　表 2-4dm_hy

76、（代碼_行業(yè)表)　　17　　需求分析與系統(tǒng)結(jié)構(gòu)　　表 2-5dm_swjg（代碼_稅務機關(guān)表）　　18<b&

77、gt;　　需求分析與系統(tǒng)結(jié)構(gòu)　　代碼表（包括代碼_行業(yè)明細表、代碼_行業(yè)表和代碼_稅務機關(guān)表）包　　含了納稅人所屬行業(yè)和稅務機關(guān)的信息，只有處于同一行業(yè)同一地區(qū)的納稅　　人所申報的銷售額和納稅額等與稅務管理和稽查相關(guān)的參考數(shù)據(jù)才有相互　　比較的價值，也

78、只有當同等條件下一個納稅人的銷售額與納稅額相比同一地　　區(qū)同種行業(yè)的其他納稅人而言明顯偏低或偏高時，才應當引起稅務稽查部門　　的注意。不同地區(qū)或不同行業(yè)的納稅人相互比較是沒有意義的，我們用于數(shù)　　據(jù)挖掘工作的結(jié)果事實表通過稅負差異率（即納稅人的稅負水平與行業(yè)平均　　稅負水

79、平之間的差異）來反映出這一點。　　表 2-6sb_zzs_2003_ybnsr（申報_增值稅_2003 版_一般納稅人表）　　19　　需求分析與系統(tǒng)結(jié)構(gòu)　　20</b&g

80、t;　　需求分析與系統(tǒng)結(jié)構(gòu)　　納稅申報表是我們的核心表之一，共包含 28 萬條數(shù)據(jù)，描述了納稅人稅收申報的信息。在稅收業(yè)務中，都是納稅人先自行申報收入，繳納稅款，如果稅務機關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑，才會去稽查，稽查發(fā)現(xiàn)有問題，再補繳稅款并予以處罰的。因此，納稅人申報表對稅務機關(guān)進行稅收預測和各級地稅管理層制定決策具有重

81、要參考價值。也是我們進行數(shù)據(jù)挖掘，實現(xiàn)為管　　21　　需求分析與系統(tǒng)結(jié)構(gòu)　　理層做出科學的決策提供幫助、提高稅收征管的質(zhì)量和效率這一目的的過程中所需要特別重視的。　　2.2 數(shù)據(jù)挖掘子系統(tǒng)的需求分

82、析　　2.2.1數(shù)據(jù)挖掘子系統(tǒng)概述　　在實際的稅收征管過程中，針對不同情況的納稅人所采取的監(jiān)控措施是不一樣的。因此，在進行深層次的挖掘分析之前，需要先對納稅人進行歸類處理，將具有相似行為的納稅人集中到一起，以方便后續(xù)的分析工作。我們的數(shù)據(jù)挖掘子系統(tǒng)主要集中在對原始數(shù)據(jù)的預處理和聚類挖掘、結(jié)果分析上。　　預處理方

83、面，我們的原始數(shù)據(jù)來自廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的業(yè)務數(shù)據(jù)。盡管在核心應用系統(tǒng)運行前，稅務部門對歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作，盡可能避免錄入問題數(shù)據(jù)，但是業(yè)務系統(tǒng)的各種數(shù)據(jù)質(zhì)量問題依然普遍存在，包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問題數(shù)據(jù)的來源既有歷史導入的，也有前臺錯誤錄入的，還有后臺誤修改或修改不完整導致的。數(shù)據(jù)質(zhì)量不高給后續(xù)加工分析帶來很大的困難，因此要摸索缺失、冗

84、余、不一致、噪聲數(shù)據(jù)的判定和處理的可行方法。　　聚類挖掘是根據(jù)納稅人與納稅行為有關(guān)的各種屬性，按照某個特定標準(一般為距離準則)把所給的數(shù)據(jù)集分割成不同的類或簇(Cluster)，使得在同一簇內(nèi)的數(shù)據(jù)對象的相似性盡可能的大，同時不同簇中的數(shù)據(jù)對象的差異性也盡可能的大。也就是說，聚類后同一類別的數(shù)據(jù)盡可能的聚集在一起，而不同的數(shù)據(jù)盡量分離。　　因為在實際應

85、用中，不同聚類算法產(chǎn)生的結(jié)果會隨著應用數(shù)據(jù)的不同而產(chǎn)生變化，并不是所有數(shù)據(jù)挖掘的結(jié)果都是準確并且有意義的，有些挖掘結(jié)果是沒有意義甚至是與實際情況相違背的，這就需要對聚類結(jié)果進行分析，包括對不同算法產(chǎn)生的結(jié)果的對比以及同種算法在進行改進前后的對比等，從而選擇出最合適的聚類結(jié)果，為稅收稽查人員按照不同類別對納稅人進行有針對性的監(jiān)控管理提供可靠依據(jù)。　　22<

86、;/p>　　需求分析與系統(tǒng)結(jié)構(gòu)　　2.2.2數(shù)據(jù)挖掘子系統(tǒng)的需求　　稅務稽查的經(jīng)驗表明，納稅人的某種違法行為發(fā)生前，總有一系列的稅收異常行為。如稅負指標反映了納稅人的實際稅收負擔水平，如果納稅人的稅負明顯低于同行業(yè)其他納稅人，說明納稅人實際繳納的稅款遠低于同行業(yè)的平均水平，而納稅人又沒有

87、正當理由能夠解釋，則納稅人很可能有偷稅漏稅的違法行為；又如納稅人每月納稅申報數(shù)字為零，但發(fā)票的購買量、使用量卻很大，這往往是納稅人虛開增值稅專用發(fā)票犯罪的征兆；再如納稅人明明可以享受增值稅進項稅款抵扣的優(yōu)惠，卻長期不去稅務部門認證、沖抵稅款，這很可能是納稅人故意隱瞞進項，進而隱瞞銷項，掩蓋其現(xiàn)金交易、收入長期不入帳，不申報納稅的偷稅犯罪。因此，數(shù)據(jù)挖掘子系統(tǒng)應當能夠通過對多個指標進行考察，從多個方面綜合判斷納稅人是否存在偷漏稅行為。若

88、異常指標出現(xiàn)的數(shù)量越多，納稅人偷逃稅款的嫌疑就越大。　　在稅收實踐中，通常還需要根據(jù)納稅人行為異常的程度將納稅人劃分為不同類別，設定不同監(jiān)控等級，并采取重點稽查、一般抽查、日常征管等相應的監(jiān)控措施。比如一小部分企業(yè)的銷售額巨大，同時出現(xiàn)了較多的異常指標，這部分納稅人不多，但涉及的稅額巨大，說明他們有很大偷逃稅款的嫌疑，一旦確認出現(xiàn)偷逃稅款的違法行為將對國家財產(chǎn)造成重大損失，應當加大力度對其進行重

89、點監(jiān)控和稽查。如果納稅人有出現(xiàn)異常指標，但異常指標出現(xiàn)的數(shù)量較少，說明納稅人有可能存在輕微的偷漏稅違法行為，需要對這部分納稅人進行抽查以示警告，避免其偷逃稅款情節(jié)的加重，導致更大的違法犯罪行為。對于沒有明顯異常行為的納稅人，則按照日常征管的方式進行監(jiān)控。因此，聚類分析子系統(tǒng)還應該能夠判斷納稅人的監(jiān)控級別，以便稅務工作人員對其實施相應的征管監(jiān)控措施，提高管理針對性。　　根據(jù)上述分析，并綜合稅收部門

90、多年的稽查經(jīng)驗，我們的數(shù)據(jù)挖掘子系統(tǒng)擬使用以下四個指標作為判斷納稅人類別的標準：銷售額（XSE）、購電銷售比差異率（GDXSBCYL）、稅負差異率（SFCYL）、稅收彈性（SSTX）。我們的數(shù)據(jù)挖掘子系統(tǒng)也是從以上四個維度進行挖掘。包含這四個維度的結(jié)果事實表稱為分戶維度表（FHWDB），其結(jié)構(gòu)如下：　　23<b

91、>　　需求分析與系統(tǒng)結(jié)構(gòu)　　銷售額維購電銷售比差異　　率維　　分戶維度表　　稅收彈性維&

92、lt;b>　　稅負差異率維　　圖 2-2數(shù)據(jù)挖掘的維度說明　　1、銷售額（XSE）維：　　銷售額是指企業(yè)自行申報的銷售額。銷售額越大，涉及的稅款越多，越需要重點監(jiān)控。　　2、購電銷售比差異率（GDXSBCYL）維：<

93、;p>　　購電銷售比是指單位銷售額的用電數(shù)量，反映企業(yè)的能耗情況，而企業(yè)的能耗情況又可以間接反映其生產(chǎn)情況。購電銷售比差異率大于 0，表明企業(yè)用電多，申報的銷售收入低于行業(yè)平均水平；購電銷售比差異率小于 0，表明企業(yè)用電少，申報的銷售收入高于行業(yè)平均水平。購電銷售比越高，說明可能存在隱瞞銷售收入從而達到其偷逃稅款的目的，納稅人偷漏稅的嫌疑越大。　　3、稅負差異率（SFCYL）維：</

94、p>　　稅負是指納稅人的納稅額與銷售額之比，稅負差異率表明了納稅人的稅　　負水平與行業(yè)平均稅負水平之間的差異。稅負差異率大于 0，表明納稅人的　　稅負低于同行業(yè)其他納稅人；稅負差異率小于 0，表明納稅人的稅負重于同　　行業(yè)的其他納稅人。稅負差異率越大，表明納稅人的稅負越輕，納稅人偷漏&

95、lt;/p>　　稅的嫌疑越大。　　4、稅收彈性（SSTX）維：　　24　　需求分析與系統(tǒng)結(jié)構(gòu)　　稅收彈性系數(shù)是指納稅人納稅增長的比

96、率與收入增長的比率之比，即稅額的同比增長率/銷售額的同比增長率，理想情況下應為 1。稅收彈性小于 0，表明納稅人納稅絕對值減少；大于 0，表明納稅人納稅絕對值增加；稅收彈性在 0 到 1 之間，表明納稅的增長滯后于其收入的增長；大于 1，表明納稅增長快于收入的增長。稅收彈性越小，稅額與銷售額相比增長的越慢，偷漏稅的嫌疑越大。　　數(shù)據(jù)挖掘子系統(tǒng)的目標就是根據(jù)以上四個指標，采用不同的算法對所給數(shù)據(jù)集

97、進行聚類，并且對聚類結(jié)果進行分析。目的是盡可能準確的判斷數(shù)據(jù)集中所包含的記錄哪些應該重點稽查，哪些應該一般抽查或日常征管，從而為稅收稽查人員按照聚類所產(chǎn)生的不同類別對納稅人進行有針對性的監(jiān)控管理提供可靠依據(jù)，提高稅務機關(guān)征管預警監(jiān)控的能力和稽查選案的工作效率。　　2.2.3數(shù)據(jù)說明　　通過采集工業(yè)企業(yè)一般納稅人稅收征管業(yè)務多個表關(guān)聯(lián)后的結(jié)果數(shù)據(jù)，我們得

98、到稅收彈性表、工業(yè)用電表和稅負表共三張表。各個表的結(jié)構(gòu)說明如下：　　表 2-7SSB_SSTX（事實表_稅收彈性）　　25　　需求分析與系統(tǒng)結(jié)構(gòu)　　通過這張表中的字段，我們可以得出納稅人的稅收彈

99、性系數(shù)（SSTX），計算公式為：　　SSTX = ( SE2 ? SE1) / ( XSE2 ? XSE1 )　　SE1XSE1　　稅收彈性系數(shù)含義是納稅人納稅增長的比率與收入增長的比率之比，即稅額的同比增長率/銷售額的同比增長率，理想情況下應為 1。在同等條件下，稅收

100、彈性越小表明納稅人偷稅漏稅的可能性越高。　　表 2-8SSB_GYYD(事實表_工業(yè)用電)　　通過這張表中的字段，我們可以得出納稅人的購電銷售比差異率（GDXSBCYL），計算公式為：　　HYXSE　　購電銷售比是指單位銷售額的用電

101、數(shù)量，企業(yè)能耗情況，可以間接反映　　其生產(chǎn)情況。購電銷售比偏高，反映可能存在隱瞞銷售收入，從而達到其偷　　逃稅款的目的。因此，在同等條件下，稅收彈性越小表明納稅人偷稅漏稅的　　可能性越高。　　26

102、　　需求分析與系統(tǒng)結(jié)構(gòu)　　在稅收業(yè)務中，都是納稅人先自行申報收入，繳納稅款，如果稅務機關(guān)發(fā)現(xiàn)納稅人有偷稅嫌疑，才會去稽查，稽查發(fā)現(xiàn)有問題，再補繳稅款并予以處罰的。但 GDXSBCYL 中的企業(yè)用電情況，是從第三方獲得的數(shù)據(jù)（即不是納稅人自行申報的），因此購電銷售比差異率（GDXSBCYL）相對更加準確可靠。</

103、p>　　表 2-9SSB_SF（事實表_稅負）　　通過這張表中的字段，我們可以得出納稅人的稅負差異率（SFCYL），其計算公式為：　　SFCYL = (HYSF-QYSF) / HYSF　　稅負差異率反映納稅人的稅負情況與同行業(yè)平均水平相比的差異度，稅<

104、p>　　負是即稅收負擔，是指納稅人的納稅額與銷售額之比，計算公式為：　　納稅人稅負= 納稅人納稅額納稅人銷售額　　稅負指標反映了納稅人的實際稅收負擔水平。稅負差異率大于 0，表明　　納稅人稅負低于同行業(yè)其他納稅人；稅負差異率小于 0，表明納稅人稅負重　　于同行業(yè)的其

105、他納稅人。在同等條件下，稅負差異率越大表明納稅人偷稅漏　　27　　需求分析與系統(tǒng)結(jié)構(gòu)　　稅的可能性越大。　　對以上原始數(shù)據(jù)表中的字段進行提成和選擇，根據(jù)特定的

106、轉(zhuǎn)換規(guī)則對原　　始數(shù)據(jù)表中的數(shù)據(jù)進行計算和轉(zhuǎn)換，可以得到用于數(shù)據(jù)挖掘工作的結(jié)果集：　　分戶維度表（FHWDB）。分戶維度表的結(jié)構(gòu)如下：　　表 2-10FHWDB（分戶維度表）　　我們的數(shù)據(jù)挖掘子系統(tǒng)就是根據(jù)以上四個指標，對采用不同的桔類算法<

107、;p>　　對所給經(jīng)過預處理的分戶維度表（FHWDB）中的數(shù)據(jù)進行聚類，并且對聚　　類結(jié)果進行分析。目的是盡可能準確的對結(jié)果事實表中所包含的記錄進行分　　類，判斷哪些納稅人應該重點稽查，哪些應該一般抽查或日常征管，從而為　　稅收稽查人員按照聚類所產(chǎn)生的結(jié)果對納稅人進行有針對性的監(jiān)控管理提

108、　　供可靠依據(jù)。　　2.3 數(shù)據(jù)挖掘子系統(tǒng)的結(jié)構(gòu)　　聚類分析子系統(tǒng)的主要功能是根據(jù)異常指標實現(xiàn)納稅人的自動聚類，并允　　許用戶以交互的方式設置一些算法運行時的參數(shù)。　　聚類分析子系統(tǒng)的運行流程如下圖所示：</

109、p>　　28　　需求分析與系統(tǒng)結(jié)構(gòu)　　根據(jù)數(shù)據(jù)挖掘子系統(tǒng)的目標和以上系統(tǒng)流程，我們把數(shù)據(jù)挖掘子系統(tǒng)分為四個層面：原始數(shù)據(jù)層、信息整合層、數(shù)據(jù)挖掘?qū)雍徒Y(jié)果分析層。　　1、原始數(shù)據(jù)層：</b

110、>　　本數(shù)據(jù)挖掘子系統(tǒng)的原始數(shù)據(jù)來源于廣西省國稅局 2008 年 1 月 1 日到 12 月 31 日的稅收征管業(yè)務原始系統(tǒng)數(shù)據(jù)。從稅收征管業(yè)務原始系統(tǒng)數(shù)據(jù)文件導入后，一共有 6 張表：dj_nsrxx（登記_納稅人信息表）、dj_nsrxx_kz（登記_納稅人信息_擴展表）、dm_hymx(代碼_行業(yè)明細表)、dm_hy（代碼_行業(yè)表）、dm_swjg（代碼_稅務機關(guān)）和 sb_zzs_

111、2003_ybnsr（申報_增值稅_2003 版_一般納稅人表），其中核心表（sb_zzs_2003_ybnsr）中包含 28 萬條數(shù)據(jù)，納稅人信息表（dj_nsrxx及 dj_nsrxx_kz）中包含 68 萬條數(shù)據(jù)，結(jié)果表中單月大約有 1.5 萬條數(shù)據(jù)。從工業(yè)企業(yè)一般納稅人稅收征管業(yè)務多個表關(guān)聯(lián)后的結(jié)果數(shù)據(jù)文件導入后，一共有　　張表：SSB_SSTX（事實表_稅收彈性）、SSB_GYYD(

112、事實表_工業(yè)用電)和 SSB_SF （事實表_稅負），每張表中包含 6745 戶工業(yè)一般納稅人數(shù)據(jù)。　　圖 2-3數(shù)據(jù)挖掘子系統(tǒng)流程圖　　29　　需求分析與系統(tǒng)結(jié)構(gòu)　　盡管在核心應用系統(tǒng)運行前，

113、稅務部門對歷史數(shù)據(jù)曾組織了大規(guī)模的數(shù)據(jù)審核清理工作，盡可能避免錄入問題數(shù)據(jù)，但是業(yè)務系統(tǒng)的各種數(shù)據(jù)質(zhì)量問題依然普遍存在，包括缺失數(shù)據(jù)、冗余數(shù)據(jù)、不一致數(shù)據(jù)和噪聲數(shù)據(jù)。這些問題數(shù)據(jù)的來源既有歷史導入的，也有前臺錯誤錄入的，還有后臺誤修改或修改不完整導致的。　　2、信息整合層：　　如果說原始數(shù)據(jù)層是完成對基礎數(shù)據(jù)的管理和

114、存儲，那么信息整合層則是不同來源的基礎數(shù)據(jù)進行數(shù)據(jù)抽取、清洗、加工、將基礎數(shù)據(jù)從面向應用轉(zhuǎn)變?yōu)槊嫦蛑黝}的一個高效數(shù)據(jù)加工工廠。該層根據(jù)元數(shù)據(jù)庫中的主題表定義、數(shù)據(jù)源定義、數(shù)據(jù)抽取規(guī)則定義對異地異構(gòu)數(shù)據(jù)源進行清理、轉(zhuǎn)換，對數(shù)據(jù)進行重新組織和加工，最后轉(zhuǎn)化成 Weka 數(shù)據(jù)挖掘平臺所能識別的格式導入 Weka，以便進行后續(xù)的挖掘工作。　　在本文中，信息整合層就是將稅務信息系統(tǒng)的數(shù)據(jù)進行有機的整合集成

115、而實現(xiàn)對業(yè)務應用信息數(shù)據(jù)共享的過程。利用信息整合技術(shù)，可以有效地消除信息孤島，合理地整合現(xiàn)有及未來的稅收應用系統(tǒng)的信息數(shù)據(jù)。　　3、數(shù)據(jù)挖掘?qū)樱?lt;/b>　　數(shù)據(jù)挖掘能夠從大量的數(shù)據(jù)中挖掘出有趣的知識。在稅務信息系統(tǒng)中，存放的信息主要包括納稅戶的基本情況、納稅戶申報、繳納稅款等信息。我們通過對 Weka 數(shù)據(jù)挖掘平臺下聚類算法

116、的改進來對納稅人的納稅情況進行考察，查看納稅人的繳納稅款情況，對納稅人進行歸類處理，將具有相似行為的納稅人集中到一起，作為稅務機關(guān)下一步稽查工作的參考。　　4、結(jié)果分析層：　　我們的數(shù)據(jù)挖掘子系統(tǒng)允許用戶在聚類過程中設定一些運行時的參數(shù)，不同的參數(shù)設置會產(chǎn)生不同的結(jié)果；由于我們對算法進行了一系列的改進，算法改進前后也

眾賞文庫> 全部分類> 畢業(yè)設計

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 眾賞文庫僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權(quán)或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預警監(jiān)控系統(tǒng)--預處理模塊和 x-means 算法改進

文檔簡介

溫馨提示

最新文檔

評論

畢業(yè)論文——基于數(shù)據(jù)挖掘的納稅人預警監(jiān)控系統(tǒng)--預處理模塊和 x-means 算法改進

文檔簡介

溫馨提示

最新文檔

評論

免費下載