2023年全國碩士研究生考試考研英語一試題真題(含答案詳解+作文范文)_第1頁
已閱讀1頁,還剩2頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、12014~2015學(xué)年學(xué)年第二學(xué)期期末考試第二學(xué)期期末考試數(shù)據(jù)挖掘技術(shù)數(shù)據(jù)挖掘技術(shù)試卷(試卷(A卷)參考答案卷)參考答案使用班級(jí)使用班級(jí)1250411121314答題時(shí)間答題時(shí)間_120分鐘分鐘_一、填空題一、填空題(共(共10空每空每空1分,分,共10分)分)1.數(shù)據(jù)挖掘的任務(wù):分類、聚類、回歸、關(guān)聯(lián)分析、離群點(diǎn)監(jiān)測、演化分析、序列模式。2.數(shù)據(jù)集的三個(gè)重要特性:_維度、稀疏性、分辨率。二、判斷題二、判斷題(共(共10小題小題每小題

2、每小題1分,共10分)分)判斷下列判斷下列3~7小題的描述是否正確?小題的描述是否正確?3.ID3算法不僅可以處理離散屬性,還可以處理連續(xù)屬性。(F)4.決策樹方法通常用于關(guān)聯(lián)規(guī)則挖掘。(F)5.先驗(yàn)原理可以表述為,一個(gè)頻繁項(xiàng)集的任一子集也應(yīng)該是頻繁的。(T)6.Clementine是IBM公司的專業(yè)級(jí)數(shù)據(jù)挖掘軟件。(T)7.具有較高的支持度的項(xiàng)集具有較高的置信度。(F)判斷下列判斷下列8~12小題的描述是否屬于數(shù)據(jù)挖掘任務(wù)?小題的描述

3、是否屬于數(shù)據(jù)挖掘任務(wù)?8.利用歷史數(shù)據(jù)預(yù)測公司將來的股價(jià)。(T)9.監(jiān)測病人心率的異常變化。(F)10.監(jiān)測地震活動(dòng)的地震波。(F)11.提取聲波的頻率。(F)12.根據(jù)顧客喜好擺放商品位置。(T)三、簡答題(三、簡答題(6個(gè)小題,每小題個(gè)小題,每小題5分,共分,共30分)分)13.什么是信息熵?答:信息熵(entropy)是用來度量一個(gè)屬性的信息量(1分)。假定S為訓(xùn)練集,S的目標(biāo)屬性C具有m個(gè)可能的類標(biāo)號(hào)值,C=C1C2…Cm,假定

4、訓(xùn)練集S中,Ci在所有樣本中出現(xiàn)的頻率為(i=123…m),則該訓(xùn)練集S所包含的信息熵定義為:(3分)熵越小表示樣本對(duì)目標(biāo)屬性的分布越純,反之熵越大表示樣本對(duì)目標(biāo)屬性分布越混亂。(1分)14什么是文本挖掘?答:文本挖掘是一個(gè)對(duì)具有豐富語義的文本進(jìn)行分析,從而理解其所包含的內(nèi)容和意義的過程。(2分)對(duì)其進(jìn)行深入的研究可以極大地提高人們從海量文本數(shù)據(jù)中提取信息的能力,具有很高的商業(yè)價(jià)值。(1分)包括分詞、文本表示、文本特征選擇、文本分類、文

5、本聚類、文檔自動(dòng)摘要等內(nèi)容。(2分)15.什么是主成份分析?答:主成份分析(PCA)是一種用于連續(xù)屬性的線性變換技術(shù),找出新的屬性(主成份),(1分)這些新屬性是原屬性的線性組合,(1分)是相互正交的,(1分)使得原來數(shù)據(jù)投影到較小的集合中,并且捕獲數(shù)據(jù)的最大變差。(1分)PCA通常揭示先前未曾覺察的聯(lián)系,解釋不尋常的結(jié)果。(1分)16.簡述k最近鄰算法過程。答:KNN分類算法的基本描述如下:算法名:KNN輸入:最近鄰數(shù)目K,訓(xùn)練集D,

6、測試集Z(1分)輸出:對(duì)測試集Z中所有測試樣本預(yù)測其類標(biāo)號(hào)值(1分)(1)f每個(gè)測試樣本(1分)do(2)計(jì)算z和每個(gè)訓(xùn)練樣本之間的距離(1分)(3)選擇離z最近的k最近鄰集合(1分)(4)返回中樣本的多數(shù)類的類標(biāo)號(hào)(1分)(5)endf17.簡述Aprii算法原理。答:Aprii性質(zhì):一個(gè)項(xiàng)集是頻繁的,那么它的所有子集都是頻繁的。(1分)一個(gè)項(xiàng)集的支持度不會(huì)超過其任何子集的支持度。(1分)該算法采用逐層的方法找出頻繁項(xiàng)集,(1分)首先

7、找出1頻繁項(xiàng)集,通過迭代方法利用頻繁k1項(xiàng)集生成k候選項(xiàng)集,(1分)掃描數(shù)據(jù)庫后從候選k項(xiàng)集中指出頻繁k項(xiàng)集,直到生成的候選項(xiàng)集為空。(1分)18.什么是離群點(diǎn)?答:離群點(diǎn)是在數(shù)據(jù)集中偏離大部分?jǐn)?shù)據(jù)的數(shù)據(jù),(2分)使人懷疑這些數(shù)據(jù)的偏離并非由隨機(jī)因素產(chǎn)生,(1分)而是產(chǎn)生于完全不同的機(jī)制。(2分)四、計(jì)算題四、計(jì)算題(共(共2題每小題每小題20分,共40分)分)1221()(...)logmmiiiEntropySEntropypppp

8、p?????()zxyZ??()xyD?zDD?()dxxzD3根據(jù)Bayes定理,P(Y=y|X)=P(X|Y=y)P(Y=y)=P(x1|Y=y)P(x2|Y=y)P(x3|Y=y)P(x4|Y=y)P(Y=y)(2分)這里,P(x1|Y=y)=P(x1=下雨|Y=y)=36(1分)P(x2|Y=y)=P(x2=高|Y=y)=16(1分)P(x3|Y=y)=P(x3=中等|Y=y)=46(1分)P(x4|Y=y)=P(x4=微風(fēng)|Y

9、=y)=56(1分)P(Y=y)=610(1分)因此,P(Y=y|X)=36164656610=136(1分)同理,計(jì)算P(Y=n|X)=P(X|Y=n)P(Y=n)=P(x1|Y=n)P(x2|Y=n)P(x3|Y=n)P(x4|Y=n)P(Y=n)(1分)其中,P(x1|Y=n)=P(x1=下雨|Y=n)=14(1分)P(x2|Y=n)=P(x2=高|Y=n)=24(1分)P(x3|Y=n)=P(x3=中等|Y=n)=14(1分)P

10、(x4|Y=n)=P(x4=微風(fēng)|Y=n)=24(1分)P(Y=n)=410(1分)因此,P(Y=n|X)=14241424410=1160(1分)因?yàn)镻(Y=y|X)P(Y=n|X),故氣候狀況為雨天,高溫,濕度中等,微風(fēng)時(shí),戶外運(yùn)動(dòng)應(yīng)為適合。(2分)五、應(yīng)用題五、應(yīng)用題(共(共1題,共題,共10分)分)21.你作為銀行信息中心工作人員,請(qǐng)闡述數(shù)據(jù)挖掘技術(shù)在銀行業(yè)務(wù)中的應(yīng)用,并寫出相關(guān)的數(shù)據(jù)分析流程。參考答案:利用數(shù)據(jù)預(yù)處理技術(shù)進(jìn)行數(shù)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論