1、網(wǎng)頁(yè)挖掘中的一個(gè)主要問(wèn)題是對(duì)網(wǎng)頁(yè)進(jìn)行相關(guān)性挖掘.網(wǎng)頁(yè)的相關(guān)性挖掘首先從各種網(wǎng)頁(yè)文本對(duì)象中抽取出能反映其本質(zhì)的重要特征,將這些網(wǎng)頁(yè)文本對(duì)象映射成高維特征空間中的點(diǎn),然后通過(guò)高維空間中的距離計(jì)算來(lái)完成.通過(guò)網(wǎng)頁(yè)文本的相關(guān)性挖掘,可以將網(wǎng)頁(yè)文本集合中相似的文本聯(lián)系起來(lái),便于從中發(fā)現(xiàn)有用的知識(shí).本文首先從基本概念入手,闡明了數(shù)據(jù)挖掘和網(wǎng)頁(yè)挖掘的主要內(nèi)容.然后,對(duì)數(shù)據(jù)挖掘的重要工具聚類分析算法的相關(guān)部分(如聚類分析中的數(shù)據(jù)表示、距離度量和常用算法