在數(shù)據(jù)挖掘中保護(hù)隱私信息的研究.pdf_第1頁
已閱讀1頁,還剩122頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

1、數(shù)據(jù)挖掘是當(dāng)今社會最為重要的知識發(fā)現(xiàn)工具,它在為人們揭示出數(shù)據(jù)中的隱藏規(guī)律并創(chuàng)造出財富的同時,也對各類數(shù)據(jù)有著大量的需求。隨著互聯(lián)網(wǎng)的出現(xiàn)和發(fā)展,對所需數(shù)據(jù)的收集、交換和發(fā)布的過程正變得越來越便利。然而,這些豐富的數(shù)據(jù)資源中也同時包含著大量的個人隱私、商業(yè)情報和政府機(jī)密。更為令人擔(dān)憂的是,在這些數(shù)據(jù)的實(shí)際使用過程中,特別是在挖掘過程中,大量的信息卻能被不加限制的肆意利用,個人隱私和機(jī)密信息的泄露嚴(yán)重影響了人們的日常生活甚至社會的穩(wěn)定。于

2、是,數(shù)據(jù)挖掘過程中隨手可得的海量信息也就使得人們對濫用隱私的憂慮在挖掘工具的運(yùn)用上得到了集中的反映。 面對在數(shù)據(jù)挖掘中保護(hù)隱私的迫切要求,傳統(tǒng)的保護(hù)方法卻難以勝任,因?yàn)樗鼈冊诒Wo(hù)敏感信息的同時,也妨礙了數(shù)據(jù)中知識的獲取。針對數(shù)據(jù)挖掘中的隱私保護(hù)和知識獲取這一對棘手的矛盾,我們研究和提出了一系列變換原始數(shù)據(jù)的過程、協(xié)議和方法,阻止了挖掘過程的參與者對隱私信息直接或間接的獲取,同時也使得挖掘算法能夠從轉(zhuǎn)換后的數(shù)據(jù)之中獲得原始數(shù)據(jù)包含

3、的信息和知識。大量仿真實(shí)驗(yàn)的測試結(jié)果,以及與現(xiàn)有方法的對比成績也驗(yàn)證了我們方法的有效性。由此,我們不但消除了傳統(tǒng)挖掘過程中存在的隱私泄露風(fēng)險,也使得挖掘過程仍然可以取得準(zhǔn)確的結(jié)果。我們將本文的創(chuàng)新點(diǎn)和主要工作概括如下: 1.提出了隱私信息由數(shù)據(jù)關(guān)聯(lián)構(gòu)成的本質(zhì),并同時提出了兩種保護(hù)隱私的策略。通過研究現(xiàn)有隱私保護(hù)模型中的不同數(shù)據(jù)對象,我們發(fā)現(xiàn)無論何種數(shù)據(jù)屬性都不能準(zhǔn)確的表示出數(shù)據(jù)集合中所包含的隱私信息。通過進(jìn)一步的例證、理論分析和

4、比較,我們提出了隱私信息的本質(zhì)屬性:數(shù)據(jù)間的關(guān)聯(lián),并由此提出了兩類保護(hù)隱私的策略:分解隱私信息和轉(zhuǎn)換隱私信息,將它們作為隱私保護(hù)研究的指導(dǎo)思想。同時,我們也詳細(xì)介紹了隱私保護(hù)的原因、意義及其模型的應(yīng)用范圍和場景。 2.提出了利用隨機(jī)化技術(shù)來分解隱私信息的方法,并提出了平衡隱私保護(hù)和知識獲取這對矛盾的可調(diào)節(jié)機(jī)制,同時也消除了先驗(yàn)知識對隱私的威脅。我們在發(fā)布數(shù)據(jù)集合的問題中,結(jié)合分解隱私信息的策略,提出了一種利用隨機(jī)化技術(shù)來保護(hù)隱私

5、的方法。該方法利用原始數(shù)據(jù)的分布信息,隨機(jī)選取部分原始數(shù)值進(jìn)行轉(zhuǎn)換,與匿名化和多樣化隱私保護(hù)模型相比,我們的方法不僅大幅提高了使用者對原始數(shù)據(jù)的不確定程度,而且還能夠保持?jǐn)?shù)據(jù)中的大部分有用知識。同時,針對用戶掌握的先驗(yàn)知識可能會造成的隱私泄露,我們提供了一種平衡隱私保護(hù)和挖掘準(zhǔn)確性的可調(diào)節(jié)方法。 3.提出了轉(zhuǎn)換隱私信息的數(shù)據(jù)變換協(xié)議和數(shù)據(jù)整合方法,在惡意合謀的情況下實(shí)現(xiàn)了隱私的保護(hù),并提出了按需定制隱私保護(hù)程度的方法。我們結(jié)合轉(zhuǎn)

6、換隱私信息的策略,為每一位數(shù)據(jù)擁有者提出了轉(zhuǎn)換其原始數(shù)據(jù)的方式和傳輸數(shù)據(jù)的協(xié)議,同時也為挖掘者提供了整合不同數(shù)據(jù)源的方法。我們的轉(zhuǎn)換方法和協(xié)議都基于數(shù)據(jù)矩陣的變換,變換方式的正交性質(zhì)在半誠實(shí)的計算環(huán)境中完美的避免了隱私保護(hù)和準(zhǔn)確挖掘之間的矛盾;而在惡意合謀的情況下,我們的隨機(jī)轉(zhuǎn)換方式成功的將隱私泄露的風(fēng)險控制在有限的范圍內(nèi)。另外,數(shù)據(jù)集合的不同屬性在實(shí)際使用中通常擁有不同的重要程度,因此我們也實(shí)現(xiàn)了對隱私保護(hù)程度的定制方法,使得數(shù)據(jù)擁有

7、者可以按照實(shí)際的需要,靈活的保護(hù)不同的屬性。 4.提出了能夠適應(yīng)大規(guī)模參與者的可擴(kuò)展隱私保護(hù)方法,有效的實(shí)現(xiàn)了隱私保護(hù)、準(zhǔn)確挖掘和可擴(kuò)展性這三者之間的平衡,同時也進(jìn)一步提出了適用于高維數(shù)據(jù)集合的保護(hù)方法??蓴U(kuò)展性問題一直是隱私保護(hù)研究所面臨的挑戰(zhàn)。我們量化分析了數(shù)據(jù)挖掘的參與者數(shù)量對隱私保護(hù)和準(zhǔn)確挖掘所帶來的不同影響。并提出了一個能夠適應(yīng)大規(guī)模數(shù)據(jù)提供者的原始數(shù)據(jù)轉(zhuǎn)換方法,使得隱私保護(hù)方法的性能獨(dú)立于參與者數(shù)量的變化。同時,我們

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論