版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、1,Metadata,Instructor: Zhang maoyuanE-mail: zmydragon@163.com,Semantic Web & Ontology,2,Outline,Why MetadataWhat’s MetadataWhat’s XMLQuestion,3,URI, HTML, HTTP,Static,WWW,,500 million usermore than 3 billion pag
2、es,,2.1 Current Web,4,快速發(fā)展的因素,電腦技術(shù)的快速發(fā)展電腦的普及電腦知識的普及網(wǎng)絡(luò)技術(shù)(光纖、網(wǎng)絡(luò)協(xié)議等)的發(fā)展 帶寬的提高校園網(wǎng)、電信的ISDL用戶對資源的需求 知識的需求娛樂信息,5,引發(fā)一系列問題(1),信息發(fā)布 網(wǎng)絡(luò)IP地址的分配問題產(chǎn)生虛擬IP網(wǎng)絡(luò)、IPV6等方法來解決 信息獲取 如何從這些海量信息中查到自己感興趣的資源如何獲取這些信息產(chǎn)生搜索引擎、信息挖掘技術(shù) 信息存儲
3、 如何存儲海量信息 產(chǎn)生磁盤陣列、TB級存儲器,6,引發(fā)一系列問題(2),信息傳遞 采用何種工具傳遞網(wǎng)絡(luò)信息 產(chǎn)生FTP、BT等軟件 信息使用 如何合法、正確使用網(wǎng)絡(luò)信息 產(chǎn)生網(wǎng)絡(luò)信息監(jiān)管的職能部門和法規(guī)產(chǎn)生針對用戶(如兒童)權(quán)限等的信息過濾技術(shù),7,Web信息結(jié)構(gòu),大部分采用HTML(HyperText Markup Language)也采用XML(eXtensible Markup Language) HT
4、ML標(biāo)記語言是在普通文本的基礎(chǔ)上加上特殊標(biāo)記(Tag)目的是運用標(biāo)記使文件達(dá)到預(yù)期的顯示效果方法是用“”擴住標(biāo)記,起始標(biāo)記用表示,終止標(biāo)記用表示,8,HTML網(wǎng)頁片斷(1), 一個容器標(biāo)記,用以指明這是表格,其它表格標(biāo)記只能在這個標(biāo)記范圍內(nèi)使用 表示表格的行。表示表格行中的單元。,9,HTML網(wǎng)頁片斷(2), 用來劃分框格,每個框格由一個標(biāo)記來表示 這里把頁面分成上
5、下兩部分,上面顯示a.html,下面顯示b.html,10,2.2 搜索引擎,從1995年開始逐漸發(fā)展 產(chǎn)生原因 用戶要在如此浩瀚的信息海洋里尋找信息,必然會“大海撈針”無功而返。搜索引擎正是為了解決這個"迷航"問題而出現(xiàn)的技術(shù) 目的 以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息 對信息進(jìn)行理解、提取、組織和處理 為用戶提供檢索服務(wù),11,現(xiàn)有的搜索引擎,12,Google 簡介,斯坦福大學(xué)的博士生 Larr
6、y Page 和 Sergey Brin在 1998 年創(chuàng)立 搜索時間通常不到半秒 每天需要提供 1.5 億次查詢服務(wù) Google 的技術(shù) 代理搜索技術(shù) 高級 PageRank(網(wǎng)頁級別)技術(shù) Google 釋義 由英文單詞“googol”變化而來 表示 1 后邊帶有 100 個零的數(shù)字 代表Google想征服網(wǎng)上無窮無盡資料的雄心 PageRank利用巨大的網(wǎng)絡(luò)鏈接結(jié)構(gòu) 網(wǎng)頁 A 鏈接到網(wǎng)頁 B 時, 就認(rèn)
7、為“網(wǎng)頁 A 投了網(wǎng)頁 B 一票避免任何人為感情因素,13,百度搜索引擎簡介,李彥宏先生及徐勇先生 1999年底,百度成立于美國硅谷 2000年百度公司回國發(fā)展 百度的起名 辛棄疾的《青玉案》中 “眾里尋她千百度” 象征著百度對中文信息檢索技術(shù)執(zhí)著的追求 競價排名由用戶為自己的網(wǎng)頁出資購買關(guān)鍵字排名 按點擊計費的一種服務(wù) 搜索結(jié)果的順序?qū)⒏鶕?jù)競價的多少由高到低排列,14,雅虎搜索引擎簡介,大衛(wèi)·費羅(Dav
8、id Filo) 和楊致遠(yuǎn)(Jerry Yang) 美國斯坦福大學(xué)電機工程系的博士生 1994年4月建立了網(wǎng)絡(luò)指南信息庫 分類目錄 站點目錄分為14個大類,每一個大類下面又分若干子類 連接速度快,包含范圍廣 雅虎中國網(wǎng)站提供簡單易用、手工分類的簡體中文網(wǎng)站目錄,15,性能指標(biāo),召回率(Recall)檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的比率衡量的是搜索引擎的查全率 精度(Pricision) 檢索出的相
9、關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率 衡量的是搜索引擎的查準(zhǔn)率 影響性能的因素 文檔和查詢的表示方法評價文檔用戶查詢相關(guān)性的匹配策略查詢結(jié)果的排序方法用戶進(jìn)行相關(guān)度反饋的機制,16,搜索引擎的類別,分類依據(jù) 信息搜集方法 服務(wù)提供方式 類別 目錄式搜索引擎 機器人搜索引擎 元搜索引擎,17,目錄式搜索引擎,搜集信息 人工方式或半自動方式 信息處理 由編輯員查看信息之后,人工形成信息摘要并將信息置于事先確定
10、的分類框架中 服務(wù)方式提供目錄瀏覽服務(wù) 提供直接檢索服務(wù) 優(yōu)點討論缺點討論代表 YAHOO 、LookSmart、Dmoz等,18,機器人搜索引擎,搜集信息 蜘蛛(Spider)的機器人程序 以某種策略自動地在互聯(lián)網(wǎng)中搜集信息 信息處理建立索引庫 服務(wù)方式 面向網(wǎng)頁的全文檢索服務(wù) 優(yōu)點 討論缺點討論代表 Google 、天網(wǎng)等,19,元搜索引擎,技術(shù)方法將用戶的查詢請求同時向多個搜索
11、引擎遞交 將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理 作為自己的結(jié)果返回給用戶 服務(wù)方式面向網(wǎng)頁的全文檢索 本質(zhì)特點沒有自己的數(shù)據(jù) 優(yōu)點討論缺點討論代表WebCrawler、InfoMarket等,20,搜索引擎系統(tǒng)結(jié)構(gòu),搜索器索引器檢索器用戶接口,21,搜索器,功能在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)和搜集信息 盡可能多、盡可能快地搜集各種類型的新信息 定期更新已經(jīng)搜集過的舊信息 搜集策略從一個起始URL集
12、合開始,以寬度優(yōu)先、深度優(yōu)先或啟發(fā)式方式循環(huán)地在互聯(lián)網(wǎng)中發(fā)現(xiàn)信息 將Web空間按照域名、IP地址或國家域名劃分,每個搜索器負(fù)責(zé)一個子空間的窮盡搜索 信息類型 HTML、XML、FTP文件、字處理文檔、多媒體信息 其它支撐技術(shù)分布式、并行計算技術(shù),22,索引器,功能理解搜索器所搜索的信息從中抽取出索引項,用于表示文檔以及生成文檔庫的索引表 索引項 客觀索引項內(nèi)容索引項 支撐技術(shù)統(tǒng)計法、信息論法和概率法(計算索引項
13、的權(quán)值 ) 倒排表(Inversion List),由索引項反過來查找相應(yīng)的文檔 可以使用集中式索引算法或分布式索引算法,23,檢索器,方法根據(jù)用戶的查詢在索引庫中快速檢出文檔進(jìn)行文檔與查詢的相關(guān)度評價對將要輸出的結(jié)果進(jìn)行排序并實現(xiàn)某種用戶相關(guān)性反饋機制 如何實現(xiàn)多點的海量檢索(討論)集中式海量檢索分布式海量檢索,24,用戶接口,作用輸入用戶查詢顯示查詢結(jié)果提供用戶相關(guān)性反饋機制 目的方便用戶使用搜索引擎高
14、效率、多方式地從搜索引擎中得到有效、及時的信息簡單接口只提供用戶輸入查詢串的文本框 復(fù)雜接口 讓用戶對查詢進(jìn)行限制,如邏輯運算 、時間、長度等例子Google提供多種用戶使用界面,25,搜索引擎的研究動向,提高信息查詢結(jié)果的精度,提高檢索的有效性基于智能代理的信息過濾和個性化服務(wù)采用分布式體系結(jié)構(gòu)提高系統(tǒng)規(guī)模和性能交叉語言檢索的研究和開發(fā) 國際會議 美國Infornotics公司主辦的搜索引擎國際會議從1996年
15、開始,每年舉行一次IEEE主辦的國際萬維網(wǎng)會議、人機交互會議,26,當(dāng)前搜索引擎的不足之處 (1),1) 語義分析不足,缺少較好的中文分詞技術(shù)支持 用google搜索引擎,關(guān)鍵詞“和服”,在第3頁有如下結(jié)果:外交部公布新版中國境外領(lǐng)事保護(hù)和服務(wù)指南 ...外交部公布新版中國境外領(lǐng)事保護(hù)和服務(wù)指南(附全文), 中國外交部通過其官方網(wǎng)站公布了《中國境外領(lǐng)事保護(hù)和服務(wù)指南(2003年版)》,以幫助中國公民了解中國駐外使、領(lǐng)館的領(lǐng)
16、事保護(hù)和服務(wù)范圍。 ... www.china.org.cn/chinese/2003/May/328355.htm - 27k - 網(wǎng)頁快照 - 類似網(wǎng)頁,27,當(dāng)前搜索引擎的不足之處 (2),2)智能化不足 都需要用戶提供檢索的關(guān)鍵詞、關(guān)鍵詞組,但還不能直接檢索語句 要直接檢索語句,需要更強的自然語言處理技術(shù)支持,28,2.3 Web信息提取,從提取規(guī)則角度,網(wǎng)頁信息提取方法可分為兩大類基于標(biāo)識規(guī)則的方
17、法應(yīng)用網(wǎng)頁文檔的標(biāo)識來提取網(wǎng)頁信息 基于內(nèi)容規(guī)則的方法應(yīng)用自然語言處理技術(shù) 從關(guān)鍵詞匹配到有層次的句法分析,29,基于標(biāo)識規(guī)則的方法,Harvest信息提取系統(tǒng) 利用手工編寫的wrappers分析一批固定的Web資源 只能處理Web文檔而忽略了Internet上提供的服務(wù) 依賴于提前定義的文檔類型,對新文檔結(jié)構(gòu)則無能為力 斯坦福大學(xué)提出的對象交換模型(OEM)方法 一個簡單的、自描述、嵌套的對象模型 一個帶標(biāo)記的有向
18、圖 這個模型依賴于具體問題的分析DSE(Data-rich section extraction)算法 用樹型結(jié)構(gòu)表示HTML網(wǎng)頁的布局 實質(zhì)是針對具體問題建立文檔對象模型,提取網(wǎng)頁信息,30,基于內(nèi)容規(guī)則的方法,Artequakt系統(tǒng) 建立在自然語言處理技術(shù)和實體論基礎(chǔ)上通過句法和語義分析來確定實體及關(guān)系根據(jù)用戶要求,產(chǎn)生描述格式,從而描述出藝術(shù)家傳記DL(description logics)方法 建立在實體論基礎(chǔ)
19、上用DL方法從詞匯關(guān)系、概念關(guān)系和上下文關(guān)系,抽取概念及其依賴關(guān)系樹 Diffusion webIE系統(tǒng) 依照實例模型(又稱IE規(guī)則)構(gòu)出的框架依據(jù)關(guān)鍵詞位置和值的特征的定位規(guī)則依據(jù)詞類型和取值范圍的表格提取規(guī)則句法分析規(guī)則,31,兩種方法比較,基于標(biāo)識的方法不具有自適應(yīng)能力準(zhǔn)確定位信息段的起止位置,基于內(nèi)容的方法不易準(zhǔn)確定位信息段的起止位置有一定自適應(yīng)能力依賴較強的自然語言處理技術(shù),32,信息提取的研究趨勢,融合
20、兩種規(guī)則一些網(wǎng)頁信息提取方法把這兩種規(guī)則融合在一起以求充分發(fā)揮著兩種提取規(guī)則的特點來提高提取效率 語義網(wǎng) 改變現(xiàn)有網(wǎng)頁信息結(jié)構(gòu)XML語言把信息結(jié)構(gòu)、內(nèi)容與數(shù)據(jù)的表現(xiàn)形式進(jìn)行分離RDF把信息轉(zhuǎn)換成元數(shù)據(jù) 本體論把信息的結(jié)構(gòu)與內(nèi)容相分離信息具有計算機可理解的語義,33,2.4 元數(shù)據(jù),定義 data about data (關(guān)于數(shù)據(jù)的數(shù)據(jù)) 是對web信息的一種描述方式是機器可理解的信息 基本作用 管理數(shù)據(jù),從
21、而實現(xiàn)查詢、閱讀、交換和共享組成 一系列元素或?qū)傩岳樱簣D書館目錄如:作者,書名,出版日期,主題,分類排架號等元素,34,元數(shù)據(jù)與資源之間的關(guān)聯(lián)方式,獨立方式元素可包含在獨立于該項資源的記錄中 例如:圖書館目錄 嵌入方式數(shù)據(jù)可嵌在資源本身中 例如:印在書內(nèi)封上的在版編目(CIP)數(shù)據(jù)例如:電子文本的標(biāo)題 關(guān)聯(lián)方式的確定不預(yù)先規(guī)定 由具體情況決定,35,元數(shù)據(jù)的主要作用,用來組織和管理網(wǎng)絡(luò)信息,并挖掘信息資源
22、準(zhǔn)確地識別、定位和訪問信息 (舉例討論)幫助用戶查詢所需信息 可按照不同的地理區(qū)間、指定的語言以及具體的時間段來查找信息資源 (舉例討論)組織和維護(hù)一個機構(gòu)對數(shù)據(jù)的投資 可方便創(chuàng)建網(wǎng)頁(舉例討論)用來建立信息的數(shù)據(jù)目錄和數(shù)據(jù)交換中心 可以共享信息、維護(hù)數(shù)據(jù)(舉例討論)提供數(shù)據(jù)轉(zhuǎn)換方面的信息通過元數(shù)據(jù),用戶可以接受并理解信息 (舉例討論),36,如何獲取元數(shù)據(jù),元數(shù)據(jù)的編寫標(biāo)準(zhǔn) 目的為實現(xiàn)領(lǐng)域中的數(shù)據(jù)信息交換和共享,為研
23、究和生產(chǎn)服務(wù) 不同領(lǐng)域會根據(jù)不同的需求定義一個標(biāo)準(zhǔn)或幾個標(biāo)準(zhǔn) 如MARC(Machine-ReadabIe Cataloging,機器可讀編目)和Dublin Core等 實現(xiàn)的技術(shù)手段 XMLRDF,37,XML技術(shù),特點從數(shù)據(jù)與文檔的底層實現(xiàn)格式化,保證了從里到外、從處理到交換的一致性 實現(xiàn)自動抽取采用XML解析器開發(fā)的工具,可以從網(wǎng)上Web服務(wù)器的HTML、XML和數(shù)據(jù)庫中自動抽取并索引元數(shù)據(jù),38,RDF 技
24、術(shù),元數(shù)據(jù)的互操作性要求在由不同的組織制定與管理且技術(shù)規(guī)范不盡相同的元數(shù)據(jù)環(huán)境下,能夠作到對用戶保持一致性的服務(wù) 可同時攜帶多種元數(shù)據(jù)來往于互聯(lián)網(wǎng)的架構(gòu) RDF特點提供能對結(jié)構(gòu)化元數(shù)據(jù)進(jìn)行編碼,交換及再利用的體系框架 可使不同的用戶或團體在這一框架下定義他們自己的元數(shù)據(jù)元素提供了各種不同的元數(shù)據(jù)體系之間的互操作性,39,元數(shù)據(jù)映射(Metadata Mapping),原因存在元數(shù)據(jù)的互操作性問題 定義利用特定轉(zhuǎn)換程序?qū)?/p>
25、不同元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行轉(zhuǎn)換 方法一 (元數(shù)據(jù)標(biāo)準(zhǔn)的特定轉(zhuǎn)化程序)Dublin Core與USMARC Dublin Core與EA 方法二(中介元數(shù)據(jù)格式)如UNIverse項目利用GRS格式進(jìn)行MARC格式和其他記錄格式的轉(zhuǎn)換 比較方法一轉(zhuǎn)換準(zhǔn)確、轉(zhuǎn)換效率較高,40,元數(shù)據(jù)類型,內(nèi)容元數(shù)據(jù) 描述對象內(nèi)容的信息 如大字標(biāo)題、主題、引導(dǎo)段落、圖像、影片 管理元數(shù)據(jù) 描述和電子文檔相關(guān)的信息 如作者、創(chuàng)建者、創(chuàng)建日期等
26、負(fù)載信息元數(shù)據(jù) 提供電子文檔的物理屬性 如文本中表示強調(diào)的粗體標(biāo)識,電子郵件系統(tǒng)中郵件的大小標(biāo)識 參考信息元數(shù)據(jù)源自電子文檔中的超鏈接 擴展到表達(dá)任何萬維網(wǎng)信息、文檔和資源的參考鏈接 包括環(huán)境信息,以及文檔的結(jié)構(gòu)信息 如經(jīng)常出現(xiàn)電子文檔中指向各章節(jié)的鏈接,41,元數(shù)據(jù)表示語言,標(biāo)記語言 標(biāo)準(zhǔn)通用標(biāo)記語言SGML超文本標(biāo)記語言HTML可擴展標(biāo)記語言XML虛擬現(xiàn)實模型語言VRML無線標(biāo)記語言WML元數(shù)據(jù)標(biāo)準(zhǔn)
27、Dublin Core HL7(描述醫(yī)學(xué)網(wǎng)絡(luò)資源的元數(shù)據(jù) )教育資源元數(shù)據(jù) 機讀目錄(MARC),42,SGML,標(biāo)準(zhǔn)通用標(biāo)記語言是一種描述語言的語言,定義了以電子形式表示文本的方法 特點 正式的,能允許驗證文檔的正確性 結(jié)構(gòu)化的,能夠處理復(fù)雜的文檔 可擴充的,能夠支持大型信息存儲的管理 組成部分SGML聲明,設(shè)定基本情況 定義DTD文檔類型,設(shè)定標(biāo)記語言結(jié)構(gòu)的語法 描述用于標(biāo)記的語義規(guī)格說明,做出了DTD表達(dá)的
28、語法限制 描述用于標(biāo)記的語義規(guī)格說明,做出了DTD表達(dá)的語法限制應(yīng)用實例HTML、XML,43,其它標(biāo)記語言,虛擬現(xiàn)實模型語言VRML用于對3維虛擬場景進(jìn)行建模的描述性語言 HTML定義2維,而VRML定義3維 無線標(biāo)記語言 WML 類似于HTML的測覽語言提供測覽支持、數(shù)據(jù)輸入、超級鏈接、文本和圖像表現(xiàn)以及表格交互 應(yīng)用于“無線應(yīng)用軟件”環(huán)境下的網(wǎng)頁語言 為WAP(Wireless Application Prot
29、ocol)協(xié)議所包括的一種標(biāo)記協(xié)議語言,44,Dublin Core元數(shù)據(jù)標(biāo)準(zhǔn),背景搜索引擎的查準(zhǔn)率比較低 創(chuàng)建者OCLC(Online Computer Library Center,Inc.,美國在線計算機圖書館中心) 目的從用戶的角度出發(fā)創(chuàng)建了一種新的網(wǎng)絡(luò)資源描述標(biāo)準(zhǔn)或格式 第一次國際研討會 1995年3月,在都柏林(Dublin)召開 探討如何建立一套描述網(wǎng)絡(luò)上電子文件特征、提高信息檢索效果的方法 開始啟動電
30、子圖書館對象元數(shù)據(jù)標(biāo)準(zhǔn)的研究項目,45,DC元數(shù)據(jù)集,包括15個核心元素 按照信息的類型和范圍分為三個子集數(shù)據(jù)資源內(nèi)容 數(shù)據(jù)知識產(chǎn)權(quán) 數(shù)據(jù)實體 特點簡練、易于理解、可擴展能與其他元數(shù)據(jù)形式兼容被稱為一個良好的網(wǎng)絡(luò)信息資源描述元數(shù)據(jù)集,46,數(shù)據(jù)資源內(nèi)容子集,47,數(shù)據(jù)知識產(chǎn)權(quán)子集,48,數(shù)據(jù)實體(形式)子集,49,DCMI,DCMI(Dublin Core Metadata Initiative) 都柏林核元數(shù)據(jù)研究
31、行動已經(jīng)成為一個國際性的電子數(shù)據(jù)對象標(biāo)準(zhǔn)研究組織 有來自英國、澳大利亞、芬蘭、加拿大、美國等國的具有多種不同專業(yè)背景的個人和團體參加 從事元數(shù)據(jù)標(biāo)準(zhǔn)、實踐指南、支撐技術(shù)及相關(guān)政策的研究與開發(fā) 成立了一個教育工作組DC-E 從數(shù)字圖書館元數(shù)據(jù)標(biāo)準(zhǔn)中篩選出上述DC中的15個核心元素作為學(xué)習(xí)對象數(shù)據(jù)要素,50,HL7(Health Level 7),開發(fā)機構(gòu) 1987年,由美國國家標(biāo)準(zhǔn)局(ANSI)授權(quán)的HL7(Health
32、Level Seven Inc)開發(fā)領(lǐng)域?qū)iT用于醫(yī)療衛(wèi)生機構(gòu)及醫(yī)用儀器、設(shè)備數(shù)據(jù)信息傳輸?shù)臉?biāo)準(zhǔn)支持的國家在1994年HL7已納入美國ANSI國家標(biāo)準(zhǔn) 澳洲、加拿大、德國、以色列、日本、紐西蘭、荷蘭及英國 用途適用于醫(yī)院內(nèi)部的信息交換適用于醫(yī)院與醫(yī)院之間,醫(yī)院與保險公司、醫(yī)院與上級主管部門之間的大量信息交換,51,HL7技術(shù),參考了OSI的通訊模式 HL7納為最高的一層,也就是應(yīng)用層,52,HL7標(biāo)準(zhǔn)的內(nèi)容(1),Ch
33、1: Introduction (概述與HL7歷史)Ch2: Control (控制)Ch3: Patient Administration (病患管理, 掛號)Ch4: Orders (醫(yī)令)Ch5: Query (查詢)Ch6: Financial Management (病患帳務(wù))Ch7: Observation Reporting (檢驗報告?zhèn)魉?Ch8: Master Files (參考檔同步機制),53,HL7
34、標(biāo)準(zhǔn)的內(nèi)容(2),Ch9: Medical Records/Info. Management (病歷)Ch10: Scheduling (排程)Ch11: Patient Referral (轉(zhuǎn)診)Ch12: Patient Care (病患看護(hù))附錄A: Data Definition Tables (參考表)附錄B: Lower Layer Protocol (LLP)附錄C: Network Management附錄
35、D: BNF Message Descriptions附錄E: Glossary,54,HL7 特點,可應(yīng)用于多種操作系統(tǒng)和硬件環(huán)境 所有不同平臺的醫(yī)院信息管理系統(tǒng)通過HL7都可以順利溝通 設(shè)備可以做到無縫聯(lián)接和醫(yī)學(xué)數(shù)據(jù)信息的無障礙交換 匯集了的一些標(biāo)準(zhǔn)接口格式針對不同廠商設(shè)計應(yīng)用軟件,55,教育資源元數(shù)據(jù),IEEE LOM 學(xué)習(xí)對象元數(shù)據(jù) IMS 教學(xué)管理系統(tǒng) CELTS 中國教育信息化技術(shù)標(biāo)準(zhǔn),56,IEEE L
36、OM (1),由IEEE學(xué)習(xí)技術(shù)標(biāo)準(zhǔn)委員會P1484.12學(xué)習(xí)對象元數(shù)據(jù)工作組建立 目的使用最小屬性集完成對學(xué)習(xí)對象的管理、檢索和評估便于將來對其屬性進(jìn)行擴展 目標(biāo)定義學(xué)習(xí)對象元數(shù)據(jù)的語法與語義對安全、隱私、商業(yè)和評估等應(yīng)用提供了描述符 學(xué)習(xí)對象指一切可為教學(xué)和培訓(xùn)目的服務(wù)的對象 可以是物理的:如實驗器材、課本 可以是數(shù)字的:如教學(xué)軟件,網(wǎng)絡(luò)課件,57,IEEE LOM (2),元素 9個基本類別(即通用類、生命周
37、期類、宏元數(shù)據(jù)類、技術(shù)類、教育類、權(quán)利類、注解類、關(guān)系類、分類類) 每個類別包括若干元素 對每個元素定義了其名稱、解釋、值域、數(shù)據(jù)類型、附注和示例 作用 在不操作學(xué)習(xí)對象的情況下通過元數(shù)據(jù)信息來了解學(xué)習(xí)對象的一些有用的屬性 可以對學(xué)習(xí)對象進(jìn)行有效的分類管理和查找 可以從元數(shù)據(jù)信息中獲取學(xué)習(xí)對象的評價信息,也可以把自己的評價加入到元數(shù)據(jù),58,IMS,1997年美國EDUCOM (美國多所大學(xué)聯(lián)合組成的聯(lián)盟 )專門對電子學(xué)習(xí)(
38、e-Learning劫標(biāo)準(zhǔn)進(jìn)行研究項目目的能達(dá)成各校間網(wǎng)絡(luò)化教材的共享目標(biāo)達(dá)成分布式學(xué)習(xí)環(huán)境下之應(yīng)用系統(tǒng)或服務(wù)的互操作性,定義、發(fā)展所需的技術(shù)規(guī)范協(xié)助其他單位,將IMS規(guī)范納人產(chǎn)品或服務(wù)中 主要任務(wù)主要發(fā)展和推廣有關(guān)教育的開放規(guī)范促進(jìn)線上分布式的學(xué)習(xí)活動 如搜尋和使用教育用途的內(nèi)容、追蹤學(xué)習(xí)者的學(xué)習(xí)進(jìn)度 性質(zhì)并非開放性組織 所制定的規(guī)范還未成為正式的標(biāo)準(zhǔn),59,IMS 規(guī)范,用于內(nèi)容描述、發(fā)現(xiàn)和交換的規(guī)范 IM
39、S內(nèi)容包裝說明(IMS Content Packaging Specification) IMS問題與測試互操作性說明(IMS Question & Test Interoperability Specification)IMS學(xué)習(xí)資源元數(shù)據(jù)說明(IMS Learning Resource Metadata Specification) 數(shù)字資源庫互操作(Digital Repositories Interoperabil
40、ity) 用于內(nèi)容交互與跟蹤的規(guī)范 簡易串序/簡易排序(Simple Sequencing) 能力(Competencies) 學(xué)習(xí)設(shè)計(Learning Design) 可用性(Accessibility) 用于應(yīng)用系統(tǒng)互操作的規(guī)范IMS學(xué)習(xí)者信息包裝說明(IMS Learner Information Package Specification) IMS企業(yè)說明(IMS Enterprise Specificatio
41、n,60,中國教育信息化技術(shù)標(biāo)準(zhǔn),2001年開始啟動 基于LOM 目標(biāo) 實現(xiàn)資源共享支持系統(tǒng)互操作保障網(wǎng)絡(luò)教育服務(wù)質(zhì)量 方法跟蹤國際標(biāo)準(zhǔn)研究工作和引進(jìn)相關(guān)國際標(biāo)準(zhǔn)根據(jù)我國教育的實際情況修訂與創(chuàng)建各項標(biāo)準(zhǔn),61,CELTS 體系,《學(xué)習(xí)對象元數(shù)據(jù)》(CELTS-3)規(guī)定了描述學(xué)習(xí)對象的基本方法與準(zhǔn)則 屬于CELTS體系中的基礎(chǔ)標(biāo)準(zhǔn) 《教育資源建設(shè)技術(shù)規(guī)范》(CELTS-41)面向資源建設(shè)領(lǐng)域包括基礎(chǔ)教育、高等教育
42、、職業(yè)教育和培訓(xùn)等領(lǐng)域)是對《學(xué)習(xí)對象元數(shù)據(jù)》與具體應(yīng)用領(lǐng)域結(jié)合的產(chǎn)物 《基礎(chǔ)教育教學(xué)資源元數(shù)據(jù)規(guī)范》(CELTS-42)應(yīng)用領(lǐng)域則更為具體主要面向基礎(chǔ)教育的資源建設(shè) 關(guān)系一脈相承的都是以LOM為核心建立的,62,機讀目錄(MARC),廣泛用于圖書館書目記錄數(shù)據(jù) 是目前圖書館描述、存儲、交換、處理以及檢索信息的基礎(chǔ) 特點 可變長字段的記錄格式采用目次方式 每條MARC記錄分三個區(qū)(頭標(biāo)區(qū),目次區(qū),數(shù)據(jù)區(qū)),63,
43、2.5 XML,性質(zhì)W3C于1998年2月發(fā)布的一種標(biāo)準(zhǔn) 是SGML的一個簡化子集 可擴展標(biāo)記語言 特點較好地解決了HTML無法表達(dá)數(shù)據(jù)內(nèi)容等問題允許各個組織、個人建立適合自己需要的標(biāo)記集合,64,XML與HTML比較,文檔的3個要素數(shù)據(jù)、結(jié)構(gòu)以及顯示方式 HTML 顯示方式內(nèi)嵌在數(shù)據(jù)中 在創(chuàng)建文本時,要時時考慮輸出格式 創(chuàng)建文檔的重復(fù)工作量大 不易抽取語義信息 XML顯示格式從數(shù)據(jù)內(nèi)容中獨立出來,保存在樣式
44、單文件(Style Sheet)中 自我描述性質(zhì)能夠很好地表現(xiàn)許多復(fù)雜的數(shù)據(jù)關(guān)系,65,XML結(jié)構(gòu),文件頭 與HTML類似,是可選的文件主體 包括一個或多個元素 形式是一棵分級的樹 混雜的“結(jié)尾部分” 由注釋、處理指令和空白組成 注釋用表示,可在文檔中任意位置,66,元素(Element),表示方法由開始標(biāo)記、結(jié)束標(biāo)識以及標(biāo)識之間的數(shù)據(jù)構(gòu)成 標(biāo)記之間的數(shù)據(jù)被認(rèn)為是元素的值 每個元素都有不同的標(biāo)記名王力元素名是d
45、irector 元素值是“王力” 王力 元素名是actor元素值是“王力”,67,元素要點,關(guān)鍵的3點 所有元素必須有結(jié)束標(biāo)記 所有元素必須正確嵌套,不允許交迭 所有屬性值必須加引號 注意點XML文檔主體有且僅有一個XML根元素 可以嵌套XML元素,形成一棵樹形結(jié)構(gòu),68,XML文檔例子, 數(shù)據(jù)結(jié)構(gòu) 許卓群等 數(shù)據(jù)挖掘 韓家炸等 ,69,例子的樹狀結(jié)構(gòu),70,XML屬性
46、,給元素提供進(jìn)一步的說明信息 必須出現(xiàn)在起始標(biāo)記中 以名稱/取值對出現(xiàn),屬性名不能重復(fù)名稱與取值之間用等號“=”分隔用引號把取值引起來 例如 100000說明了工資的貨幣單位是人民幣元,71,XML處理器,目的解析XML文檔提供對XML文檔內(nèi)容和結(jié)構(gòu)的訪問 文檔對象模型(Document Object Model,DOM)將完整的XML轉(zhuǎn)換成一棵樹的形式放在內(nèi)存中 供隨機訪問元素、屬性 XML簡單API(Si
47、mple API for XML,SAX) 采用事件驅(qū)動模型 通過標(biāo)記的起止來觸發(fā)事件 DOM與SAX的比較(討論),72,處理指令(Processing Instruction),目的給XML處理器提供信息,使其能夠正確解釋文檔內(nèi)容 表示起始標(biāo)記是“” 方法XML分析器把這些信息原封不動地傳給應(yīng)用程序 由應(yīng)用程序來解釋這個指令 遵照它所提供的信息進(jìn)行處理,73,兩種處理指令,XML聲明 必須包括version
48、屬性,指明所采用的XML的版本號,而且它必須在屬性列表中排在第一位standalone屬性表明該XML文檔是否和一個外部文檔類型定義DTD配套使用 encoding屬性則指明了數(shù)據(jù)所采用的編碼標(biāo)準(zhǔn) XSL樣式單引用 告訴XSL樣式單解析器,樣式單的類型是text-xsl 類型text-xsl可以在文檔contacts.xsl中找到,74,XML的名字空間,背景由于XML對互操作性的支持,每個人都可以創(chuàng)建屬于自己的XML詞匯
49、 不同的開發(fā)者會用相同的元素來代表不同的實體 作用為XML文檔元素提供了一個上下文 允許開發(fā)者按一定的語義來處理元素 為什么引入NS(命名空間)討論,75,XML NS 例子,<?xml version="1.0"?><hamburgersxmlns:purchase=http://fastfood.org/franchise/pricesxmlns:sales=http://fastfood.or
50、g/customer/prices>?。糷amburger lowfat="dream on"><name>CowBurger</name><description>Greasy and good.</description><purchase:price>0.99</price><sales:price>2.99</price></hamburger></hamburgers>,76,XSL(Ext
51、ensible Stylesheet Language),背景用標(biāo)準(zhǔn)的DOM API來實現(xiàn)XML數(shù)據(jù)的交互,是十分單調(diào)乏味的 如想找到所有滿足某些條件的元素,或轉(zhuǎn)換為簡單的HTML表格,必須手工書寫代碼遍歷整棵樹來尋找 目的為標(biāo)準(zhǔn)化及簡化人們完成這些任務(wù)所需做的工作,77,食品的例子,XML文檔 月餅 中秋節(jié)食用的傳統(tǒng)食品 2.99 ,HTML文檔 食品
52、 月餅, 中秋節(jié)的傳統(tǒng) 食品, 2元 ,78,XSL文件, 選取了當(dāng)前結(jié)點的所有食品子結(jié)點 hamburgers 標(biāo)識出符合給定條件的結(jié)點 , , 取結(jié)點中各個元素的值 ,79,XSL用途,增強了互操作性 XML數(shù)據(jù)轉(zhuǎn)換為HTML從一種XML格式到另一種XML格式之間的轉(zhuǎn)換 開發(fā)人員不用為了描述
53、某種類型的數(shù)據(jù)而采用通用的詞匯某個人向你的系統(tǒng)發(fā)送了一篇XML文檔,而你的系統(tǒng)不認(rèn)識它所采用的XML詞匯只要進(jìn)行一次簡單的XSL轉(zhuǎn)換就可以得到自己熟悉的詞匯,80,文檔類型定義 DTD,目的定義XML文檔結(jié)構(gòu),即其中的元素、屬性以及元素之間關(guān)系的 定義了文件中的元素能用什么名字,能放在什么位置,應(yīng)該怎樣組合 可以檢測XML文檔的結(jié)構(gòu)是否正確 例如描述一組,其中每個又可以包含若干個DTD中應(yīng)該有語句: 生成的表 :管樂
54、弦樂器樂,81,DTD 引用,內(nèi)部引用包含在XML文檔的前導(dǎo)說明部分 如 文檔體…外部引用作為一個外部文檔被引用 如 文檔體…SYSTEM指一個作者或組織所編寫的通用的DTD 或是 PUBLIC 指由權(quán)威機構(gòu)制訂的、提供給特定行業(yè)或公眾使用的DTD,82,DTD中ETD(元素類型聲明),作用聲明所有有效的文檔元素 結(jié)構(gòu) 類型 空元素類型 使用空元
55、素標(biāo)記,元素中沒有內(nèi)容 ANY元素類型 元素中可以包含任何內(nèi)容 父元素類型 元素中可以包含子元素在DTD中通過正則表達(dá)式規(guī)定子元素出現(xiàn)的順序和次數(shù) 混合元素類型 元素中可以包含文本文本之間可以有選擇地插入子元素,子元素出現(xiàn)的順序和次數(shù)不受限制,83,2.6 XML Schema,DTD缺點 采用了非XML的語法規(guī)則不支持?jǐn)?shù)據(jù)類型擴展性較差 XML模式己經(jīng)漸有取代DTD的趨勢擁有比DTD更強大的功能 用于更
56、精確和有效地描述XML文檔結(jié)構(gòu),84,XML模式的優(yōu)點,一致性直接借助XML自身的特性利用XML的基本語法規(guī)則定義XML文檔的結(jié)構(gòu) 不必再利用一種特定的形式化的語言擴展性 引入了數(shù)據(jù)類型、命名空間在基本數(shù)據(jù)類型基礎(chǔ)上用戶可自己擴展數(shù)據(jù)類型 互換性 利用模式能夠書寫XML文檔并驗證文檔的合法性 對不同的模式進(jìn)行轉(zhuǎn)換,以實現(xiàn)更高層次的數(shù)據(jù)交換 規(guī)范性 利用元素的內(nèi)容和屬性來定義XML文檔的整體結(jié)構(gòu) 基于XML,
57、更具有規(guī)范性,85,數(shù)據(jù)類型,用途為Element Type和Attribute Type指定數(shù)據(jù)類型 基本數(shù)據(jù)類型 (10種)entity,entities,enumeration,id,idref,idrefs,nmtoken,nmtokens,notation和string 擴展數(shù)據(jù)類型 bin.baSe64,bin.heX,boolean,char,date,dateTime,dateTime.tz,fixed.14.
58、4,float,int,number,timetime.tz,i1 ,i2, i4,r4, r8,ui1, ui2,ui4, uri,uuid,86,XMLS元素類型,基本格式 取值及含義 (略),87,XMLS屬性類型,基本格式 取值及含義 (略),88,數(shù)據(jù)類型的使用例子(1),定義元素“名字”和“生日” 其中string和date類型都是Schema中自帶的基本數(shù)據(jù)類型 minOccurs和maxOccu
59、rs是最少和最多出現(xiàn)次數(shù)的約束,這里表示有而且只出現(xiàn)一次,89,數(shù)據(jù)類型的使用例子(2),擴展數(shù)據(jù)類型Schema中沒有規(guī)定的類型,如“性別”類型 定義例子 注釋name屬性是該數(shù)據(jù)類型的名稱 數(shù)據(jù)類型由restriction子元素進(jìn)行約束該元素中的base屬性是基類型,90,2.7元數(shù)據(jù)自動抽取技術(shù),預(yù)處理 剔除在格式、內(nèi)容、語言等方面存在問題或嚴(yán)重
60、缺失的文檔 產(chǎn)生格式相對規(guī)整的文本文檔 提取元數(shù)據(jù) 由數(shù)字化文檔元數(shù)據(jù)的規(guī)范定義,產(chǎn)生提取元數(shù)據(jù)的各種模式 依據(jù)元數(shù)據(jù)模式進(jìn)行數(shù)字化文檔的挖掘與匹配 利用與數(shù)字化文檔相關(guān)的啟發(fā)式規(guī)則和經(jīng)驗規(guī)則,有效提取元數(shù)據(jù),91,MathML,含義Mathematical Markup Language用途用來描述數(shù)學(xué)符號、紀(jì)錄其結(jié)構(gòu)和內(nèi)容目標(biāo)是在Web上實現(xiàn)能像HTML處理文本一樣,處理數(shù)學(xué)問題,92,例:x2 + 4x + 4
61、 =0,<apply> <plus/>?。糰pply><power/> ?。糲i>x</ci> ?。糲n>2</cn>?。?apply> <apply> ?。紅imes/> <cn>4</cn> ?。糲i>x</ci>?。?apply><cn>4</cn></apply>,93,SMIL,含義Synchronized Multimedia Integration Language用途一種基于XML的表述
62、多媒體演示的語言 將一組獨立的多媒體對象整合為一個多媒體演示,94,SMIL例子,<HTML><HEAD>?。糞TYLE>.time { behavior:url(#default#time); }</STYLE></HEAD><BODY>?。糄IV CLASS="time" t:timeline="seq">?。糚 class="time" t:dur="
63、;1"> This appears for one second and goes away</P> <P class="time" t:dur="1"> This appears after one second, remains visible for one second and goes away </P>?。糚 class="time&
64、quot; t:dur="1"> This appears after two seconds, remains visible for one second and goes away </P></DIV></BODY></HTML>,95,CDF,含義Channel Definition Format 一種開放的規(guī)格允許Web的發(fā)布者經(jīng)常更新信息或是頻道 CDF起到了頻道內(nèi)容目錄的作用用戶僅
65、需選擇一下頻道 信息就會從Web服務(wù)器定時的傳遞到客戶端,96,問題討論,1.什么是元數(shù)據(jù)(metadata)? 2.元數(shù)據(jù)與數(shù)據(jù)是什么關(guān)系?3.元數(shù)據(jù)(metadata)概念提出的背景是什么? 4.元數(shù)據(jù)能解決什么問題? 5.元數(shù)據(jù)是新概念嗎?,97,問題討論,6. 數(shù)字圖書館和元數(shù)據(jù)的關(guān)系是什么? 7. 什么是元數(shù)據(jù)的語義、結(jié)構(gòu)和句法? 8. 如何使用元數(shù)據(jù)? 9. 元數(shù)據(jù)可以應(yīng)用哪些置標(biāo)語言? 1
66、0. 什么是RDF?,98,問題討論,11. 什么是語義萬維網(wǎng)(Semantic Web)?語義萬維網(wǎng)與元數(shù)據(jù)有什么關(guān)系? 12. 什么是本體(Ontology)?元數(shù)據(jù)與本體有什么關(guān)系? 13. 存在多個元數(shù)據(jù)格式 ,解決互操作問題通常有哪些方法? 14.元數(shù)據(jù)映射解決系統(tǒng)互操作問題有什么優(yōu)缺點?,99,References,W. Song, M. Zhang. A First Step toward the Semant
67、ic Web, Higher Education Press, 2004 Bernard-Lee, T. (2000). Semantic Web - XML2000. Available: http://www.w3.org/2000/Talks/1206-xml2k-tbl/Overview.htmlXML Schema Part 0: Primer, W3C Recommendation, May 2001http://ww
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 反義詞คำตรงข้าม
- 初中數(shù)學(xué)中考總復(fù)習(xí)教案&&&&
- 管理哲學(xué)&企業(yè)文化&組織變革
- &amp#215;&amp#215;購物廣場進(jìn)駐&amp#215;&amp#215;山莊簽約儀式致辭
- 填表日期2012年&ensp&ensp&ensp&ensp&ensp月&ensp&ensp&ensp&ensp&ensp日
- ××××××××辦事指南
- āáǎàōó ǒòē éěè īíǐ ìūú ǔùǖ ǘǚǜ üɑo e i u
- 質(zhì)量改進(jìn)&工具
- 領(lǐng)導(dǎo)藝術(shù)&面試與聘用&人事培訓(xùn)
- 審計信息系統(tǒng)項目評分標(biāo)準(zhǔn) - 广西å—é¨æ¹¾é“¶è
- 不織布•蛋糕•制作大法
- 《×××××××××》課程教學(xué)大綱
- 《×××××××××》課程教學(xué)大綱
- &ampamp;amp;amp#215;&ampamp;amp;amp#215;企業(yè)融資問題研究(模板)
- 人教版_七年級_數(shù)學(xué)_下_期末考&&&&&
- as,but&than
- q&a員工手冊
- ××××××
- &amp#215;&amp#215;項目規(guī)劃設(shè)計合同
- 共擔(dān)&amp#183;互補&amp#183;協(xié)調(diào)
評論
0/150
提交評論