服務(wù)、協(xié)作、發(fā)展_第1頁(yè)
已閱讀1頁(yè),還剩22頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、服務(wù)、協(xié)作、發(fā)展,索高盈政府公眾信息部,目 錄,總結(jié)工作:貫穿一年的主題是服務(wù)經(jīng)驗(yàn)交流:完成工作的捷徑是協(xié)作技術(shù)探討:事業(yè)壯大的根本是發(fā)展,2005,總結(jié)工作,對(duì)外服務(wù)、業(yè)務(wù)管理,2005,負(fù)責(zé)建設(shè)完成的網(wǎng)站包括省鄉(xiāng)企局、省安監(jiān)局、省僑聯(lián)、省博管辦、潼關(guān)縣政府、《當(dāng)代陜西》、省西部發(fā)展基金會(huì)、省信息中心 ;負(fù)責(zé)陜政網(wǎng)招商引資欄目的管理,部分廳局網(wǎng)站的日常維護(hù)工作;負(fù)責(zé)全省職稱、職(執(zhí))業(yè)資格證書核查系統(tǒng)項(xiàng)目的建設(shè);參與了醫(yī)

2、療機(jī)構(gòu)與社會(huì)藥房藥品實(shí)際零售價(jià)格查詢系統(tǒng);參與完成了《陜西省“金質(zhì)工程”(一期)可行性研究報(bào)告》;制作了2006年公務(wù)員、省直事業(yè)單位招聘工作人員成績(jī)查詢系統(tǒng);負(fù)責(zé)維護(hù)在職人員攻讀碩士學(xué)位網(wǎng)報(bào)系統(tǒng),發(fā)布了事業(yè)單位登記管理公告;參加了兩月的java培訓(xùn),開發(fā)了java版的招商引資項(xiàng)目管理系統(tǒng);,總結(jié)工作,對(duì)外服務(wù)、業(yè)務(wù)管理,參與開發(fā)了陜西省企事業(yè)信用信息查詢和發(fā)布系統(tǒng),在該系統(tǒng)中我具體負(fù)責(zé)底層數(shù)據(jù)庫(kù)類和數(shù)據(jù)管理類的設(shè)計(jì)模式的建立,

3、同時(shí)承擔(dān)信用等級(jí)、組織管理、高管人員、經(jīng)營(yíng)狀況和商標(biāo)專利五個(gè)模塊的開發(fā);完善了小型的政府網(wǎng)站信息管理系統(tǒng),增加了文件上傳、咨詢和調(diào)查三個(gè)功能;聯(lián)系三秦都市報(bào)、陜西信息報(bào)等媒體對(duì)《2005中國(guó)政府網(wǎng)站評(píng)估結(jié)果揭曉》、《網(wǎng)上免費(fèi)咨詢法律問題》等陜政網(wǎng)動(dòng)態(tài)進(jìn)行了報(bào)道;同省環(huán)保局信息中心的一位同志合作撰寫了《陜西環(huán)保產(chǎn)業(yè)網(wǎng)的設(shè)計(jì)與實(shí)現(xiàn)》論文被《環(huán)境信息技術(shù)應(yīng)用與管理實(shí)踐》論文集收錄;,2005,總結(jié)工作,2005,經(jīng)驗(yàn):在以上我匯報(bào)的工

4、作中以看出,我們所處的位置都是服務(wù)提供方(乙方)。作為一個(gè)承諾者,如何完成既定的任務(wù),獲得被服務(wù)者的認(rèn)可,繼而成為他信息化工作中首選的信息資源、信息技術(shù)服務(wù)提供方,服務(wù)質(zhì)量是最關(guān)鍵的,服務(wù)質(zhì)量主要體現(xiàn)在服務(wù)的態(tài)度、服務(wù)的響應(yīng)速度、服務(wù)者的技術(shù)水平、服務(wù)的主動(dòng)性和持續(xù)性等方面。有好的服務(wù)模式和服務(wù)意識(shí),就會(huì)樹立起一個(gè)品牌,有了品牌,就有了市場(chǎng),事業(yè)就會(huì)發(fā)展。,總結(jié)工作,對(duì)外服務(wù)、業(yè)務(wù)管理,2005,總結(jié)工作,對(duì)外服務(wù)、業(yè)務(wù)管理,200

5、5,實(shí)踐:  對(duì)需要不斷發(fā)展的信息中心和部門業(yè)務(wù)來說,服務(wù)是手段,從服務(wù)的過程中發(fā)現(xiàn)新的業(yè)務(wù)增長(zhǎng)點(diǎn)是目的。  在對(duì)外業(yè)務(wù)聯(lián)系和服務(wù)的過程中,從服務(wù)對(duì)象口中了解他新的業(yè)務(wù)需求,例如在與省職改辦合作建立 “全省職稱、職(執(zhí))業(yè)資格證書核查系統(tǒng)”的基礎(chǔ)上深挖他們的其他需求,在年底又為他們建立了 “省博士后管理委員會(huì)辦公室”網(wǎng)站。同樣的,在為省鄉(xiāng)企局建設(shè)完成網(wǎng)站后,由于他們對(duì)部門的人員素質(zhì)、技術(shù)實(shí)力有了深刻的了解,他們提出兩家聯(lián)合建設(shè)“全

6、省鄉(xiāng)鎮(zhèn)企業(yè)自主助建站系統(tǒng)”,目前該系統(tǒng)現(xiàn)已經(jīng)在鄉(xiāng)企局網(wǎng)站上推出并取得了很好的社會(huì)效益。,,在部門里,做一件事情最少需要兩個(gè)以上的人員參與。比如作一個(gè)網(wǎng)站,一個(gè)聯(lián)系業(yè)務(wù)負(fù)責(zé)總體規(guī)劃、一個(gè)負(fù)責(zé)美工設(shè)計(jì)、一個(gè)負(fù)責(zé)程序編寫,這幾個(gè)人合理分工、各展所長(zhǎng),緊密配合,團(tuán)結(jié)協(xié)作,達(dá)到的效果會(huì)被各自悶頭苦干的效果好的多,所以一般做一個(gè)復(fù)雜的網(wǎng)站可能需要幾天就可以完成?! £兾魇∑笫聵I(yè)信用信息查詢發(fā)布系統(tǒng)這次是由四個(gè)人合作開發(fā)的,在開發(fā)的過程中集思廣益,

7、發(fā)揮了各個(gè)員工的特長(zhǎng),免去了鉆牛角尖的麻煩,提高了系統(tǒng)的開發(fā)效率,同時(shí)也提高了每個(gè)人的技術(shù)水平,加強(qiáng)了協(xié)作和溝通能力。,團(tuán)結(jié)協(xié)作,敬業(yè)奉獻(xiàn),經(jīng)驗(yàn)交流,2005,經(jīng)驗(yàn)交流,一花獨(dú)放不是春,百花齊放春滿園?! 》e極加大和同事的交流互動(dòng),對(duì)新同事認(rèn)真支持和幫助,共享自己的經(jīng)驗(yàn)積累和技術(shù),刻意使他們加入到協(xié)作中來,使他們能夠更好的適應(yīng)工作流程,提高技術(shù)素養(yǎng),學(xué)習(xí)現(xiàn)成的經(jīng)驗(yàn),使他成為部門工作中不可或缺的一分子?! ≌怯辛藚f(xié)作,有了明確的分工

8、,個(gè)人的特長(zhǎng)得到了體現(xiàn),大家才能一起提高,部門的業(yè)務(wù),中心的事業(yè)才得到長(zhǎng)足的發(fā)展。,2005,團(tuán)結(jié)協(xié)作,敬業(yè)奉獻(xiàn),技術(shù)交流,,去年參加經(jīng)驗(yàn)交流會(huì)的時(shí)候我提到了開發(fā)一個(gè)搜索引擎形式系統(tǒng),大家也許還有些印象。經(jīng)過一年時(shí)間斷斷續(xù)續(xù)的設(shè)計(jì)和開發(fā),目前這個(gè)系統(tǒng)已經(jīng)基本成形,最新的版本是1.04Beta,實(shí)現(xiàn)了網(wǎng)頁(yè)采集,切分詞、生成全文索引,檢索查詢四個(gè)主要功能?! 〈蠹叶贾浪阉饕嬉话惴譃閮深悾耗夸浭胶腿臋z索式,目錄式以yahoo、suhu

9、為代表,中國(guó)陜西網(wǎng)站上的陜西導(dǎo)航就是目錄式的;全文檢索式以google、baidu為代表,我開發(fā)的這種是全文檢索式?! ≡撓到y(tǒng)由搜索器(俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot))、索引器、查詢器三部分組成。搜索器負(fù)責(zé)網(wǎng)頁(yè)信息的抓取、建立網(wǎng)頁(yè)數(shù)據(jù)庫(kù);索引器負(fù)責(zé)將抓取的網(wǎng)頁(yè)進(jìn)行解析、切詞和索引,建立索引數(shù)據(jù)庫(kù);查詢器根據(jù)用戶查詢條件檢索索引文件并對(duì)檢索結(jié)果進(jìn)行排序和集合運(yùn)算,再提取網(wǎng)頁(yè)簡(jiǎn)單摘要信息反饋給查詢用戶。,200

10、5,技術(shù)交流,,總體結(jié)構(gòu):,2005,技術(shù)交流,,系統(tǒng)的工作流程  首先從搜索器開始,啟動(dòng)蜘蛛并讀取網(wǎng)址數(shù)據(jù)庫(kù)中的URL列表,抓取各URL所指定的網(wǎng)站,將抓取的網(wǎng)頁(yè)分配一個(gè)唯一文檔ID(DocId),存入網(wǎng)頁(yè)數(shù)據(jù)庫(kù)。并將當(dāng)前頁(yè)上的所的超連接存入到鏈接數(shù)據(jù)庫(kù)中。在抓取的完成后,切詞模塊和索引器將已經(jīng)抓取的網(wǎng)頁(yè)文檔進(jìn)行切詞處理,并按詞在網(wǎng)頁(yè)中出現(xiàn)的位置和頻率計(jì)算權(quán)值,然后將切詞結(jié)果存入索引數(shù)據(jù)庫(kù)。查詢器首先對(duì)用戶輸入的信息進(jìn)行切詞處理,并

11、檢索出所有包含檢索詞的記錄,通過計(jì)算網(wǎng)頁(yè)權(quán)重和級(jí)別對(duì)查詢記錄進(jìn)行排序并進(jìn)行集合運(yùn)算,最后從文檔數(shù)據(jù)庫(kù)中提取各網(wǎng)頁(yè)的摘要信息反饋給查詢用戶?! ≡撓到y(tǒng)擁有較為先進(jìn)的信息采集技術(shù),采用了多線程并發(fā)執(zhí)行體系結(jié)構(gòu),能夠采集多種動(dòng)態(tài)和靜態(tài)網(wǎng)頁(yè)類型(如htm、html、shtml、xml、php、asp、jsp),以及多種文檔類型(如txt、pdf、rtf、doc、xls、ppt等),系統(tǒng)會(huì)自動(dòng)根據(jù)網(wǎng)站的連接,短時(shí)間內(nèi)迅速抓取所有的站內(nèi)頁(yè)面,建立

12、索引。,2005,技術(shù)交流,,搜索器  搜索器(俗稱“蜘蛛”(Spider)程序或“機(jī)器人”(Robot)),實(shí)際上是一個(gè)基于HTTP協(xié)議的網(wǎng)絡(luò)應(yīng)用程序。網(wǎng)絡(luò)蜘蛛是通過網(wǎng)頁(yè)的鏈接地址來尋找網(wǎng)頁(yè),從網(wǎng)站是首頁(yè)開始,讀取網(wǎng)頁(yè)的內(nèi)容,并抽取出網(wǎng)頁(yè)中的其它超鏈接地址,然后通過這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。搜索器包括蜘蛛和蜘蛛管理器  網(wǎng)絡(luò)蜘蛛的作用是獲取頁(yè)面,分析頁(yè)面,得到鏈接,下載頁(yè)

13、面。蜘蛛包括兩個(gè)功能模塊:一個(gè)是網(wǎng)頁(yè)讀取模塊,主要是用來讀取遠(yuǎn)程Web服務(wù)器上的網(wǎng)頁(yè)內(nèi)容,存儲(chǔ)到文檔數(shù)據(jù)庫(kù)中;另一個(gè)是超鏈分析模塊,這個(gè)模塊主要是分析網(wǎng)頁(yè)中的超鏈接,將網(wǎng)頁(yè)上的所有超鏈接提取出來,放入到待抓取URL列表中;  蜘蛛管理器對(duì)網(wǎng)絡(luò)蜘蛛的數(shù)目、鏈接分析方式、鏈接存放方式、網(wǎng)頁(yè)獲取模式等參數(shù)進(jìn)行管理。,2005,技術(shù)交流,,2005,關(guān)鍵技術(shù)多線程技術(shù):由于抓取的站點(diǎn)URL相當(dāng)多,采用單線程蜘蛛抓取時(shí)速度不夠,也不能滿足實(shí)際

14、的需要。因而需要多線程技術(shù)來創(chuàng)建多個(gè)蜘蛛線程來同時(shí)抓取,以提高速度;網(wǎng)頁(yè)抓?。壕W(wǎng)頁(yè)抓取是基于HTTP協(xié)議之上的,網(wǎng)頁(yè)上的資源有多種,有網(wǎng)頁(yè),有Word文檔也有其他類型的文件,這樣抓取時(shí)需要判斷URL所指向資源的類型;超鏈分析:超鏈分析是一個(gè)比較重要的環(huán)節(jié),需要對(duì)HTML的各種標(biāo)志(tag)有一個(gè)很全面的了解;持續(xù)連接:對(duì)于同一網(wǎng)站的網(wǎng)頁(yè)應(yīng)該采用同一個(gè)HttpConnection這樣有效地節(jié)省創(chuàng)建一個(gè)連接的時(shí)間;抓取模式:對(duì)網(wǎng)頁(yè)進(jìn)

15、行訪問采用全部獲取還是增量模式,目前我采用的是增量獲取,實(shí)現(xiàn)方式是保存一個(gè)url數(shù)據(jù)庫(kù),每次訪問頁(yè)面時(shí)比較頁(yè)面路徑是否在數(shù)據(jù)庫(kù)中存在,如果存在察看它的修改時(shí)間,如果修改時(shí)間相同說明頁(yè)面沒有改動(dòng),就不抓取。,技術(shù)交流,,索引器  索引器是很關(guān)鍵的一個(gè)環(huán)節(jié),它主要將蜘蛛抓來的網(wǎng)頁(yè)和文檔經(jīng)過切分詞組織成適合于全文檢索的倒排文檔,我使用的是apache的lucene全文索引工具。  Lucene支持中文不拿手,他支持的中文分詞方式包括單字分

16、詞和雙字分詞,首先,肯定不能用單個(gè)字為索引單元,否則“上?!本捅环殖闪恕吧稀薄昂!?,查“上?!睍r(shí),“海上”也匹配;如果使用雙字分詞,比如:"信息中心" ==> "信息 中心 息中"。這種分詞模式查詢沒有問題,但是生成的索引就比較大,冗余的詞太多。目前信息中心網(wǎng)站有95條信息,生成的索引就接近1M。  所以需要開發(fā)一個(gè)基于詞庫(kù)的分詞工具,讓計(jì)算機(jī)能夠按照語言習(xí)慣對(duì)文章進(jìn)行切分,讓機(jī)器有一個(gè)比

17、較豐富的詞庫(kù)才能夠比較準(zhǔn)確的識(shí)別出語句中的單詞。所以嘗試自己開發(fā)一個(gè),在沒有頭緒的時(shí)候,找見了一個(gè)臺(tái)灣人開發(fā)的分詞工具,我使用了拿來主義把它修改了成了java中文版,完善了其中的不足之處,現(xiàn)在使用起來效果還是比較好。,2005,技術(shù)交流,,關(guān)鍵技術(shù):切詞:目前我的詞庫(kù)中有196127個(gè)詞,切詞的速度不快,是一種機(jī)械的切詞方法,沒有對(duì)歧義詞進(jìn)行排除和分析;文檔解析器:抓取下來網(wǎng)頁(yè)包括各種格式,目前包括HTML、PDF、WORD、EXC

18、EL、POWERPOINT、RTF、TEXT等7種格式的文件,需要把這些文件中的文本信息提取出來;標(biāo)簽補(bǔ)償器:因?yàn)榇蟛糠志W(wǎng)頁(yè)的html代碼都不規(guī)范,文檔解析器解析起來容易出錯(cuò),所以必須在解析前對(duì)網(wǎng)頁(yè)進(jìn)行完善,我使用了一個(gè)開源工具叫NekoHTML,實(shí)現(xiàn)了HTML掃描和標(biāo)簽補(bǔ)償。,2005,技術(shù)交流,,查詢器  查詢器是通過Web頁(yè)接受用戶輸入的搜索參數(shù)并切分用戶輸入的字串,訪問倒排檔索引文件檢索出所有符合檢索條件的文檔,并對(duì)其進(jìn)行并

19、集運(yùn)算和排序運(yùn)算,最后得到最終的結(jié)果文檔,再?gòu)母魑臋n中提取摘要信息寫入用戶反饋網(wǎng)頁(yè)中。關(guān)鍵技術(shù)查詢器的效率:通過查詢結(jié)果分頁(yè)輸出的方式提高查詢的效率;查詢條件:通過擴(kuò)展分詞工具,使得查詢時(shí)支持and or + -等語法格式。,2005,技術(shù)交流,,軟件版本控制:1、1.0Beta1開發(fā)完成搜索器、索引器和查詢器,分詞工具采用lucene自帶的ChineseAnalyser,只能對(duì)字串進(jìn)行單字分詞。2、1.0Beta2采用

20、CJKAnalyser,只能對(duì)字串進(jìn)行雙字分詞。3、10.Beta3采用自定義字典的Analyser,根據(jù)字典對(duì)漢語進(jìn)行分詞,目前字典中有196127個(gè)詞4、1.0Beata4通過修改lucene自帶demo程序,獲得檢索摘要。,2005,技術(shù)交流,,系統(tǒng)的用途:  隨著網(wǎng)絡(luò)的發(fā)展,網(wǎng)站已經(jīng)成為了政府機(jī)構(gòu)或企事業(yè)單位重要的公共形象門戶,每天,大量的社會(huì)公眾、潛在客戶、投資者會(huì)登陸網(wǎng)站,網(wǎng)站帶給他們的體驗(yàn)將直接影響到他們對(duì)該機(jī)構(gòu)

21、的評(píng)價(jià)。因此,為用戶提供一個(gè)快速,準(zhǔn)確,全面的信息檢索服務(wù)對(duì)網(wǎng)站提升用戶體驗(yàn),吸引用戶來說是至關(guān)重要的。該系統(tǒng)可以使用在以下幾個(gè)方面:  1、站內(nèi)檢索;  2、站群檢索;  3、專網(wǎng)內(nèi)檢索;  4、為應(yīng)用系統(tǒng)提供搜索引擎擴(kuò)展模塊;  5、決策支持系統(tǒng);  6、搜索引擎;,2005,技術(shù)交流,,后續(xù)需要作的工作:  1、基于目前開發(fā)的成果,繼續(xù)完善系統(tǒng)功能:  主要是從如何評(píng)價(jià)網(wǎng)頁(yè)的重要性、去除重復(fù)網(wǎng)頁(yè)、更好的解析頁(yè)面前

22、、開發(fā)更好的切分詞工具等方面進(jìn)行;  2、對(duì)系統(tǒng)進(jìn)行人性化設(shè)計(jì):  加入日志功能、任務(wù)計(jì)劃功能、網(wǎng)站管理、用戶管理等功能;  3、形成產(chǎn)品:  在對(duì)系統(tǒng)功能完善的基礎(chǔ)上,形成一個(gè)核心產(chǎn)品包,基于這個(gè)核心產(chǎn)品包推出不同類型的產(chǎn)品,如新聞搜索引擎、站內(nèi)檢索軟件、全文索引引擎工具包等,這個(gè)市場(chǎng)很大,可以一試?! ?、共享開發(fā)成果,成立開發(fā)小組。開發(fā)經(jīng)驗(yàn):  1、大量使用了開源代碼;  2、為軟件設(shè)置版本控制,有的放矢; ?。?/p>

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 眾賞文庫(kù)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論