版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、,,,,,,,,中國計算機學會,全青年大數(shù)據(jù)創(chuàng)新大賽,“中國好創(chuàng)意”,,,目錄,1,2,3,4,大賽背景,賽事介紹,往屆大賽回顧,參賽技巧,“中國好創(chuàng)意”,大賽背景,,By 2018, the U.S. alone may face a 50 percent to 60 percent gap between supply and requisite demand of deep analytic talent.
2、------McKinsey,,,古老智慧 懸賞,眾包 現(xiàn)代思維,大賽背景,,,大賽背景,,,大賽背景,,,大賽背景,,,,,,,,,中國計算機學會,全青年大數(shù)據(jù)創(chuàng)新大賽,“中國好創(chuàng)意”,,,大賽背景,組委會介紹,承辦單位,指導(dǎo)單位,戰(zhàn)略合作,出題單位,主辦單位,國家互聯(lián)網(wǎng)信息辦公室網(wǎng)絡(luò)數(shù)據(jù)與技術(shù)局,中國計算機學會,CCF大數(shù)據(jù)專家委員會教育部易班發(fā)展中心北京數(shù)聯(lián)眾創(chuàng)科技有限公司,百度、中國聯(lián)通、中國移動、阿里、海量、亞信數(shù)
3、據(jù)、中科曙光、華大基因、略數(shù)據(jù)、中華網(wǎng),清華大學、中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟,,,大賽背景,旨在通過大賽構(gòu)建良好的資源共享平臺,創(chuàng)造大數(shù)據(jù)的良性發(fā)展環(huán)境,促進大數(shù)據(jù)、“互聯(lián)網(wǎng)+”與云計算等戰(zhàn)略新興產(chǎn)業(yè)的融合,促進大數(shù)據(jù)專業(yè)技術(shù)人才的培養(yǎng),為國家輸出有創(chuàng)新能力和實踐能力的高端人才,推進“大眾創(chuàng)業(yè)、萬眾創(chuàng)新”。 打造一個數(shù)據(jù)分享、數(shù)據(jù)管理、數(shù)據(jù)建模與數(shù)據(jù)分析的在線大數(shù)據(jù)云平臺,匯聚企事業(yè)單位、政府機構(gòu)和高校的大數(shù)據(jù)需求。大賽分為“大數(shù)據(jù)創(chuàng)新程
4、序大賽”和 “大數(shù)據(jù)創(chuàng)意應(yīng)用大賽”,吸引一群有志于大數(shù)據(jù)技術(shù)與研究的數(shù)據(jù)工作愛好者,通過“眾包”模式,利用數(shù)據(jù)分析方法以及大數(shù)據(jù)創(chuàng)新創(chuàng)意應(yīng)用原型系統(tǒng)分析數(shù)據(jù) 價值、針對問題求解。,海量數(shù)據(jù),至高榮譽,百萬獎金,權(quán)威專家,“中國好創(chuàng)意”,賽事介紹,,,賽事介紹-大賽類型,賽題提供所涉及的數(shù)據(jù)和明確的評價指標,制定在線評價程序。參賽團隊通過大賽官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,賽題提供數(shù)據(jù)或參賽者
5、自行獲取數(shù)據(jù)和開放式問題。參賽團隊自由設(shè)計創(chuàng)意應(yīng)用,提供完整解決方案(例如:方案策劃書、原型系統(tǒng)、應(yīng)用程序、相關(guān)說明文檔等),通過大賽官方平臺提交解決方案包。專家線上打分,公布排行榜。,大數(shù)據(jù)創(chuàng)新程序大賽,大數(shù)據(jù)創(chuàng)意應(yīng)用大賽,,,賽事介紹-比賽規(guī)則,,,賽事介紹-比賽規(guī)則,算法類,應(yīng)用類,排行榜,2015,2016,,,賽事介紹-主體賽程,,,賽事介紹-賽題簡介,賽題提供所涉及的數(shù)據(jù)和明確的評價指標,制定在線評價程序。參賽團隊通過大賽
6、官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,賽題提供所涉及的數(shù)據(jù)和明確的評價指標,制定在線評價程序。參賽團隊通過大賽官方平臺直接提交結(jié)果文件或提交程序代碼,系統(tǒng)自動打分,在線排名(A+B榜)。,,,賽事介紹-賽題簡介,本題提供了100萬名隨機用戶在六個月內(nèi)的廣告曝光和點擊日志,包括廣告監(jiān)測點數(shù)據(jù)。參賽者需要預(yù)測每個用戶在下一周的時間內(nèi)是否會在各監(jiān)測點上發(fā)生點擊行為。以提供指導(dǎo)廣告主進行定向廣告投放和優(yōu)化
7、的方向。,本題依據(jù)歷史票房數(shù)據(jù)、影評數(shù)據(jù)、輿情數(shù)據(jù)等互聯(lián)網(wǎng)公眾數(shù)據(jù),從題材、內(nèi)容、導(dǎo)演、演員、編輯、發(fā)行方等等影響電影票房的因素入手,借助大數(shù)據(jù)對電影市場進行分析,設(shè)計電影票房預(yù)測系統(tǒng),指導(dǎo)電影制作。,,,賽事介紹-賽題簡介,本題根據(jù)行業(yè)訴求,要求參賽者以移動運營商記錄的用戶位置信息,以及相關(guān)的用戶標簽信息(性別、年齡、偏好等)數(shù)據(jù)為基礎(chǔ),基于用戶位置信息,設(shè)想其應(yīng)用場景,或分析利用位置信息如何創(chuàng)新現(xiàn)有的商業(yè)模式。,本題要求參賽者利用運
8、營商用戶數(shù)據(jù),構(gòu)建算法模型,測試驗證,形成可行的完整的互聯(lián)網(wǎng)金融領(lǐng)域內(nèi)的創(chuàng)意數(shù)據(jù)產(chǎn)品技術(shù)方案,可以是一個新的創(chuàng)意,也可以是現(xiàn)有問題(如個人征信評估,可貸額度估算)新的解決方法。,,,賽事介紹-賽題簡介,本題要求參賽者基于短信文本內(nèi)容,結(jié)合機器學習算法、大數(shù)據(jù)分,析準確地、完整地識別出垃圾短信、正常短信。解決傳統(tǒng)的基于策略、關(guān)鍵詞等過濾手段,很多垃圾短信“逃脫”過濾到達手機終端的問題。,本題基于當前語音交互方式這種更大、更靈活、方便的體驗
9、,要求參賽者針對聽報告、語音對話、交互查詢等這些語音直接溝通的語言表述進行分析、轉(zhuǎn)換、查詢獲得最終結(jié)果反饋給使用者。,,,賽事介紹-賽題簡介,本題基于法律判決文書中包含的大量的涉案金額細項,要求參賽者提取文書中的費用類型以及具體的金額。 判決書,法律術(shù)語,是指法院根據(jù)判決寫成的文書,是法律界常用的一種應(yīng)用寫作文體。,本題基于京東服裝品類的50萬商品主圖以及對應(yīng)的三級分類,要求參賽者根據(jù)商品圖片,對圖像進行計算處理,預(yù)測商品所屬的三級分類
10、。以達到通過提取京東商品圖像特征,提供給推薦、廣告等系統(tǒng),提高推薦/廣告的效果。,,,賽事介紹-賽題簡介,本題可抽象為字符串的匹配、查找問題。人的基因序列和細菌的序列可看做一組長的字符串(A),而待檢測個體的數(shù)據(jù)是一個短字符串的集合(B)。需要確定字符串集合B中的字符串能夠同字符串集合A中哪些字符串匹配。,精確的語義分析是大數(shù)據(jù)必備技術(shù),在分析句子時,不同句式即使用類似的關(guān)鍵詞,表達的含義和有很大差別,特別是在情感判斷中,更需要精準判斷
11、關(guān)鍵詞的作用。本題要求參賽者能夠準確地推斷出一個句子的句式。,本題要求參賽者對提供的各級地址文本完整、準確地識別。通過對地址進行標準化的處理,使基于地址的多維度量化挖掘分析成為可能,為不同場景模式下的電子商務(wù)應(yīng)用挖掘提供了更加豐富的方法和手段。,,,賽事介紹-大賽導(dǎo)師,,,賽事介紹-大賽評委,“中國好創(chuàng)意”,往屆大賽回顧,,,往屆大賽回顧,,,,,,,,,,,2013年,4個企業(yè),5道賽題,2014年,7個企業(yè),7道賽題,關(guān)鍵詞行業(yè)分類
12、(百度)電信網(wǎng)絡(luò)尋呼黑洞分析(中國移動)電信用戶交往圈構(gòu)建和特定類型用戶識別(中國移動)用戶購買行為的歸因分析(秒針)基于出租車GPS軌跡的位置服務(wù)(數(shù)據(jù)堂),百度大數(shù)據(jù)創(chuàng)意應(yīng)用 (百度)用戶瀏覽新聞的模式分析及個性化新聞推薦(百分點)系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測 (海量)基于人物的相關(guān)網(wǎng)絡(luò)視頻挖掘 (中科云網(wǎng))基于互聯(lián)網(wǎng)大數(shù)據(jù)的日志類應(yīng)用處理 (南大通用)電商消費行為預(yù)測 (思明)多媒體展示廣告點擊率預(yù)
13、估 (騰訊),,,往屆大賽回顧,,,,,,,,約1760人,660支,所有985高校大部分211高校10所境外高校,約2800人,888支,所有985高校大部分211高校3所境外高校46家企業(yè)或政府機構(gòu)20多支自由組合隊伍,,總?cè)藬?shù),隊伍總數(shù),隊伍分布,總?cè)藬?shù),隊伍總數(shù),隊伍分布,2013年,2014年,境外高校:倫敦大學院、澳門科技大學、紐約州立大學Buffalo分校、卡耐基梅隆大學、佐治亞理工學院、香港大學、香港理工大
14、學、香港科技大學、南洋理工大學、密蘇里哥倫比亞大學,境外高校:麻省理工學院、喬治華盛頓大學、香港科技大學企業(yè)或政府機構(gòu):百度、京東、攜程、新浪微博、西門子、神龍汽車、中國國防科技信息中心等,,,,,,,用戶瀏覽新聞的模式分析及個性化新聞推薦,,電信用戶交往圈構(gòu)建和特定類型用戶識別,,基于出租車GPS軌跡的位置服務(wù),,系列危害公共安全事件的關(guān)聯(lián)關(guān)系挖掘及預(yù)測,,,往屆大賽回顧-TOP5,,百度大數(shù)據(jù)創(chuàng)意及應(yīng)用,13.69%,13.31
15、%,9.48%,12.41%,10.13%,,,,往屆大賽回顧,,,,往屆大賽回顧,“中國好創(chuàng)意”,參賽技巧,,,參賽技巧,且慢動手,好好咀嚼題目,,,參賽技巧,我們比的是什么?——評價函數(shù),評價函數(shù)影響其他兩者,如果損失函數(shù)是最小絕對差,如果損失函數(shù)是最小方差,特定模型只對特定損失函數(shù)最優(yōu),,,參賽技巧,先跟數(shù)據(jù)培養(yǎng)感情,數(shù)據(jù)競賽的目標:overspecialization without overfitting算法為數(shù)據(jù)而生實
16、用性是次要的(但也有時候是主要因素)用可視化工具為數(shù)據(jù)畫像,用可視化分析工具熱身有anomaly/outlier嗎?有明顯的規(guī)律嗎?可以簡化問題嗎?了解領(lǐng)域知識數(shù)據(jù)科學家=分析技術(shù)+領(lǐng)域知識+數(shù)據(jù)直覺,,,參賽技巧,兩份數(shù)據(jù),兩個排行榜,Public data (一般25-33% of total test data)Public leaderboard 實時排行榜Private data (其余數(shù)據(jù),for final
17、 score)保證最精確、同時有足夠泛化的model獲勝Private leaderboard 決定最終名次有時候有三份數(shù)據(jù)如Netflix Prize:training, test, quiz,,,參賽技巧,尋找相關(guān)工作,Kaggle可能已經(jīng)有相似的競賽Tutorial,得勝者經(jīng)驗之談,如 http://blog.kaggle.com/category/dojo/論文,開源代碼,技術(shù)文章聯(lián)系作者到論壇尋寶,提問活
18、躍論壇,如 https://www.kaggle.com/forums/f/15/kaggle-forum本大賽論壇,,,參賽技巧,準備工具和本地環(huán)境,R,Python,SQL,Java,……選擇最拿手的提交環(huán)境支持Kaggle R Tutorial on Machine Learning建立本地環(huán)境,,,參賽技巧,不要把模型想得太復(fù)雜,往往一些基礎(chǔ)模型就很好到MOOC上好好溫習一下基礎(chǔ),如 https://www.cou
19、rsera.org/learn/machine-learning 特征工程:重中之重采用原始特征,利用領(lǐng)域知識選擇golden features自動方法(如PCA,深度學習)或者采用復(fù)雜的黑盒模型,,,參賽技巧,避免Overfitting,相比訓練數(shù)據(jù)規(guī)模,模型不能過于復(fù)雜過多的提交可能導(dǎo)致overfittingCross-validation,,,參賽技巧,Ensemble:終極絕招,眾愚成智:很多模型加起來能夠提高
20、泛化能力,尤其是針對復(fù)雜的問題人多未必力量大:精心挑選模型的組合使候選模型間相關(guān)性弱作為最后一步一些技巧http://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p1.htmlhttp://www.kdnuggets.com/2015/06/ensembles-kaggle-data-science-competition-p2.h
21、tml,,,參賽技巧,In each competition I learn a bit more from the winners. A competition is not won by one insight, usually it is won by several careful steps towards a good modelling approach. Everything play it
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 眾賞文庫僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國癡呆指南v3
- 無線設(shè)備培訓v3
- 審判達爾文(gb )v3
- 載體構(gòu)建流程v3
- 支付寶城市服務(wù)商協(xié)議v3全國
- 中國校園網(wǎng)的通病
- 中國校園文學網(wǎng)
- ccaa認證人員注冊與管理系統(tǒng)v3 - 中國質(zhì)量 中國 …
- 全國校園足球特色學校匯報材料
- 多益網(wǎng)絡(luò)2018春季全國校園招聘
- 2017年中航物業(yè)對外宣傳關(guān)鍵詞v3
- 簡要操作手冊(v3)
- v3雙活實施方案
- oa項目需求調(diào)研報告v3
- v3雙活實施方案
- 中國校園音樂榜 招商方案
- 全國校園足球特色學?;緲藴?試行)
- 海爾集團專業(yè)能力辭典_v3(研發(fā))
- 紫旭錄播系統(tǒng)整體介紹v3
評論
0/150
提交評論