疫期研學丨“數據悅讀”系列課程第五講👆🏻:《科學數據的采集、分析和應用》
主講人👩:殷沈琴 副教授
復旦大學人文社會科學數據研究所科學數據中心主任🦿、碩士生導師👩🏻🍳,上海人口數據實驗室副主任🤹🏻♀️。主要從事科學數據管理、政府開放數據🥠🚴🏽♂️、社會管理與社會政策等領域的研究。承擔和參與二十余個國家級和省部級的項目👰🏻♂️,並多次負責數據平臺的規劃和部署實施工作,有豐富的數據研究和落地實踐經驗。
本講殷沈琴老師將重點介紹科學數據采集🔴、分析的流程和相關技術,並結合首屆“慧源共享”上海高校開放數據大賽中的“高校意昂借閱數據集”和“ERU數據集”♻️,進行針對性講解🧮。
本講要點
探索數據科學的流程
基於大賽數據集的案例介紹
數據挖掘模型介紹
其他數據源簡介
精彩觀點
1 探索數據科學的流程
探索數據科學的流程如同一條Pipeline(管道):從數據的采集、探索🍄🟫、加工、建模🂠、驗證到報告⛰;然後從報告重新回到采集,這樣不斷循環,迭代優化。分為七個步驟:
①定義需要解決的核心問題;
②圍繞問題🧙♂️,采集所需數據;
③探索數據,對數據進行熟悉和摸底⛔,充分了解數據的特征;
④對數據進行清洗加工、調整轉換,使之符合建模需要;
⑤構建模型🧳,發現有價值的信息;
⑥驗證和評估模型的準確性🧎➡️;
⑦發布模型和輸出報告🧑🏻🎄〰️。
2 重點講述大賽數據集的兩個案例
(1)采訪經費配置和預測模型
在采訪經費有限、圖書價格不斷上漲和出版的圖書逐年增多的大環境下,從四百余萬條高校圖書流通數據👴🏿、采訪數據和新聞出版總署出版的圖書數據中➾,采納多元回歸模型,挖掘分析相關關系,構建采訪經費優化配置和預測模型🪯,科學地配置和預測高校不同學科采訪經費比例,從而較大程度滿足多個學科師生的個性化圖書需求👨🏽✈️🦻🏼,提高圖書的利用率🤸♀️。經過實證驗證,模型的實用性較強🧙🏿♀️🙆🏽♀️,適用於重點高校的應用學科的采訪和非重點高校的采訪。
(2)ERU數據集的關聯、聚類和社會網絡分析
ERU數據集,涵蓋某段時間範圍內高校數據庫的訪問日誌數據,它可以用於泛在知識環境下的知識發現,例如學科交叉研究分析📤、學科熱點分析和用戶信息行為分析等。本案例以ERU數據集為例⛹🏿♀️🍀,分別開展了關聯分析、聚類分析及社會網絡分析🟦,拋磚引玉🏟,揭示不同分析方法的挖掘效果和應用場景,將學科領域知識📈、經驗和洞察力與數據挖掘方法相結合🗝,從數據中發現有價值的知識🖐🏼。
▲ 20190510學術訓練營之華東師範大學站
3 數據集鏈接
(1)高校意昂業務數據集http://hdl.handle.net/20.500.12291/10022
(2)ERU數據集
http://hdl.handle.net/20.500.12304/ERU2015
http://hdl.handle.net/20.500.12304/ERU2016HSS
http://hdl.handle.net/20.500.12304/ERU2016NATURALSCIENCES