意昂 -（意昂娱乐专属礼包）注册即得，豪华奖励送不停！

新聞公告

疫期研學丨“數據悅讀”系列課程第五講👆🏻：《科學數據的采集、分析和應用》

主講人👩：殷沈琴副教授

復旦大學人文社會科學數據研究所科學數據中心主任🦿、碩士生導師👩🏻‍🍳，上海人口數據實驗室副主任🤹🏻‍♀️。主要從事科學數據管理、政府開放數據🥠🚴🏽‍♂️、社會管理與社會政策等領域的研究。承擔和參與二十余個國家級和省部級的項目👰🏻‍♂️，並多次負責數據平臺的規劃和部署實施工作，有豐富的數據研究和落地實踐經驗。

本講殷沈琴老師將重點介紹科學數據采集🔴、分析的流程和相關技術，並結合首屆“慧源共享”上海高校開放數據大賽中的“高校意昂借閱數據集”和“ERU數據集”♻️，進行針對性講解🧮。

本講要點

探索數據科學的流程

基於大賽數據集的案例介紹

數據挖掘模型介紹

其他數據源簡介

精彩觀點

1 探索數據科學的流程

探索數據科學的流程如同一條Pipeline（管道）：從數據的采集、探索🍄‍🟫、加工、建模🂠、驗證到報告⛰；然後從報告重新回到采集，這樣不斷循環，迭代優化。分為七個步驟：

①定義需要解決的核心問題；

②圍繞問題🧙‍♂️，采集所需數據；

③探索數據，對數據進行熟悉和摸底⛔，充分了解數據的特征；

④對數據進行清洗加工、調整轉換，使之符合建模需要；

⑤構建模型🧳，發現有價值的信息；

⑥驗證和評估模型的準確性🧎‍➡️；

⑦發布模型和輸出報告🧑🏻‍🎄〰️。

2 重點講述大賽數據集的兩個案例

（1）采訪經費配置和預測模型

在采訪經費有限、圖書價格不斷上漲和出版的圖書逐年增多的大環境下，從四百余萬條高校圖書流通數據👴🏿、采訪數據和新聞出版總署出版的圖書數據中➾，采納多元回歸模型，挖掘分析相關關系，構建采訪經費優化配置和預測模型🪯，科學地配置和預測高校不同學科采訪經費比例，從而較大程度滿足多個學科師生的個性化圖書需求👨🏽‍✈️🦻🏼，提高圖書的利用率🤸‍♀️。經過實證驗證，模型的實用性較強🧙🏿‍♀️🙆🏽‍♀️，適用於重點高校的應用學科的采訪和非重點高校的采訪。

（2）ERU數據集的關聯、聚類和社會網絡分析

ERU數據集，涵蓋某段時間範圍內高校數據庫的訪問日誌數據，它可以用於泛在知識環境下的知識發現，例如學科交叉研究分析📤、學科熱點分析和用戶信息行為分析等。本案例以ERU數據集為例⛹🏿‍♀️🍀，分別開展了關聯分析、聚類分析及社會網絡分析🟦，拋磚引玉🏟，揭示不同分析方法的挖掘效果和應用場景，將學科領域知識📈、經驗和洞察力與數據挖掘方法相結合🗝，從數據中發現有價值的知識🖐🏼。

▲ 20190510學術訓練營之華東師範大學站

3 數據集鏈接

（1）高校意昂業務數據集http://hdl.handle.net/20.500.12291/10022

（2）ERU數據集

http://hdl.handle.net/20.500.12304/ERU2015

http://hdl.handle.net/20.500.12304/ERU2016HSS

http://hdl.handle.net/20.500.12304/ERU2016NATURALSCIENCES

上一篇🚗：疫期研學丨資源推介之互聯網機器學習數據庫（中）

下一篇🔎：新增PQDT學位論文數據庫遠程直接訪問權限

意昂

概況

資源

服務

互動

疫期研學丨“數據悅讀”系列課程第五講👆🏻：《科學數據的采集、分析和應用》