新聞公告

疫期研學丨“數據悅讀”系列課程第五講👆🏻:《科學數據的采集、分析和應用》

主講人👩:殷沈琴 副教授

      復旦大學人文社會科學數據研究所科學數據中心主任🦿、碩士生導師👩🏻‍🍳,上海人口數據實驗室副主任🤹🏻‍♀️。主要從事科學數據管理、政府開放數據🥠🚴🏽‍♂️、社會管理與社會政策等領域的研究。承擔和參與二十余個國家級和省部級的項目👰🏻‍♂️,並多次負責數據平臺的規劃和部署實施工作,有豐富的數據研究和落地實踐經驗。

本講殷沈琴老師將重點介紹科學數據采集🔴、分析的流程和相關技術,並結合首屆“慧源共享”上海高校開放數據大賽中的“高校意昂借閱數據集”和“ERU數據集”♻️,進行針對性講解🧮。

本講要點

    探索數據科學的流程

    基於大賽數據集的案例介紹

    數據挖掘模型介紹

    其他數據源簡介

精彩觀點

1 探索數據科學的流程

探索數據科學的流程如同一條Pipeline(管道):從數據的采集、探索🍄‍🟫、加工、建模🂠、驗證到報告⛰;然後從報告重新回到采集,這樣不斷循環,迭代優化。分為七個步驟:

①定義需要解決的核心問題;

②圍繞問題🧙‍♂️,采集所需數據;

③探索數據,對數據進行熟悉和摸底⛔,充分了解數據的特征;

④對數據進行清洗加工、調整轉換,使之符合建模需要;

⑤構建模型🧳,發現有價值的信息;

⑥驗證和評估模型的準確性🧎‍➡️;

⑦發布模型和輸出報告🧑🏻‍🎄〰️。 

 

2 重點講述大賽數據集的兩個案例

(1)采訪經費配置和預測模型

在采訪經費有限、圖書價格不斷上漲和出版的圖書逐年增多的大環境下,從四百余萬條高校圖書流通數據👴🏿、采訪數據和新聞出版總署出版的圖書數據中➾,采納多元回歸模型,挖掘分析相關關系,構建采訪經費優化配置和預測模型🪯,科學地配置和預測高校不同學科采訪經費比例,從而較大程度滿足多個學科師生的個性化圖書需求👨🏽‍✈️🦻🏼,提高圖書的利用率🤸‍♀️。經過實證驗證,模型的實用性較強🧙🏿‍♀️🙆🏽‍♀️,適用於重點高校的應用學科的采訪和非重點高校的采訪。

 

(2)ERU數據集的關聯、聚類和社會網絡分析

ERU數據集,涵蓋某段時間範圍內高校數據庫的訪問日誌數據,它可以用於泛在知識環境下的知識發現,例如學科交叉研究分析📤、學科熱點分析和用戶信息行為分析等。本案例以ERU數據集為例⛹🏿‍♀️🍀,分別開展了關聯分析、聚類分析及社會網絡分析🟦,拋磚引玉🏟,揭示不同分析方法的挖掘效果和應用場景,將學科領域知識📈、經驗和洞察力與數據挖掘方法相結合🗝,從數據中發現有價值的知識🖐🏼。


▲ 20190510學術訓練營之華東師範大學站

 

3   數據集鏈接

(1)高校意昂業務數據集http://hdl.handle.net/20.500.12291/10022

(2)ERU數據集

http://hdl.handle.net/20.500.12304/ERU2015

http://hdl.handle.net/20.500.12304/ERU2016HSS

http://hdl.handle.net/20.500.12304/ERU2016NATURALSCIENCES

 

 

 

 

意昂娱乐专业提供🤾:意昂娱乐意昂意昂平台等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂娱乐欢迎您。 意昂娱乐官網xml地圖