疫期研學丨資源推介之互聯網機器學習數據庫(上)
助力抗疫資源第四波👱🏽♂️:互聯網機器學習數據庫
基於開源協議,慧源平臺“互聯網機器學習數據庫”集中揭示了26個來自Kaggle的開源數據集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/),你一定不陌生吧!它是由聯合創始人👩👩👦👦🔣、首席執行官Anthony Goldbloom於2010年在墨爾本正式創立🥼👨🏿🦳,主要為公司和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的一個平臺😵💫。目前平臺已經吸引了80萬名數據科學家。在慧源平臺,你既能看到這26個數據集的中文元數據信息,同時還可以很方便地查找並下載你所需的數據集。
本期將重點介紹其中9個數據集🤸♀️,快來看看有沒有你需要的那個ta吧👇!
數據集介紹
1️⃣美國環境汙染數據
數據集來自美國國家環保局(U.S.EPA),收集了美國2000~2016年二氧化氮💁🏻、二氧化硫👨✈️🤹🏿♂️、一氧化碳和臭氧四類汙染物的相關數據。
2️⃣美聯航Twitter用戶評論數據
數據集來自Figure Eight,包括自2015年2月開始抓取的美國航空公司Twitter的評論數據🥐,並對每條評論進行了情感評價(正面/中性/負面),對負面評價還給出了原因⤵️🤏🏼,如🚪:延遲、服務粗魯等。
3️⃣美國醫療保險市場數據
數據集來自美國醫療保險和醫療補助服務中心(the Centers for Medicare & Medicaid Services,CMS),針對全美個人和小企業醫療健康與牙科保險市場數據👨🏻🔧,涵蓋保險範圍、種類、費率、保險計劃內容、網絡🦸♂️、商業條款🌪、收益與支出等。
4️⃣英國車禍數據(2005-2015)
數據集來自UK police,包括英國警方收集的2005-2015年英國車禍的數據。
5️⃣芝加哥汽車超速數據
數據集來自the Chicago Police Department🪴,收集了2014年7月1日至2016年12月31日芝加哥市所有攝像頭所記錄的每天的汽車超速數據。
6️⃣Amazon 食品評論數據
數據集來自Amazon,包括自1999年10月至2012年10月在Amazon平臺的500,000條食品評論數據🧔🏿♂️👨🏿✈️。包括產品信息、用戶信息、評分以及評論等數據🍽。
7️⃣ Amazon 無鎖手機評論數據
數據集來自Amazon,收集了40萬條在Amazon上出售的無鎖手機的評論數據,包含產品名稱、品牌、價格、評論💵、評分🩵,以及認為評論有用的人數等字段🙎🏽♂️。
8️⃣美國股票新聞數據
新聞數據集來自Reddit WorldNews Channel🥖,包括時間、新聞標題等字段,對應時段的股票數據來自Dow Jones Industrial Average (DJIA)🏄🏿🔷。
9️⃣歐洲足球運動員賽事表現數據
數據包括歐洲2008到2016賽季中的25000多場比賽,10000余位運動員,11個歐洲國家的聯賽,運動員和球隊的屬性🏄🏻♀️,賭博賠率,比賽詳情等數據🎁。
使用方法
1️⃣分類瀏覽——互聯網機器學習數據庫。
2️⃣點擊“查看全文”字段。
3️⃣即可查閱相關信息或進行下載。
如果您無法使用該資源,或在使用平臺時遇到問題,請隨時聯系我們🍟:
首推關註並留言微信公眾號:huiyuansharing🐓,
也可以email聯系👸🏼:ihssd@fudan.edu.cn
聯系電話🧬:021-65642106 / 55664034