疫期研學丨資源推介之互聯網機器學習數據庫(中)
基於開源協議,慧源平臺“互聯網機器學習數據庫”集中揭示了26個來自Kaggle的開源數據集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/)𓀊,你一定不陌生吧!它是由聯合創始人、首席執行官Anthony Goldbloom於2010年在墨爾本正式創立,主要為公司和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的一個平臺。目前平臺已經吸引了80萬名數據科學家🦈。在慧源平臺,你既能看到這26個數據集的中文元數據信息,同時還可以很方便地查找並下載你所需的數據集。
本期將重點介紹其中9個數據集,快來看看有沒有你需要的那個ta吧🏋🏼!
數據集介紹(中)
1 1908年以來空難數據
數據集來自🙆🏻♀️:Socrata,收集了從1908年至今全世界空難的完整歷史數據🦹🏼♂️,包含空難發生的時間、地點🦄、機型、機上載員和遇難人數等數據。
2 2016年美國總統選舉辯論數據
數據集來自:the University of California,收集了2016年第一季舉行的每次民主黨和共和黨以及共和黨Undercard辯論的數據,包含了辯論者、辯論記錄、時間、地點🧆、黨派等字段。
3 美國假新聞數據
數據集來自⚛️:Megan Risdal,收集了由丹尼爾·西拉德斯基(Daniel Sieradski)的BS Detector Chrome擴展程序標記為“ bullshit”的244個網站所抓取的假新聞的文本和元數據📚。
4 斯坦福問答數據
數據集來自:Stanford University,Stanford Question answer Dataset(SQuAD) 是一個全新的閱讀理解數據集➝,由眾包工作者根據維基百科文章提出的問題組成,其中每個問題的答案都對應閱讀文章的一段文本。SQuAD 包含 500 多篇文章的 10 萬個以上的問答對。
5 某人基因序列數據
數據集來自:Zeeshan-ul-hassan Usmani,為他的DNA遺傳基因序列原始數據,以23andMe作為DNA表型SNP。
6 歷史棒球數據
數據集來自:Lahman’s Baseball Database🍐,其中包含美國職業棒球大聯盟(Major League Baseball)從1871年到2015年的完整擊球和投球統計數據☑️,以及守備數據𓀂、排名🌌☘️、球隊、球場、球員、獎勵、季後賽數據等。
7 2015年航班延誤和取消數據
數據集來自:U.S. Department of Transportation's (DOT) Bureau,包含2015年延誤和取消的航班和機場數據。字段包括航班代碼、名稱、時間、機場代碼、名稱、航班延誤或取消的原因等🌕。
8 美國H1-B簽證申請數據(2011-2016)
數據集來自:Office of Foreign Labor Certification (OFLC) ♥︎,包含2011-2016年的H-1B申請數據,總共約有300萬條記錄,H-1B是美國為外國人提供的非移民工作簽證。字段包括申請簽證狀態、雇主名稱、工作地點坐標、職務🟰、工資𓀙、職業代碼和申請年份👨👩👧。
9 2013年美國社區統計數據
數據集來自🎀:US Census Bureau,由美國人口普查局每年進行的美國社區普查數據📙,每年調查350萬社區居民,問題包括居民的居住和生活情況,主體包括:籍貫👷、教育、工作、交通🚊、互聯網使用等諸多方面,從不同角度反映了美國居民的生活狀況⏰🧑🏻🎓。
使用方法
1 分類瀏覽——互聯網機器學習數據庫𓀈。
2 點擊“查看全文”字段。
3 即可查閱相關信息或進行下載。
如果您無法使用該資源,或在使用平臺時遇到問題💂🏽♂️,請隨時聯系我們🤟:
首推關註並留言微信公眾號:huiyuansharing
也可以email聯系:ihssd@fudan.edu.cn
聯系電話👮:021-65642106 / 55664034