新聞公告

疫期研學丨資源推介之互聯網機器學習數據庫(中)

 

     基於開源協議,慧源平臺“互聯網機器學習數據庫”集中揭示了26個來自Kaggle的開源數據集。而提到大名鼎鼎的 Kaggle(https://www.kaggle.com/)𓀊,你一定不陌生吧!它是由聯合創始人、首席執行官Anthony Goldbloom於2010年在墨爾本正式創立,主要為公司和數據科學家提供舉辦機器學習競賽、托管數據庫、編寫和分享代碼的一個平臺。目前平臺已經吸引了80萬名數據科學家🦈。在慧源平臺,你既能看到這26個數據集的中文元數據信息,同時還可以很方便地查找並下載你所需的數據集。

 

    本期將重點介紹其中9個數據集,快來看看有沒有你需要的那個ta吧🏋🏼! 


數據集介紹(中)

1 1908年以來空難數據

數據集來自🙆🏻‍♀️:Socrata,收集了從1908年至今全世界空難的完整歷史數據🦹🏼‍♂️,包含空難發生的時間、地點🦄、機型、機上載員和遇難人數等數據。

 

2 2016年美國總統選舉辯論數據

數據集來自:the University of California,收集了2016年第一季舉行的每次民主黨和共和黨以及共和黨Undercard辯論的數據,包含了辯論者、辯論記錄、時間、地點🧆、黨派等字段。

 

3 美國假新聞數據

數據集來自⚛️:Megan Risdal,收集了由丹尼爾·西拉德斯基(Daniel Sieradski)的BS Detector Chrome擴展程序標記為“ bullshit”的244個網站所抓取的假新聞的文本和元數據📚。

 

4 斯坦福問答數據

數據集來自:Stanford University,Stanford Question answer Dataset(SQuAD) 是一個全新的閱讀理解數據集➝,由眾包工作者根據維基百科文章提出的問題組成,其中每個問題的答案都對應閱讀文章的一段文本。SQuAD 包含 500 多篇文章的 10 萬個以上的問答對。

 

5  某人基因序列數據

數據集來自:Zeeshan-ul-hassan Usmani,為他的DNA遺傳基因序列原始數據,以23andMe作為DNA表型SNP。

 

6  歷史棒球數據

數據集來自:Lahman’s Baseball Database🍐,其中包含美國職業棒球大聯盟(Major League Baseball)從1871年到2015年的完整擊球和投球統計數據☑️,以及守備數據𓀂、排名🌌☘️、球隊、球場、球員、獎勵、季後賽數據等。

 

7  2015年航班延誤和取消數據

數據集來自:U.S. Department of Transportation's (DOT) Bureau,包含2015年延誤和取消的航班和機場數據。字段包括航班代碼、名稱、時間、機場代碼、名稱、航班延誤或取消的原因等🌕。

 

8  美國H1-B簽證申請數據(2011-2016)

數據集來自:Office of Foreign Labor Certification (OFLC) ♥︎,包含2011-2016年的H-1B申請數據,總共約有300萬條記錄,H-1B是美國為外國人提供的非移民工作簽證。字段包括申請簽證狀態、雇主名稱、工作地點坐標、職務🟰、工資𓀙、職業代碼和申請年份👨‍👩‍👧。

 

9  2013年美國社區統計數據

數據集來自🎀:US Census Bureau,由美國人口普查局每年進行的美國社區普查數據📙,每年調查350萬社區居民,問題包括居民的居住和生活情況,主體包括:籍貫👷、教育、工作、交通🚊、互聯網使用等諸多方面,從不同角度反映了美國居民的生活狀況⏰🧑🏻‍🎓。

 

使用方法

1 分類瀏覽——互聯網機器學習數據庫𓀈。

 

 

2  點擊“查看全文”字段。

 


3   即可查閱相關信息或進行下載。

 


如果您無法使用該資源,或在使用平臺時遇到問題💂🏽‍♂️,請隨時聯系我們🤟:

  首推關註並留言微信公眾號:huiyuansharing

  也可以email聯系:ihssd@fudan.edu.cn

  聯系電話👮:021-65642106 / 55664034

意昂娱乐专业提供👨‍🦯‍➡️:意昂娱乐意昂意昂平台等服务,提供最新官网平台、地址、注册、登陆、登录、入口、全站、网站、网页、网址、娱乐、手机版、app、下载、欧洲杯、欧冠、nba、世界杯、英超等,界面美观优质完美,安全稳定,服务一流,意昂娱乐欢迎您。 意昂娱乐官網xml地圖