Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发。
寻找一个好的机器学习数据集往往是一个开发人员在启动任何数据科学项目之前必须要面临的最大障碍。无论你是机器学习的新手,还是一个专业的数据科学家,找到一个好的机器学习数据集是提取可行见解的关键。我们编辑了下面11个我们最喜欢的公开数据集。
/r/数据集
https://www.reddit.com/r/datasets
Reddit的/r/数据集提供了一个很大众化的方式共享和请求数据集。在这里,你会发现各种各样的数据从链接深度学习数据集,如印度电影人脸数据库,包括从各种电影的100个印度演员的照片,到每个国家禁止车牌的DMV的数据集。这大概是最随机的和无组织的数据编辑,但提供了一些意外的发现。
自然地球数据
https://www.naturalearthdata.com/
地球自然包括一个相对较小的地理空间数据的数据集,并针对网络地图应用程序进行了特别的优化。这些数据集包括在两个栅格数据层中的地图数据,和矢量层。其中包括文化数据,国家,边界线,人口归属,水边界,等等。矢量数据可以作为ESRI形状文件而栅格数据在TIFF格式是可用的。此数据源可以很容易地将地图工具集成到本地或Web应用程序中。
加州大学欧文分校机器学习库
https://archive.ics.uci.edu/ml/
众所周知并且被大量应用的UCI机器学习库包含了不同的用于机器学习应用的数据集。在这里你会发现数据集按任务分类(例如分类;回归),数据类型(例如多变量,时间序列),等等。最近的数据集包括意大利的空气质量,学生的酒精消费量,和全球定位系统的轨迹。其他有趣的数据集包括从意大利葡萄酒的化学成分,鲍鱼的物理特性,和心脏病数据。每个数据集都有丰富的元数据,包括相关文件,数据源,数据类型,等等。数据有多种形式,包括.CSV和.zip。
谷歌趋势数据存储
https://googletrends.github.io/data/
如果你想使用搜索引擎做基于时间维度的概念探索及证明,那么谷歌趋势是很好的工具。谷歌趋势通过可视化,区域图,兴趣变化趋势,以及查询历史来展示热门查询。并以区域或类别为基础改善你的搜索,如商业,娱乐,体育等等。探索不同趋势基于时间维度的相互比较也很有趣,如过去十年的气候改变,全球变暖,经济衰退,经济上的相互比较。可以查看网页上的实时趋势数据并且所有数据集都能够下载为CSV文件。
想知道更多吗?看看这个攻击谷歌趋势API指南。
机器学习数据集存储库
https://mldata.org/
机器学习数据集存储库是一个从劳动攻击数据到网络分析数据的数据集的集合。这些数据集包括元数据,如许可、依赖关系和属性类型。他们可以是各种不同的格式,如.ZIP,.TAR,.CSV,和.XML。机器学习的数据集可搜索,分类,并标记星级,下载数量,和评论,因此你可以直截了当地找到你所需要的。
美国地质调查局
https://www.usgs.gov/products/data-and-tools/overview
美国地质调查局是一个自然资源和地质数据的金矿。探索从生物学到气候变化到矿物数据的话题。该网站还提供了访问实时数据,科学研究数据,当然还有地理信息系统数据集。美国地质调查局还提供访问不同的端点,如水服务API提供了一个数据目录的工具用于浏览地理空间和自然资源数据。从数据目录的数据集包括生物多样性计数,地下水枯竭,地热数据,等等。每个数据门户包括广泛的元数据文档和可作为形状文件。zip格式或与该格式的栅格数据集。非GIS数据是可用的。CSV、JSON、XML和更多。每个数据门户包括广泛的元数据文档和可以作为形文件的.zip格式或者.GXF格式栅格数据集。非GIS数据可以使用.CSV, JSON, XML等格式。
深度学习数据集
https://deeplearning.net/datasets/
一点不足为奇,深度学习数据集可以完美地作U+7528于深度学习算法!这些数据集涵盖一切从象征性的音乐,到自然图像,人脸,文本和语音。这些数据集大多数是众所周知的,如Penn树图资料库和MNIST,然而把这些深度学习数据集放在一个地方是非常有用的。
皮尤研究中心数据集
https://www.pewresearch.org/data/download-datasets/
皮尤研究中心针对社会和人口趋势提供关于宗教、政治、科学、科技和媒体的数据集。这些机器学习的数据集是基于公民投票,调查和问卷调查。在填写完一个基本的表格,并接受他们的使用协议后该数据集可供下载。由于数据来自民意调查,它通常包括布尔和非结构化的文本数据。
开放数据网络(Socrata)
https://www.opendatanetwork.com
Socrata开放数据网络对于查找和访问开放政府数据是很适合的。由于政府网站很难导航,Socrata API是找到开源数据集的好方法,并不是所有的机构、区域和数据集都可用。该Socrata API也适用于查询具体的问题,例如:诺曼的人口是多少?这将返回一个地图和人口数据。该接口还允许您将该数据集与全国各地的类似的城镇进行比较,并提供有关您查询位置的其他问题。
开放式数据栈交换
https://opendata.stackexchange.com/
堆栈交换中有一段称为开放式数据。它致力于关于在哪里找到特定的数据集的问题和答案。这个问题的集合被发布出来用于提供寻找新数据集的方法。关于在哪里找数据集的问题,主题范围从足球运动员的身体数据到由他们的icd - 10编码组织的疾病计数的数据源。并不是所有张贴在这里的问题都被回答了。
数据是复数
https://docs.google.com/spreadsheets/d/1wZhPLMCHKJvwOkP4juclhjFgqIY8fQFMemwKL2c64vk/edit#gid=0
谷歌表编辑了一些到有趣的数据集和数据源的链接。它定期更新,也可作为每周时事通讯。链接数据源的范围从弗林特水样本(这包含与弗林特水样本有关的多个数据源和不同数据集)到美国每一个地方的名字。
虽然这只是一个机器学习数据集的样本,我们希望它提供了一个起点,找到你要寻找的数据集。你最喜欢的数据集的来源是什么?@Algorithmia让我们知道,我们会将它添加到列表中!
当你准备好你的机器学习模型的时候,我们会在这里帮助你。我们准备了scikit-learn, nltk,Caffe, TensorFlow, Theano模型,并将其转化为可扩展的网络服务。
英文原文:https://blog.algorithmia.com/machine-learning-datasets-for-data-scientists/
译者:StephenYao
本文仅代表作者观点,不代表米兰体育立场。
本文系作者授权米兰体育发表,未经许可,不得转载。
发表评论