米兰体育:印度运动员勇拼实力，迎击强手斩获多金

admin 6个月前阅读:83 评论:0

　　　　Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。　　寻找一个好的机器学习数据集往往是一个开发人员在启动任何数据科学项目之前必须要面临的最大障碍。无论你是机器学习的新手，还是一个专业的数据...

　　Python部落(python.freelycode.com)组织翻译，禁止转载，欢迎转发。

　　寻找一个好的机器学习数据集往往是一个开发人员在启动任何数据科学项目之前必须要面临的最大障碍。无论你是机器学习的新手，还是一个专业的数据科学家，找到一个好的机器学习数据集是提取可行见解的关键。我们编辑了下面11个我们最喜欢的公开数据集。

　　/r/数据集

　　https://www.reddit.com/r/datasets

　　Reddit的/r/数据集提供了一个很大众化的方式共享和请求数据集。在这里，你会发现各种各样的数据从链接深度学习数据集，如印度电影人脸数据库，包括从各种电影的100个印度演员的照片，到每个国家禁止车牌的DMV的数据集。这大概是最随机的和无组织的数据编辑，但提供了一些意外的发现。

　　自然地球数据

　　https://www.naturalearthdata.com/

　　地球自然包括一个相对较小的地理空间数据的数据集,并针对网络地图应用程序进行了特别的优化。这些数据集包括在两个栅格数据层中的地图数据，和矢量层。其中包括文化数据，国家，边界线，人口归属，水边界，等等。矢量数据可以作为ESRI形状文件而栅格数据在TIFF格式是可用的。此数据源可以很容易地将地图工具集成到本地或Web应用程序中。

　　加州大学欧文分校机器学习库

　　https://archive.ics.uci.edu/ml/

　　众所周知并且被大量应用的UCI机器学习库包含了不同的用于机器学习应用的数据集。在这里你会发现数据集按任务分类(例如分类;回归),数据类型(例如多变量，时间序列),等等。最近的数据集包括意大利的空气质量，学生的酒精消费量，和全球定位系统的轨迹。其他有趣的数据集包括从意大利葡萄酒的化学成分，鲍鱼的物理特性，和心脏病数据。每个数据集都有丰富的元数据，包括相关文件，数据源，数据类型，等等。数据有多种形式，包括.CSV和.zip。

　　谷歌趋势数据存储

　　https://googletrends.github.io/data/

　　如果你想使用搜索引擎做基于时间维度的概念探索及证明，那么谷歌趋势是很好的工具。谷歌趋势通过可视化，区域图，兴趣变化趋势，以及查询历史来展示热门查询。并以区域或类别为基础改善你的搜索，如商业，娱乐，体育等等。探索不同趋势基于时间维度的相互比较也很有趣，如过去十年的气候改变，全球变暖，经济衰退，经济上的相互比较。可以查看网页上的实时趋势数据并且所有数据集都能够下载为CSV文件。

　　想知道更多吗？看看这个攻击谷歌趋势API指南。

　　机器学习数据集存储库

　　https://mldata.org/

　　机器学习数据集存储库是一个从劳动攻击数据到网络分析数据的数据集的集合。这些数据集包括元数据，如许可、依赖关系和属性类型。他们可以是各种不同的格式，如.ZIP,.TAR,.CSV,和.XML。机器学习的数据集可搜索，分类，并标记星级，下载数量，和评论，因此你可以直截了当地找到你所需要的。

　　美国地质调查局

　　https://www.usgs.gov/products/data-and-tools/overview

　　美国地质调查局是一个自然资源和地质数据的金矿。探索从生物学到气候变化到矿物数据的话题。该网站还提供了访问实时数据，科学研究数据，当然还有地理信息系统数据集。美国地质调查局还提供访问不同的端点，如水服务API提供了一个数据目录的工具用于浏览地理空间和自然资源数据。从数据目录的数据集包括生物多样性计数，地下水枯竭，地热数据，等等。每个数据门户包括广泛的元数据文档和可作为形状文件。zip格式或与该格式的栅格数据集。非GIS数据是可用的。CSV、JSON、XML和更多。每个数据门户包括广泛的元数据文档和可以作为形文件的.zip格式或者.GXF格式栅格数据集。非GIS数据可以使用.CSV, JSON, XML等格式。

　　深度学习数据集

　　https://deeplearning.net/datasets/

　　一点不足为奇，深度学习数据集可以完美地作U+7528于深度学习算法！这些数据集涵盖一切从象征性的音乐，到自然图像，人脸，文本和语音。这些数据集大多数是众所周知的，如Penn树图资料库和MNIST，然而把这些深度学习数据集放在一个地方是非常有用的。

　　皮尤研究中心数据集

　　https://www.pewresearch.org/data/download-datasets/

　　皮尤研究中心针对社会和人口趋势提供关于宗教、政治、科学、科技和媒体的数据集。这些机器学习的数据集是基于公民投票，调查和问卷调查。在填写完一个基本的表格，并接受他们的使用协议后该数据集可供下载。由于数据来自民意调查，它通常包括布尔和非结构化的文本数据。

　　开放数据网络（Socrata）

　　https://www.opendatanetwork.com

　　Socrata开放数据网络对于查找和访问开放政府数据是很适合的。由于政府网站很难导航，Socrata API是找到开源数据集的好方法，并不是所有的机构、区域和数据集都可用。该Socrata API也适用于查询具体的问题，例如：诺曼的人口是多少？这将返回一个地图和人口数据。该接口还允许您将该数据集与全国各地的类似的城镇进行比较，并提供有关您查询位置的其他问题。

　　开放式数据栈交换

米兰体育:印度运动员勇拼实力，迎击强手斩获多金