新闻中心

有哪些好的数据来源或者大数据平台?

2023-03-04
浏览次数:
返回列表

很多不错的数据可视化和数据分析成果都需要高质量的干净数据,而现实中也有很多可供我们免费获取的数据源,可以用它们进行数据分析和数据可视化。

本文我们会分享 40 个网站和平台,在上面我们可以公开获取高质量的数据,涵盖政务、全球问题、学术、社交媒体、市场营销、科学天文、新闻、媒体、娱乐等多个领域。

记得先点赞收藏!

政务数据

美国食品药品监督管理局(FDA)——在网站上可以获取FDA药品数据库的压缩数据文件,该文件每周的周三更新一次。

地址: https://www.fda.gov/Drugs/InformationOnDrugs/ucm079750.htm

美国国家教育统计中心(NCES)——NCES是美国收集和分析教育相关数据的主要机构,在该机构网站上可以获取最全面的美国教育数据。

地址:https://nces.ed.gov/

美国统一犯罪报告(UCR)——在该网站上可获取美国犯罪方面的信息、数据和报告,多年来广受研究者和媒体引用。

地址:https://ucr.fbi.gov/

欧盟开放数据平台(EUODP)——在EUODP网站上可以获取欧盟各成员国及机构的多个领域的数据。

地址:http://open-data.europa.eu/en/data/

欧盟统计局——在该网站上可以获取欧盟的统计数据,而且能按照欧洲经济、人口、行业、贸易、技术和交通这些主题分别查询。

地址:http://ec.europa.eu/eurostat/data/database

英国数据服务平台——涵盖了英国政府发布的调查数据、跨国调研数据、英国统计数据、商业数据、量化数据和国际贸易数据等。

地址:https://www.ukdataservice.ac.uk/

http://Data.gov ——网站上涵盖了美国政府发布的公开数据,在上面可以搜索数据、研究报告、数据分析工具以及进行数据可视化。

地址:https://www.data.gov/

Data.gov.au —— 包含了澳大利亚政府发布的公开数据,可以用于数据分析及可视化相关的研究。

地址:https://data.gov.au/

全球数据

世界概况——网站提供全球267个国家和地区有关历史、人口、经济、地理、交通、军事和贸易等方面的数据。

地址:https://www.cia.gov/library/publications/the-world-factbook/

联合国儿童基金会报告——收集了全球妇女和儿童境况的调查数据。

地址:https://www.unicef.org/reports

联合国毒品和犯罪问题办事处(UNODC)——提供全球范围内有关犯罪、毒品及罪行审判方面的准确数据。

地址:https://www.unodc.org/unodc/en/data-and-analysis/statistics.html

世界卫生组织——提供世界上卫生工作、疾病防治以及饥荒方面的数据和数据分析。

地址:http://www.who.int/gho/zh/

谷歌公共数据浏览器——启动于2010年3月,谷歌公共数据浏览器能让用户很容易的搜索、分析和可视化大型公共数据集。

地址:https://www.google.com/publicdata/directory

联合国教科文组织网站——包含全球最新的数据和指标,涵盖教育、文学、科学、技术、创新和文化多个领域。

地址:http://data.uis.unesco.org/

世界银行公开数据——列出了公开可用的世界银行数据集,包括数据库、预格式化表格、报告等等。

地址:http://datacatalog.worldbank.org/

联合国儿童基金会教育统计数据——提供全球教育层面上的统计数据。

地址:http://data.unicef.org/topic/education/overview/

非洲公开数据——在网站上可以获取非洲各个时期的的经济和社会数据,并且在网站上直接可获得可视化数据结果。

地址:http://dataportal.opendataforafrica.org/data#menu=topic

学术数据

谷歌学术搜索——在谷歌学术搜索上可以很容易的大范围查找学术成果和数据。

地址:https://scholar.google.com/

皮尤研究中心互联网项目——从网站上可获取皮尤研究中心的学术调查数据,涵盖政治、经济和地理等领域。

地址:http://www.pewinternet.org/datasets/

Europeana Collections —— 网站收集了全欧洲54,165,855份艺术、雕塑、书籍、电影和音频方面的数据。

地址:http://www.europeana.eu/portal/en

科学、医疗及天文数据

NOAA球面科学展示系统——美国国家海洋和大气管理局旗下的球面科学展示系统可以将天气、水文、太空等数据以动画的形式展示在虚拟地球上。

地址:https://sos.noaa.gov/ch/What_is_SOS/

公开科学数据云——在网站上可以分享、存储、分析和获取TB和PB级的科学数据集。

地址:https://www.opensciencedatacloud.org/

http://HealthData.gov ——可获取高质量的健康数据。

地址:https://www.healthdata.gov/

美国国家环保信息中心(NCEI)——可快速获取NCEI提供的气候和天气数据集。

地址:https://www.ncdc.noaa.gov/data-access

博得研究所癌症项目数据——可获取准确的医学和生物学数据。

地址:http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi

NASA地球数据——提供高质量的有关地球、大气层方面的数据。

地址:https://earthdata.nasa.gov/

NASA行星数据系统——可获取来自NASA的太空探索、天文观测和实验室的测量数据。

地址:https://pds.nasa.gov/

WeatherBase ——涵盖全球41997个城市的天气和气候数据。

地址:http://www.weatherbase.com/

市场营销及社交媒体数据

Social Mention —— Social Mention是一款社交媒体搜索和分析平台,能将全球多个社交平台的UGC数据合并为一个信息流。

地址:http://www.socialmention.com/

谷歌趋势——展示了全球各国各地区各语言的关键词搜索数据分析。

地址:https://trends.google.com/trends/

Facebook API ——可以利用图谱 API获取Facebook的公开数据。

地址:https://developers.facebook.com/docs/graph-api

Twitter API——可以获取全球范围内Twitter上的热门数据。

地址:https://developer.twitter.com/en/docs

新闻媒体数据

《纽约时报》开发者网络——利用网站提供的API,可以获取自1851年至今的《纽约时报》文章,包括标题、摘要和多媒体文件。也能获取《纽约时报》发表的书评和影评。

地址:https://developer.nytimes.com/

美联社API —— 可以在无需访问美联社网站的情况下,获取美联社发布过的新闻资料,包括图片和视频。

地址:https://developer.ap.org/ap-content-api

亚马逊网络服务——在网站上可以按照类别获取丰富的数据集,目前可获取54个数据集。

地址:https://registry.opendata.aws/

谷歌图书词频统计器——提供了谷歌图书扫描并数字化的部分图书(占人类出版书籍的4%)的Ngram数据。你可以查询从1800年到现在,所有出版物中一个词汇出现的频率变化曲线。包含数量巨大的数据集。

地址:https://storage.googleapis.com/books/ngrams/books/datasetsv2.html

维基百科数据库——可以下载维基上所有完整内容的电子文件,包括文字、图片等。

地址:https://en.wikipedia.org/wiki/Wikipedia:Database_download

FiveThirtyEight——可获取FiveThirtyEight发布内容背后的数据和代码,涵盖政治、体育、医疗卫生、经济和文化5个领域。

地址:https://data.fivethirtyeight.com/

娱乐数据

Million Song Dataset ——包含28个数据集,涉及上百万首歌曲的音频特征和元数据。

地址:https://aws.amazon.com/cn/datasets/million-song-dataset/

The Numbers——详细的电影财务数据分析,包括票房、DVD销售额和发行计划等。

地址:https://www.the-numbers.com/

BFI Film Forever ——重点关注英国电影行业的市场数据。

地址:

http://www.bfi.org.uk/education-research/film-industry-statistics-research

当然这些免费的公开数据源也只是冰山一角,后期假如发现更好的资源会继续分享。

如果是需要寻找用于机器学习研究的数据集,可以查看我们分享的这篇回答:

自己学习深度学习时,有哪些途径寻找数据集?76 赞同 · 0 评论回答

参考资料:

https://www.columnfivemedia.com/100-best-free-data-sources-infographichttps://infogram.com/blog/free-data-sources/

搜索