虽然数据分析总是技术性的(有时甚至有一点重复),但这并不意味着你不能从中获得一点乐趣。对于有抱负的数据科学家来说,互联网是一个宝贵的信息宝库。利用现有的在线数据集是最好的做法:不仅没有风险,而且是通过实践直接学习并为分析体验注入新生命的最佳方式。你会发现专家和爱好者们将各种数据驱动的项目放在一起;很多都可以在Github这样的开源社区中找到。
更重要的是,你可以很容易地找到一个与你的非数据相关的爱好和兴趣,从你最喜欢的电视节目到跟踪2020年大选。
为了让事情更有趣一点,我们来看看当今流行文化的热门话题。在这个博客中,你会发现一个免费和公共的数据集列表,从娱乐到动物到体育。
为了让您的学习过程更有针对性,我们还将数据集组织为任何数据分析师都想掌握的四项顶级技能:数据清理;数据可视化;机器学习;和数据分析.
下面开始!
数据清理
有趣的数据
罗彻斯特大学的人机交互实验室和语言技术研究所共同创造了第一个多模式幽默检测数据集.使用语言、视觉和声学特征,这个UR-FUNNY数据集是数据清理的一个很好的起点。有一个原始版本和一个更新版本可以删除嘈杂的数据实例,所以最好的练习是清理原始版本,然后将您的工作与可用的更新进行比较。
电子游戏文化之战
通过使用现有的数据集并实现您自己的限制来实践数据清理。在几年前的Gamergate争议之后,使用# Gamergate标签的推文被编辑了72个小时这个表格.
在处理数据时选择一条路径,并开始训练自己自动识别任何不相关的数据并删除或替换它。
聪明的天气模式
巴西是南美洲最大的国家,气候温和,雨量充沛。使用这个大型数据集在100多个站点的每小时天气数据中,通过阅读数据,了解哪些需要保留,哪些需要删除,从而增强数据清理能力。
数据可视化
全球变暖趋势
气候变化是当今的热门话题,有很多资源可供你积极探索。这个数据集由国家,州和主要城市的亚组的陆地和海洋温度的报告以及天气观测。
这些数据已经被清理和打包,这是数据分析的一个很好的开始。想要了解全球表面温度异常的更深入的数据,你可以访问在这里.尝试创建一个线形图作为数据可视化来显示温度随时间的变化。
单身汉的赢家
你知道下个赛季你可以用数据分析来赢得所有的单身汉泳池吗?记个笔记这家伙.对数据进行分解,注意获奖者的共同特征,找到任何可以从一开始就确定谁会找到真爱的趋势。
这篇文章还展示了创建数据集的热心观众如何利用数据可视化来传达他的发现。继续他的工作,提高你的能力,甚至可能在“单身汉红酒之夜”比你的朋友更聪明。
玩梦幻足球的聪明方法
锻炼你的数据可视化技能,同时密切关注你最喜欢的梦幻足球队。你可以在足球数据库这可以帮助你决定先发阵容的人选。
在此基础上,创建图表,绘制相关数据点,呈现给其他玩家,提升每个人的体验。参考您创建的图形表示,以提高您每个赛季的表现。
饮剂的推特账户
试着创建一个唐纳德·特朗普的推特的图形表示,基于这个数据集.分析数据以发现情绪、词汇优先级、活跃时间和天数等模式。
一旦你得到了你想要的答案,你就可以通过创建图形来显示你收集到的信息。
谁统治了卡戴珊家族?
如果你是真人秀节目中最强大家族的粉丝,那么通过分享来增强你的数据可视化能力谁是最有名的卡戴珊——数据!这些数据已经发布出来,用来探索家庭内部的倾向以及他们与媒体的关系。
你可以研究和组织这些数据,创建可视化的图形,可以传达谁才是真正的卡拉巴萨斯女王。
机器学习
杂货店购物:2020版
在美国和加拿大,Instacart是一项很受欢迎的食品杂货配送服务。如果你想用一个有趣的话题来练习机器学习,这个网站提供超过300万个食品杂货订单价值的数据。
这个数据集非常适合测试预测未来订单、重复购买和用户习惯的模型。
解密TikTok算法
TikTok正在慢慢地占领世界。活跃用户已经发现了TikTok内不同的社区,包括“Alt TikTok”、“篮子编织TikTok”、“Boomer TikTok”、“Frog TikTok”……名单还长着呢!
您可以使用数据集来研究算法,并查看不同的交互如何影响交付给用户的内容,从而更好地理解机器学习是如何工作的。
以下是一些可以提供有关TikTok有用数据的数据集:
百万歌曲数据集
对任何流行音乐或当代音乐爱好者来说,这个数据集是为了鼓励对可扩展到商业规模的算法进行研究。衍生功能来自于一百万首当代流行音乐曲目,可以作为你预测什么会成为热门或不会成为热门的基础分析。
数据分析
纽约市松鼠普查
是的,你没看错。一名土生土长的纽约数据爱好者和300多名志愿者统计并观察了生活在城市里的松鼠——所有这些都是为了收集大量可以找到的数据在这里.
数据分析的一项技能包括提出正确的问题,这个数据集是研究和提出问题的伟大工具,可以通过松鼠普查来回答这些问题。其中可能包括他们最常去的杂货店垃圾桶,最流行的外套图案,或者他们夏天在哪里。
口袋妖怪
收集了所有7代Pokemon的数据在这里包括基础数据,身高,体重,能力等等。
这个数据集的形成是为了发现最弱和最强的Pokemon类型,并识别传奇的Pokemon。您可以很容易地提出一些可以从给定的信息中回答的问题,并练习您的分析技能。
哈利波特
有没有想过你会被分到哪个霍格沃茨学院?想决定你最喜欢的角色?使用这些哈利波特数据集来提取一个明确的答案。以下是一些最爱:
为狗爱好者提供的数据集
成为狗主人需要广泛的研究和准备。使用这些数据是在德国收集的练习你的分析技巧,并找出与狗相关的常见问题的答案,比如不同品种的狗在什么气候下最适合生存,什么狗最适合和孩子相处。
以上任何数据集都可以是在数据科学世界中找到新灵感的完美方式。在这样一个充满活力的行业,保持敏锐是很重要的。在没有压力的情况下练习绝对是提高你自己技能的好方法。
想知道数据科学家到底在做什么吗?看看Springboard全面的数据科学指南.我们会教你成为一名数据科学家所需要知道的一切,从学习什么到基本技能、薪资指南,和更多!