新闻中心
MySQL——数据分析的好帮手(mysql数据分析实战)
之前介绍了数据分析中如何使用Excel来进行数据清洗。今天就来看一下清洗好的数据如何导入MySQL中使用,并辅助我们分析。
首先,为什么要使用数据库呢?我们日常分析小问题当然可以用Excel来进行简单的分析,但是一旦数据的量到达十万百万级别,我们使用Excel就会难以操作,Excel根本不能负荷这么大的数据来工作,这就需要使用到数据库了。
我们在分析之前先确立几个提出需要解决的几个问题,我们需要知道数据分析师就业的需求:
1.就业数据分析师,我们应该选择什么行业呢?数据分析师在哪些领域的需求比较大呢?
2.就数据分析师这个岗位而言,公司规模大小与学历需求的关系如何?是否我要到硕士、博士才能更好找到数据分析师的工作呢?
3.作为一个无经验的自学转行到数据分析师,我应该期待第一份工作的薪酬是多少呢?
就以上几个问题,我们尝试利用Navicat来操作MySQL解决。
导入数据:

导入数据时,一路高歌,最要注意的就是这里。我们这里先直接以默认的导入。
导入后表如下图:

问题一:就业数据分析师,我们应该选择什么行业呢?数据分析师在哪些领域的需求比较大呢?
公司所属领域这里我们因为有些公司涉及到两个领域所以分开两列,方便数据整合。这里我们可以通过创建视图的方式,将其整合成一列。

然后开始统计时应该是这样的:

可是你会发现第二列存在“空值”,可是我明明在创建视图时已经将空值排除在外了。为何还会有空呢?我们可以找回Excel导入的结构设置。看到当初这两列设的格式是varchar,而varchar这个格式是可变的字符串,而这里的“空值”很可能就是空字符串而不是NULL。所以我们可以用以下方法尝试解决。
第一个:我们只需要字符串长度大于0的,用来排除空字符串

第二个:更改视图的构建,直接排除空字符串

最后结果显示:

小结:数据中可以清晰地看出,移动互联网领域的数据分析师是需求是相当大的,几乎占了全领域的三分之一。而前五名分别是:移动互联网,金融,数据服务,电子商务决O2O,如果大家还没有明确定位针对什么领域就业数据分析师可以先学习以上几个领域的业务知识,在其中挑选你感兴趣的行业进行就业。
问题二:就数据分析师这个岗位而言,公司规模大小与学历需求的关系如何?是否我要到硕士、博士才能更好找到数据分析师的工作呢?

这里我们使用join来对招聘网站数据来自连接从而实现对公司大小与教育要求的连接比较分析。
小结:从上面的分析数据我们可以看出,在数据分析师中本科学历要求学历仍然占大头,毕竟基数较大。但是仔细分析博士需求只在最小的少于15人,15-50人,50-150人这三个规模的公司有招,而且这三个最小规模类型的公司也是招聘硕士占比最多的,大公司反而不看重学历的要求,侧面看出,创业的小公司需要的是少数高精尖的人才,而大公司因为系统庞大,往往分工比较细致,不需要太高端的人才,也可以说不需要通过简历来筛选人才,可以有更好的人力资源来筛选有办事实力的人才。所以只有找数据分析师的并不需要一定到硕士博士的学历,你可以去较大的公司尝试,这样成功率可能会更高。
问题三:作为一个无经验的自学的本科生转行到数据分析师,我应该期待第一份工作的薪酬是多少呢?

我们通过上面的查询语句看到一个错误的现象,为何最大值反而比平均值还要小呢?
我们先在表中对平均工资这一列进行排序看看。

确实是9.5排在第一,其次是9。那现在我们排查一下问题,先来看看表的结构

这里平均工资设置的仍然是varchar格式,这是我们导入数据默认的格式。看到这里我们就知道,对数字字符串进行排序,就像目录一样,只针对第一个数字进行排序。所以我们要把它改成浮点型的数据格式,那样才能实行我们想达到的目的。而且我们发现设置格式时并没用设置主键,这也不利于我们以后的分析,所以既然要动手改格式就一起搞好吧。

通过备注中的语句对表结构进行更改。我们可以看到更改后的结果。这时回去再排序就会变成这样

再执行之前的查询语句
