新闻中心

献给新手的数据分析入门指南(数据分析小白怎样学)

2023-04-27
浏览次数:
返回列表

随着大数据时代的到来,“数据分析“越来越火,大到企业决策,小到业务环节,都需要数据分析不断发挥着作用。很多人觉得,数据分析好像离自己遥不可及,操作难度很大,但其实数据分析渗透于生活的方方面面,近在咫尺。

在接触数据分析之前,我可以说是零基础,完全的超级菜鸟一枚,新手小白如何入门数据分析?希望这篇从我自身经历出发的文章可以给出初学者一定的启发。

数学基础

想要学好数据分析,首先就是建立一定的数学基础,尤其是统计学部分。学习理工科的同学,基本大一都会学习概率论与数理统计,从数据分析的角度考虑,其实已经足够了。但真正从零开始或者知识还不熟悉的,除了可以参考大学教材,也可以学习《深入浅出数据分析》这本书。

在学习数学基础部分,这本书真的可以算是起到thought initiation的作用,适合任何没有基础的小白。它基础到甚至有人说,这本书简直太简单了。但恰恰数据分析就用到了这些最基础的知识。总结下来,归纳为以下几个方面:

1、数据分析基本步骤:确定问题——分解数据——评估(基本方式:比较)——决策。

2、具体方法:实验方法、最优化方法、假设检验方法、贝叶斯统计方法、主观概率法、启发法、直方图法、回归法、误差处理。

3、数据处理:关系数据库(RDBMS)、怎样用Excel整理收集到的凌乱数据。

编程语言

有了一定的数学体系基础后,便是掌握编程语言。数据分析常用的编程语言一般分为Excel和Python两种。

我在学习过程中,其实是跳过了Excel的学习。当然,后续的学习发现Excel在数据分析方面,一定程度上有着不可替代的作用,相对于Python也更为简单、更易操作。

比如在求多组数据的平均数、标准差、计数等多个指标时,Excel中的数据透视表便是很好的分组工具,对于简单数据处理,比大多数编程工具要更为便捷。只需要将要求的数据拖到对应的行和列,就可以得到结果。

学习数据分析之前,自己是更重视Python的学习。一方面是自己是工科出身,之前有接触过基础的编程语言(C语言),对编程更感兴趣;另一方面,Python对于数据分析的学习帮助性更大,可以促使学习者走得更远。

首先,需要安装和设置Python相关环境。可以使用Anaconda进行安装,包括常用数据分析包和Jupyter Notebook,具体方法求助度娘。其次,需要跟随系统性的课程学习。

这里,我不建议直接买一本书,抱着啃,这样还没开始就容易放弃;也不要选择500+集的课程,15分钟大概就能睡着。我自己是跟着小破站里小甲鱼的零基础入门Python学习的,每天坚持边敲边学,遇到不会的就搜索。

课程学习

建立了数据分析的基础体系后,本人才真正意义上地开始了数据分析的学习。为了防止走弯路,询问了身边学过数据分析的学长学姐,也在平台上发布了相关求助帖,在多方了解下,自己报名了贪心AI的《商业数据分析》

教学总时长长达十周,拥有哔哩哔哩主站广告优化分析项目、亚马逊电商入驻商用户画像分析项目、哔哩哔哩会员购平台订单报表分析项目、亚马逊电商入驻商数据化运营项目、Kindle电子书多渠道发售商业分析项目、淘宝用户行为的用户价值分析、员工薪水探索性分析、门户网站的广告效果聚类分析、会员体系消费行为分析等九个主要经典实战项目,讲课过程中还穿插有小项目数据帮助理解概念。

贪心AI的商业数据分析课程,从数据分析的初步感知直到对数据分析师的面试指导,不只是简简单单地把握知识、领会要点,更重要的是有针对性地就业实践,真正做到从实际案例出发。下面我简要谈谈我在其中的收获。

1、数据分析基础概念

要想学好数据分析,首先要建立数据分析的基础体系。课程刚开始,没有过多过难的知识点,更多的是对数据分析知识初探与理解。

数据(data),即未经过处理的原始记录,以我的理解来看,就像是一个载体,将身边的事情数字化记录下来。

考虑到不是每个学习者都对数据有过接触,老师通过微信生态数字化经营的实例展示数据的变异性、规律性和客观性三种性质,了解到数据分析的四大步骤:数据抓取——数据清洗——数据分析——业务决策

这样,不仅仅是停留在枯燥的知识点,也通过一些实际的案例来渗透介绍,提起了学习的兴趣,也让知识点更为具象化,便于理解。

2、不同类型的数据方法及原理

要真正准确掌握处理数据的方法,必须认真学习其背后的原理,才能在应用的时候不盲目。就像要运输一个沙发,如果用小轿车就装不下,超出负荷,而如果用货运车,就正合适。了解运输工具的容量才能节约经济成本,了解数据方法背后的原理才能提高工作效率。

描述性分析:简单来说,就是要说清楚到底发生了什么事,就像一篇文章的中心思想,是数据最本质的特征。主要包括数值分析、分布规律和可视化方法,相对来讲较为简单,不需要什么深度的解读,就是按照标准的模板套用,但同时也应用最为广泛。

在讲述知识点的时候,如果只是枯燥的概念,就很难掌握理解,但老师在每个概念中,会渗透着实例应用讲解,并搭配着主要图像,比如正态分布与长尾分布会列表格对比,边总结边记忆,这样,更有利于对知识点的掌握。

诊断性分析(关联分析):在数值计算里,尤其是面对很多多变量的数据,最简单的计算之一就是诊断性分析。拿到一个问题,不再是仅仅关注问题本身,而是挖掘其背后的影响因子。

比如,有成年人的身高和卡路里的摄入两组数据,那么就可以研究,卡路里是否对身高有所影响?如何影响的?简单来说就是找理由,类似于逆向工程,分析现实效果与潜在因素的联系。比起算法,更依靠于数据分析人员的素质,所以在学习过程中,要更为关注这方面的知识。

预测性分析:数据通常储存在一个数据库中,数据库如果放在那里,就没有什么实质性的作用,而借助数据分析中的预测性分析的强大功能,就可以利用这些数据实时决策,从而实现利润优化。预测性分析通常分为线性分析和非线性分析两种,可以称之为“科学的占卜”,合理的运用可以及时帮助了解市场的变化与趋势,从而提高效率。

这里也可以称之为数据分析的重中之重,在讲解过程中,老师运用的课时更长,主要分为线性回归和逻辑回归两个方面,除了要求基本的概念理解掌握,还对代码及Excel的应用重点引领。也不需要重新构建网络环境,贪心AI有专门的平台可以依托,上课跟着老师一步步走,下来再练习几遍,基本就没有什么问题了。

3、课后思考答疑

其实,对于新手菜鸟来说,常常会在学习中存在一个又一个问题和疑惑。如果这时没有人及时地解答,很有可能就会搁置卡壳,甚至因此而半途而废。贪心AI对于我,最大的吸引力就是有一对一的课后答疑助教团队和课后思考题的实时解答,有针对性解答学生学习中存在的问题。

助教老师不仅十分耐心,而且还很有幽默感。在解答时,助教老师会先了解学生对问题有怎样的认识,对问题又做了怎样的思考,又在解决途中遇到了怎样的障碍,再顺着学生的思路,共同去探究解决。

但对比于其他机构学员系统,贪心AI又缺少课后监控及错题统计部分,学习过程中需要自己整理总结。

参考书籍

《超简单用Python让Excel飞起来》算是在我的学习数据分析过程中,帮助最大的,在这里也推荐给大家。

这本书讲述的主要为Python编程环境的搭建和如何将Python和Excel联系起来,实现办公的高效化,更倾向于业务岗和业务技术融合岗。

这本书最大的特点就是图文并茂,有操作的具体演示图,所以学起来还算比较轻松。

实战项目锻炼

在了解数据分析的理论与工具后,还不足以应对工作中实际出现的问题。除了上述贪心AI课程所包含的实战项目外,建议大家还是更多找些真实的实战案例勤加练习。

首当其冲要推荐的就是Kaggle,这个几乎已经被推烂的网站,可以说是数据师云集的大平台。除了经典的case与数不尽的数据库外,每年还会举办大规模的数据科学竞赛。

在Kaggle上,还可以参考别人的代码,学习别人的分析逻辑与建模方法,从而提升自己。

与之相对的是中国推出的科赛网Kesic,现在更名为和鲸科技,是国内最早一批专注于大数据算法比赛的商业服务机构之一。

实战项目的更新速度很快,且定期也有比赛举行,可以找到很多的开源数据集,以供专业人员或者爱好者练习。

总结

数据分析的目标从来都不是简简单单的看数据,而是要提供合适实时的决策。狭义理解起来的数据分析就是将数据换种直观的形式展现出来,但这远远不够,真正优秀的数据分析,需要从用户需求角度出发,将数据变现,让数据驱动决策,从而实现效益最大化,规避风险。从这个角度来说,数据分析的学习还很漫长。

总体而言,我的学习历程就是“数学——编程——课程——实战”,后面还需要很多地练习来巩固知识。俗话说,”实践是检验真理的唯一标准。”对于数据分析,练习是重点,只有多多上手,才能提高决策的准确性,降低决策的失误。

举报/反馈

搜索