新闻中心
数据分析很难学?60天就够了!
广泛被应用的数据分析
谷歌的数据分析可以预测一个地区即将爆发的流感,从而进行针对性的预防;淘宝可以根据你浏览和消费的数据进行分析,为你精准推荐商品;口碑极好的网易云音乐,通过其相似性算法,为不同的人量身定制每日歌单……
数据正在变得越来越常见,小到我们每个人的社交网络、消费信息、运动轨迹……,大到企业的销售、运营数据,产品的生产数据,交通网络数据……
如何从海量数据中获得别人看不见的知识,如何利用数据来武装营销工作、优化产品、用户调研、支撑决策,数据分析可以将数据的价值最大化。
那么,小白如何快速获得数据分析的能力呢?知乎上有很多书单,你可能也听过很多学习方法,但尝试过就知道这些跟高效没什么关系。
数据分析师应该具备哪些技能要明确学习的路径,最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。
我们从拉勾上找了一些最具有代表性的数据分析师职位信息,来看看薪资不菲的数据分析师,到底需要哪些技能。
其实企业对数据分析师的基础技能需求差别不大,可总结如下:
SQL数据库的基本操作,会基本的数据管理
会用Excel/SQL做基本的数据分析和展示
会用脚本语言进行数据分析,Python or R
有获取外部数据的能力,如爬虫
会基本的数据可视化技能,能撰写数据报告
熟悉常用的数据挖掘算法:回归分析、决策树、随机森林、支持向量机等
寻找最合适的学习路径最高效的学习路径是什么样的?
你一定要清楚的是,你想要达到的目标是什么?如果你想利用数据分析的方法来支撑工作决策,那么你可能需要知道数据分析的流程是什么,通过数据分析的方法能获得哪些信息,这些信息可以用来支撑什么工作。
然后你需要知道要达到这样的目的,需要哪些必备的技能,哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解,并知道如何去避免无效的信息。
更重要的是,你需要了解,完成一个数据分析项目,基本的流程是什么。这样你才知道学习的知识,在具体的工作中是如何应用,并能够在学习之后进行针对性的训练,做到有的放矢。
数据分析的工作流程1定义问题
在做具体的分析前,你需要确定要分析的问题是什么?你想得出哪些结论?
比如某地区空气质量变化的趋势是什么?
影响公司销售额增长的关键因素是什么?
生产环节中影响产能和质量的核心指标是什么?
如何对分析用户画像并进行精准营销?
如何基于历史数据预测未来某个阶段用户行为?
问题的定义需要你去了解业务的核心知识,并从中获得一些可以帮助你进行分析的经验。
2数据获取
有了具体的问题,你就需要获取相关的数据了。比如你要探究北京空气质量变化的趋势,你可能就需要收集北京最近几年的空气质量数据、天气数据,甚至工厂数据、气体排放数据、重要日程数据等等。
如果你要分析影响公司销售的关键因素,你就需要调用公司的历史销售数据、用户画像数据、广告投放数据等。
数据的获取方式有多种。
一是公司的销售、用户数据。可以直接从企业数据库调取,所以你需要SQL技能去完成数据提取等的数据库管理工作。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……,SQL可以通过简单的命令帮你完成这些工作。
第二种是获取外部的公开数据集,一些科研机构、企业、政府会开放一些数据,你需要到特定的网站去下载这些公开数据。
第三种是编写网页爬虫。比如你可以通过爬虫获取招聘网站某一职位的招聘信息,爬取租房网站上某城市的租房信息,获取知乎点赞排行等。基于互联网爬取的数据,你可以对某个行业、某种人群进行分析,这算是非常靠谱的市场调研、竞品分析的方式了。
3数据预处理
原始的数据可能会有很多问题,比如残缺的数据、重复的数据、无效的数据等等。把这些影响分析的数据处理好,才能获得更加精确地分析结果。
比如空气质量的数据,其中有很多天的数据由于设备的原因是没有监测到的,有一些数据是记录重复的,还有一些数据是设备故障时监测无效的。
那么我们需要用相应的方法去处理,比如残缺数据,我们是直接去掉这条数据,还是用临近的值去补全,这些都是需要考虑的问题。
当然在这里我们还可能会有数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等,能够帮助我们掌握数据的分布特征,是进一步深入分析和建模的基础。
4数据分析与建模
在这个部分需要了解基本的数据分析方法、数据挖掘算法,了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。
比如你发现在一定条件下,销量和价格是正比关系,那么你可以据此建立一个线性回归模型,你发现价格和广告是非线性关系,你可以先建立一个逻辑回归模型来进行分析。
当然你也可以了解一些数据挖掘的算法、特征提取的方法来优化自己的模型,获得更好的结果。
5数据可视化及数据报告撰写
分析结果最直接的是统计量的描述和统计量的展示。
比如我们通过数据的分布发现数据分析师工资最高的5个城市,目前各种编程语言的流行度排行榜,近几年北京空气质量的变化趋势,商品消费者的地区分布……这些都是我们通过简单数据分析与可视化就可以展现出的结果。
另外一些则需要深入探究内部的关系,比如影响产品质量最关键的几个指标,你需要对不同指标与产品质量进行相关性分析之后才能得出正确结论。又比如你需要预测未来某个时间段的产品销量,则需要你对历史数据进行建模和分析,才能对未来的情况有更精准的预测。
数据分析报告不仅是分析结果的直接呈现,还是对相关情况的一个全面的认识。所以你需要一个讲故事的逻辑,如何从一个宏观的问题,深入、细化到问题内部的方方面面,得出令人信服的结果。
你看,其实数据分析就这几个步骤,实现起来也感觉并不难。最好的学习路径是什么,就是按照解决问题的流程去学习。你了解这个流程,然后循序渐进深入每个部分,你会觉得这是一件特别容易上手的事情。
当然如何寻找、筛选优质学习资源,如何避开学习过程中的坑,遇到问题何如解决……这些本身都是我们学习过程中会遇到的问题。
不过不用担心,DC学院推出的数据分析课程,就是按照这样的学习路径。是无数分析师的爬坑经验、以及无数本书的总结,60天,足够打败市面上多半所谓的分析师。
为了满足更多需要编程基础的同学,我们也将《Python编程零基础入门》和《数据分析师(入门)》两门课打包,你只需要一门课的价格,即可同时深入学习Python编程和Python数据分析。
如果你希望在短时间内学会Python和数据分析,少走弯路
扫描下方二维码加入课程
套课限额优惠 ¥599(原价¥998),限前100名
关于学习路径
我们知道一般的数据分析流程是:“数据获取-数据存储-数据清洗-Python数据建模与分析-数据可视化与报告”,而课程正是按照实际的分析流程搭建整体框架。这条学习路线足够清晰,没有一上来直接灌输大量理论,而是在实践中学习,这就有效过滤掉了无效知识。
每学习一部分知识,能解决实际的问题。比如学习 Python 爬虫,就能获取相应的数据;学习 pandas,就能将获取的数据进行清洗;学习 Seaborn,你就可以实现炫酷的可视化……即便是对于纯小白来说,也没有什么压力。
《数据分析(入门)》课程大纲
60天入门数据分析师
第一章:开启数据分析之旅
1) 数据分析的一般流程及应用场景
2) Python 编程环境的搭建及数据分析包的安装
第二章:获取你想要的数据
1) 获取互联网上的公开数据集
2) 用网站 API 爬取网页数据
3) 爬虫所需的 HTML 基础
4) 基于 HTML 的爬虫,Python(Beautifulsoup)实现
5) 网络爬虫高级技巧:使用代理和反爬虫机制
6) 应用案例:爬取豆瓣 TOP250 电影信息并存储
第三章:数据存储与预处理
1) 数据库及 SQL 语言概述
2) 基于 HeidiSQL 的数据库操作
3) 数据库进阶操作:数据过滤与分组聚合
4) 用 Python 进行数据库连接与数据查询
5) 其他类型数据库:SQLite&MongoDB
6) 用 Pandas 进行数据预处理:数据清洗与可视化
第四章:统计学基础与 Python 数据分析
1)探索型数据分析:绘制统计图形展示数据分布
2)探索型数据分析实践:通过统计图形探究数据分布的潜在规律
3)描述统计学:总体、样本和误差,基本统计量
4)推断统计学:概率分布和假设检验
5)验证型数据分析实践:在实际分析中应用不同的假设检验
6)预测型数据分析:线性回归
7)预测型数据分析:Python中进行线性回归(scikit-learn实现)
8) 预测型数据分析:分类及逻辑回归
9) 预测型数据分析:其它常用回归和分类算法(k近邻、决策树、随机森林)
10) 预测型数据分析:聚类算法(k均值、DBSCAN)
11) 预测型数据分析:用特征选择方法优化模型
12) 预测型数据分析实践:用 scikit-learn 实现数据挖掘建模全过程
13) 预测型数据分析实践:用 rapidminer 解决商业分析关键问题
14) 高级数据分析工具:机器学习、深度学习初探
第五章 报告撰写及课程总结
1) 养成数据分析的思维
2) 数据分析的全流程及报告撰写的技巧
3) 课程回顾以及一些拓展
《Python编程零基础入门》大纲
第一章:Python介绍和安装
Python简介;特点以及应用;编程环境的搭建及IDE的使用
实践练习1—安装Anaconda,并且熟悉spyder。
第二章:Python基础知识
1) Python变量赋值及数据类型
2) Python数值及方法
3) Python字符串及方法
4) Python数据结构:列表、元组的操作
5) Python数据结构:字典、集合的操作
实践练习2—通过使用Python支持的字典,列表和元组的数据结构,实现:通讯录的操作,创建、添加、查找等内容,通讯录信息包含姓名、电话、性别、爱好等。
第三章:Python语句、关键字以及内存管理
1) 条件语句
2) 循环语句
3) 循环控制语句
4) 关键字介绍
5) 变量的高级--内存管理
实践练习3—编写小程序,对上一节作业的通讯录进行功能增强,实现:查找电话号码主人,喜欢吃苹果的人等。
第四章:Python函数
1) 函数及函数定义
2) 函数的参数/全局变量和局部变量
3) 内建函数及递归
4) 匿名函数
5) 函数式编程:map/reduce/filter/sorted/偏函数
实践练习4—编写一个函数,实现:通讯录的更新,定义添加成员的函数、电话查找、兴趣查找等功能
第五章:Python高级特性及编程规范
1) 列表生成式
2) 迭代器
3) 生成器
4) 装饰器
5) Python编程规范
实践练习5—小程序:高级功能——判断输入是否合法的装饰器功能的使用。涵盖内容:学习生成器及装饰器的使用,给多个函数添加判断合法性的装饰器。
第六章:模块的使用
1) 模块名称空间和导入
2) 模块的执行
3) os和sys模块介绍和使用
4) 第三方模块的安装
实践练习6—函数编写,实现:文件查找和拷贝功能。
第七章:面向对象编程
1) 类与面向对象设计OOP
2) 多态、继承和封装
3) 类装饰器
第八章:异常、错误类型及编码
1) 异常和捕捉异常
2) try-except语句和结构
3) 排查错误方法
4) 编码方式介绍
第九章:文件处理
1) 文件内建方法:打开和读写
2) 文件的存储模块:pickle和marshal
3) Json文件的使用场景及解析
实践练习7—编写一个脚本,实现:查找读取传递XXX.json文件中的内容,json文件中内容包含:主机IP、名字、所在地等信息。
第十章:正则表达式
1) 特殊的符号和数字
2) 正则表达式与python
3) Re模块
实践练习8—继续练习6内容,编写一个函数,实现:查找tmp文件中pass字符串。
第十一章:时间与日志
1) Time模块的使用
2) Log模块的使用
卡片里面大纲内容可以滑动
关于学习资料
即便你有很强的资源获取能力,或者你已经收藏了很多干货,但我们还是很想帮你节约筛选有效信息的时间,已经帮你找到最有用的那部分,你可以把更多的时间用来做更多的练习和实践。
考虑到各种各样的问题,课程中每一节都准备了学习资料。主要包含四个部分:
1 课程中重要的知识点,资料中会详细阐述,帮助理解;
2 默认你是个小白,补充所有基础知识,哪怕是软件的安装与基本操作;
3 课程中老师的参考代码打包,让你有能力去复现案例;
4 提供超多延伸资料和更多问题的思路和实践代码,让你可以去做更多的事情。
某节部分学习资料
关于实践项目
DC学院首次将课程与竞赛相结合,让你有针对性地在真实数据中去实践,并客观地检测自己的学习成果。随时可参加,提交分析结果可以即时获得评分,并查看自己在同学中的排名。
在Python编程中,我们也加入了一些非常实用的案例,帮助你深化Python编程技巧,为数据分析的学习补足基础。
除此之外,你还会遇到指导你每一个细节的答疑老师,在学习群里,你的问题能够得到快速解答,即便是最初级的问题。还有一群未来的优秀分析师,跟你一起,探索数据分析技术。在短时间内,有不少同学都有了从0到1的进步:
【课程信息】
「 上课形式 」
录播课程,可随时开始,反复观看
「 学习路径 」
数据获取-数据预处理-数据建模与分析-可视化与报告
「 面向人群 」
零基础的小白、负基础的小白白
「 答疑形式 」
学习群老师随时答疑,即便是最初级的问题
「 课程资料 」
重点笔记、操作详解、参考代码、课后拓展
「 课程证书 」
学完课程并达到要求,发放数据分析师结业证书
公众号专属优惠,套课限额底价
几乎只是一门课的价格,同时深入学习Python与数据分析
¥599(原价¥998),限前100名
长按下方二维码,立即去抢
购买后会收到「 DC学院 」发送的短信,用上课码即可在官网学习这两门课
课程咨询、资料获取、免费试看请加入下方群聊
若群满,加Alice微信:datacastle2017
我们为按要求完成学习的同学准备了证书
每个证书对应唯一的编号
点击下方“阅读原文”也可以加入课程