新闻中心

数据分析知识体系(数据分析的基础)

2023-10-01
浏览次数:
返回列表

【数据获取】

一、获取原始数据

1、从数据库 / 数据仓库中获取(数据库 + 数据仓库 + SQL提数)

2、爬虫爬取(R语言爬虫 + Python爬虫)

3、手工整理(问卷数据录入、数据表制作等)

二、获取整理好的数据

1、数据资源下载(统计局、经管之家等)

2、数据资源调取(R语言内置数据集、Python内置数据集)

【数据预处理】

一、数据库

1、常用数据库基础知识(Mysql、sqlServer、Oracle、Hbase + Hive)

2、SQL语句(数据查询select from、数据去重distinct、数据限制where、数据排序order by、数据顺序desc + asc、数据分组group by、数据过滤having、数据锁定limit、条件关联and + or + in / not in、通配符like + _、计算字段count + max + avg等、子查询、表联结inner join + left join + right join、插入数据insert into、创建表create、更新数据update、删除数据delete、删除表drop)

二、EXCEL

1、工作表处理(格式设置、数据编辑)

2、数据查看(筛选、排序、查找替换、分类汇总、数据透视表、数据透视图)

3、函数(vlookup、计算函数等) + 图表制作(基础图形 + 改进图形)

三、R

1、数据读写(读取csv文件、读取txt文件等)

2、数据查看(查看数据整体情况View、查看数据前几行head和后几行tail、查看数据的维度dim、查看数据的类型class、查看数据中各变量的基础情况str、查看数据长度length)

3、数据检查与基本处理(数据转换as.vector + as.data.frame、数据连接rbind + cbind等)

4、数据运算(数学运算、统计运算、函数运算)

5、数据清洗(缺失值、异常值、数据格式化)

四、Python

同上述R语言,但为Python代码

【数据建模分析】

一、常用业务模型

1、通用业务模型(RFM 、AARRR、5W2H、波士顿矩阵、波特五力模型、4P理论等)

2、行业专用模型(教育行业、互联网行业、交通行业、医药行业等)

二、常用数学 / 统计 / 机器学习知识

1、描述统计(平均数、中位数、众数、方差、标准差、分位数、极差、偏度、峰度等)

2、推断统计(区间估计、假设检验、方差分析、回归分析)

3、常用模型(关联规则、决策树、聚类分析、神经网络、SVM、随机森林等)

4、模型评价(混淆矩阵、ROC曲线等)

三、R

上述各模型的R代码

四、Python

上述各模型的Python代码

搜索