新闻中心
数据分析过程总结(数据分析过程总结报告)
关于数据分析过程的总结,感谢社群里的郑梓鑫同学,让我学会了用百度脑图画出好看的流程图。

用一个药店销售数据的分析来说明整个过程
1.提出问题。我们从这个思路去考虑:客户的目的要求——哪些方面论证说明——哪些数据来反应。只有知道自己需要哪些数据,才能去选择合适的数据源,开始自己的工作。
评判一个药店销售的业务指标有:1.月均消费次数2.月均消费金额3.客单价
药店的销售数据都在这个EXECL里,导入jupyter notebook中即可。

2.理解数据这一步我们需要对数据有个大致了解,比如有哪些方面的数据,数据的大小等等。

3.数据清洗这是耗费时间最长最关键的一步,其中有六小步,但不一定都是按序进行的。有时需要回头重新执行,比如数据缺失值处理等。这步关系到后面数据建模用的数据准确性。
3.1选择子集:这份数据中的数据基本都是有用的,只有星期用不着,但因为现在和日期是一个字符串,暂时无法单独删除,故这一步不用考虑了。
3.2重命名:其中购药时间是对于药店这个特有的对象来说的,但对于分析人员就是销售时间,所以为了更好理解要重命名。

3.3缺失值处理。大量记录大量数据的文件中不免会出现缺失值,这会影响后面的数据建模分析,所以肯定要删除。

3.4数据类型变换。记录数字的,分析计算时要用实数型

这一步是把前面说的无用的星期去掉。并且字符串型式转换成日期型式



因为数据格式的转换,会出现不成功的,那么就又会有缺失值,可以再次删除缺失值。

3.5数据排序。经过之前的各种操作,数据的索引乱了,现在对它重新排序。

3.6接下来需要人为判断一下不符合实际情况的数据,对它进行删除。

4.数据建模,如果涉及专业性比较强的,需要专业性的知识才能解决。




最终结果,月均消费次数:890元
月均消费金额:50668元
客单价:57元
这三个指标反应了总体情况,如果需要看每个月或者每周的情况就需要数据可视化的图表了。
5.数据可视化是得出简单易懂的结果,也是把一堆复杂的数据转化为实用价值的一个步骤,不管是报告还是PPT,都需要。




这是生成的简单图表,更加复杂有用的在后面的课程再补上。这篇文章主要阐述了数据分析的基本过程,其中基础知识可以参考《利用python进行数据分析》这本书。