新闻中心

论文需要进行数据分析?这份建模指南ACCAer请收好(论文数据分析的软件哪个好)

2023-05-01
浏览次数:
返回列表

本文作者:Janet,点击上方关注泽稷网校 ACCA哟

不知道有多少同学对于需要建模进行数据分析的论文一筹莫展的,请举起你的手手。

这篇文章将会给大家分享一下首次面对这类型的论文时该怎么做以及一些常见的问题(适合一开始不知道如何下手的同学哦)。

via Pixabay

首先是明确建模的目标,建议大家可以多搜集一些自己感兴趣的话题,然后和导师讨论一下选出一个最适合的topic。(也可以看一下导师研究的领域是哪一块,这样的话导师可以提供更多的建议)。

其次是数据的收集,结构化的数据搜集相对来说是比较简单的,大家可以看一下学校提供的database有哪些(下面两张图就是一些database,不同的database所侧重中的内容不同,例如:BoardEx就会提供较多的关于公司治理部分的数据;Orbis Global 提供的是关于银行的数据)根据自己论文的侧重点来选择相对应的数据库。

第三便是数据的准备与整理了,也是我这篇文章重点想要分享的,也是在论文过程中最耗时的一个步骤。其目的是将原始数据整理为规整的格式。

通过database可以导出想要的数据,但是这些数据并不是大家能够用来建模的最终版数据。我们往往需要对从database中倒出来的原始数据从多个方面进行data cleaning即数据的准备。

第一,数据的不完整性,指从数据库中导出的样本数据存在缺失值。

第二,数据不准确,指数据取值不在有意义的范围内。

第三,数据不一致,指前后数据的取值自相矛盾,存在不一致,当数据出现前后不一致的情况时,需要我们进一步来审核数据。

第四,非标准错误,指数据形式没有统一标准,例如,在导出的数据表格中有些日期格式先出现月份后出现日期,而有的日期格式先出现日期后出现月份,这有可能导致在数据分析的过程中出现错误。

第五,重复错误,是指样本出现重复,过多的重复样本会导致整个样本分布出现偏差。

再来看一下数据的整理,数据的整理包括以下几个方面:

数据的提炼:指从已有的数据中构造出新的数据,例如将公司的股票价格除以每股收益就可以计算出公司的市盈率;

数据加总:指将两个或者多个变量加总得到新的变量,例如将公司的负债与权益相加可以得到公司的资产;

数据过滤:指过滤掉分析问题中不需要的数据,假设我论文分析的是上市银行,未上市银行的数据就是需要过滤掉的信息;

数据转换:指将数据转换为合适的类型以便于深入分析,例如将数据统一货币单位。

(图一:整理前)

(图二:整理后)

另外还需注意的是对于异常值的处理,一般认定超过数据集3倍标准差范围的数据为异常值。认定异常值后,对于异常值的处理主要有两种方式:截尾以及缩尾,截尾是将异常值直接删除,缩尾则是用数据集中非异常值的最大值与最小值替代。(在论文中一般会采用缩尾,下图是在论文中对于缩尾的表达描述。)

大家现在对于数据的准备与整理是否有了一定的认识了呢?

泽稷学姐祝各位同学论文顺利通过哟~

搜索