新闻中心
R语言数据实验分析(r语言实验报告6)
Day 13
1、线性回归一
(1)回归:regression,通常指那些用一个或多个预测变量,也称自变量或解释变量,来预测响应变量,也称为因变量、效标变量或结果变量的方法。 拟合数据
(2)回归分析类型:

(3)线性回归


lm(变量1~变量2,data=数据)计算线性回归

summary.lm(fit)查看回归计算的具体结果:首先看F-statistic 的pvalue值(小于0.05才有意义),再看相关系数Multiple R-squared。

2、线性回归二


(1)一元一次线性回归:
fit<-lm(women$height~women$weight,data=women)


(2)一元二次回归:
fit2<-lm(weight~height+I(height^2),data=women);


(3)一元三次回归:
fit2<-lm(weight~height+I(height^2)+I(height^3),data=women)


Day 14
1、多元线性回归
用于比较多个变量间的回归关系
(1)lm()函数的对象是数据框

(2)比较不同回归方式(数学模型)——具体意义及应用还待进一步理解
AIC()


2、回归诊断
(1)回归诊断的目的与意义:
这个模型是否是最佳模型?
模型多大程度满足OLS模型的统计假设?
模型是否经得起更多数据的检验?
如果拟合出来的模型指标不好,该如何继续下去?
(2)满足OLS模型统计假设
(A)正态性:对于固定的自变量值,因变量值呈正态分布。
(B)独立性:因变量之间相互独立。
(C)线性:因变量与自变量之间为线性相关。
(D)同方差性:因变量的方差不随自变量的水平不同而变化,可称为不变方差。
(3)回归诊断-plot()函数验证-四个图


(3)回归诊断-抽样法验证

3、方差分析一
方差分析(Analysis of Variance,ANOVA),也称为“变异数分析”,用于两个及两个以上样本均数差别的显著性检验。从广义上来讲,方差分析也属于回归分析的一种。只不过线性回归的因变量一般是连续型变量,而当自变量是因子时,研究关注的重点通常会从预测转向不同组之间差异的比较。
方差分析包括单因素方差分析(ANOVA,组间、组内)、双因素方差分析(ANOVA),协方差分析(ANCOVA),多元方差分析(MANOVA),多元方差分析(MANCOVA).
(1)单因素方差分析(ANOVA,组间、组内)

(2)双因素方差分析(ANOVA)
(3)协方差分析(ANCOVA)
(4)多元方差分析(MANOVA)
(5)多元方差分析(MANCOVA)
(6)方差分析公式及符号-实际运用
4、方差分析二
实例分析:
(1)单因素方差分析:以multcomp包中cholesterol数据集为例
(2)单因素协方差分析:以multcomp包中litter数据集为例
(3)双因素方差分析
Day 15
1、功效分析
功效分析(Power analysis):可以帮助在给定置信度的情况下,判断检测到给定效应值时所需的样本量;反过来,也可以在给定置信度水平情况下,计算在某样本量内能检测到给定效应值的概率。
(1)功效分析理论基础
(2)Rstudio实际操作:pwr包(没有计算出来,之后找找原因)
根据数据分析类型(线性回归、方差分析)选择函数,根据置信区间、相关系数来计算完成该理论分析所需要的样本数量:
线性模型单因素方差分析2、广义线性模型
前面讲到的线性回归和方差分析都是假设数据处于正态分布的情况。
广义线性回归分析用于分析数据并不是简单线性关系(呈正态分布的),拓展了数学模型。
(1)泊松回归:常见的广义线性模型的分析方法-适合于计数型变量
举例:以“robust”包中breslow.dat数据集为例
(2)Logistic回归--适用于二值型变量
举例:以“ARE”包中的“Affairs”数据为例
过程有点复杂,还没搞懂!!!
3、主成分分析
(1)主成分分析方法:
1)总的语言过程
2)举例:以USJudgeRatings数据集为例进行主成分分析
遂时图-判断要选择的主成分数目3)旋转分析-将数据变为更好解释的方法
4、因子分析
举例:以psych包中ability.cov数据为例
5、购物篮分析--根据个人的浏览历史来实现个性化推荐
举例:利用arules包中的Groceries数据集
apriori()函数进行购物篮分析利用inspect()查看具体分析结果后记