新闻中心
R语言培训班asert258963(r语言入门与实践pdf)

本着循序渐进而又覆盖R语言重要而有用的基本内容原则,本讲从R语言入门开始,以前期的数据处理为核心,以实际案例为载体,内容包括R语言的向量、数据框、矩阵运算、缺失值和零值的处理、特别注重用R语言构造函数编程解决实际问题,为使用R语言进行数据挖掘打下扎实的工具基础。主要案例:
案例1:如何用R语言编程同时实现几十个高难度数据分析可视化图片的jpeg格式输出;
案例2:如何使用R语言进行分层或者整群抽样构建训练集与测试集;
第二讲:Logistic回归与商业大数据建模
Logistic回归是商业建模的常用重要数据挖掘方法,本讲要讲清楚Logistic回归的建模原理、与多元线性模型的区别、R语言实现过程及回归诊断注意事项、预测方法和结果解释,让学员彻底地掌握Logistic回归解决问题的R语言方法。
2:R数据挖掘(一)
2.1 数据挖掘工业流程
2.2 先修统计知识
2.3 挖掘预处理
2.4 线性回归
2.5 logistic回归
2.6 模型评价主要案例:
?案例1:利用Logistic回归帮助商业银行完成对客户提前还贷款情况的预测;
?案例2:利用Logistic回归帮助厂家分析顾客做出购买决策的重要因素;
第三讲:关联规则和R语言实现
关联规则(著名的“啤酒和尿布”)是数据挖掘的基础和核心技术之一,本讲将阐明关联规则的支持、置信和提升程度与控制,使用R语言快速完成关联规则分析。
第四讲:决策树(回归树)分析和R语言实现
决策树是数据挖掘的经典方法,其原理容易被理解。本讲主要讲授两种最为普遍的决策树算法:使用rpart函数进行R语言分析。
主要案例:
案例:对汽车耗油量进行决策树分析并完成相关目标变量的预测;
第五讲:机器集成学习算法
本讲介绍这种算法的思想,在R语言中构造训练集和测试集进一步进行分析。
主要案例:
案例1:用R语言的Bagging和AdaBoost进行商业银行定期存款的分析和预测;
案例2:用R语言的Bagging和AdaBoost识别有毒蘑菇。
第六讲:R语言随机森林(RandomForest)算法
在机器学习中,随机森林是一个包含多个决策树的分类器,本讲讲清随机森林方法的原理,以致在实际中帮助学员判断适合进行随机森林分析的情况,最终熟练掌握R语言随机森林分析的方法。
主要案例:
案例:对乳腺癌进行随机森林的分类和预测;
第七讲:支持向量机和R语言的实现
本讲将分析支持向量机的结构风险最小原理、间隔和核函数,从而帮助学员深刻理解支持向量机的思想和算法,以及使用中注意的问题,从而帮助学员灵活地应用于各个领域。
第八讲:神经网络和R语言的实现
神经网络由大量的节点和输出函数构成逻辑策略,本讲介绍其原理,主要通过案例的方式讲解R语言实现神经网络算法的过程和注意的事项。
第九讲:交叉验证比较各个模型
对于同一个数据,可能有很多模型来拟合,如何衡量和比较模型的精度呢?本讲将介绍交叉验证训练集和测试集的方法来帮助大家在实际中选取最佳模型进行拟合和预测
第十讲:使用R语言挖掘
帮助大家使用R语言在大量的数据中发现有价值的信息,抽取潜在有用的数据,发现适合模式,实现可视化结果展示。
举报/反馈