新闻中心

在数据分析、挖掘方面,有哪些好书值得推荐?(数据分析必看的书籍)

2024-03-06
浏览次数:
返回列表

我们按照概率论数理统计→数据分析→数据挖掘→非参数统计→机器学习这一由浅入深的学习路径,整理了17本值得推荐的国内外书籍。

第一阶段:概率论数理统计

刚入门的新人需掌握基础概率论、数理统计、高等代数、微积分等知识。其中,高等代数和数学分析是数据分析与挖掘的基础。

学习时,重点理解知识点背后的原理,并能够用平实的语言描述主要方法和理论。推荐阅读以下3本书籍。

1. Mathematical Statistics and Data Analysis

推荐指数:★★★★

推荐理由: 美国本科生常用的数理统计与数据分析教材,是一本经典详尽的统计学入门书,基于简单的微积分,可以培养读者的统计直觉。对学习者的数学要求是能够熟练掌握高等代数,会多重积分。本书强调了数据分析、图形工具和计算机技术,并注重统计的实务和应用。

购买地址:https://item.jd.com/1189924923.html

2. All of Statistics: A Concise Course in Statistical Inference

推荐指数:★★★

推荐理由:大牛之作,卡内基梅隆大学(CMU)的Larry Wasserman写的统计学概要,深入浅出,薄薄的一本(不到200页),适合有一定数学基础的初学者。作者的文风清楚易懂,将重点放在统计概念的阐述上,而不是繁琐复杂的数学证明,同时涉及一些基本的统计与学习模型。

本书需要读者了解微积分和线性代数的知识,对概率论和统计知识没有要求。

美中不足是文本中有些错误之处,阅读时可以参考本书上的正误表。

购买地址:https://item.jd.com/1136652750.html

3. Introduction to Probability and Statistic

推荐指数:★★★

推荐理由: 概率论与数理统计的经典教材,对了解基础概率论和统计知识很有帮助。作者在这本书中强调了用概率学洞察数学分析的方式,最终得到一种对常用数学分析法最直观的理解方式。从书中的练习以及举的案例可看出概率论是如何应用在日常工作中的。

购买地址:https://item.jd.com/1109412486.html

第二阶段:数据分析

本阶段需要学习概率统计、拓扑学、数值逼近、泛函分析、数学建模等知识。

学习时重点应该放在从实际数据集出发进行实战操作以更好的理解方法和原理上。推荐以下2本书籍。

1. 利用Python进行数据分析

推荐指数:★★★★

推荐理由: 基于python语言介绍了numpy ,pandas等库的操作,本书中有大量具体的实践建议,以及大量综合应用方法。由于作者Wes McKinney是pandas库的主要作者,所以本书也可以作为利用Python实现数据密集型应用的科学计算实践指南。

本书适合刚刚接触Python的分析人员以及刚刚接触科学计算的Python程序员。

购买地址:https://item.jd.com/11352441.html

2. 数据分析 R语言实战

推荐指数:★★★☆

推荐理由: 结合R操作介绍了数据分析常用方法,并给出很多案例以备实战模拟。本书侧重于使用R进行数据的处理、整理和分析,重点讲述了R的数据分析流程、算法包的使用以及相关工具的应用。

购买地址:https://item.jd.com/11511540.html

第三阶段:数据挖掘

学习数据挖掘,需要掌握微积分、线性代数、条件概率(朴素贝叶斯模型)、数据库、编程语言等知识其中,线性分析是数据挖掘中最重要的一个环节。学习时,应着重数学推导原理并结合编程理解掌握各种方法。推荐阅读以下4本书籍。

1. Data Mining, Concepts and Techniques

推荐指数:★★★★★

推荐理由:美国伊利诺伊大学香槟分校(UIUC) CS大牛Jiawei Han, Micheline Kamber及 西蒙弗雷泽大学 (SFU)教授Jian Pei合著的数据挖掘经典教科书,必读系列之一。

本书主要是从数据管理和数据计算的角度给大家讲解数据挖掘。该书对数据挖掘基本概念,算法及其相关技术有比较全面的阐述,是国内大多数高校上课指定教材。

购买地址:https://item.jd.com/1098396840.html

2. Data Mining, the Textbook

推荐指数:★★★★☆

推荐理由:深入浅出介绍数据挖掘方法,是必备的教材。此书探索了数据挖掘的不同方面,从基础知识到复杂的数据类型及其应用。除传统数据挖掘问题之外,它还介绍了高级数据类型,例如文本、时间序列、离散序列、空间数据、图数据等。

购买地址:https://item.jd.com/19701426.html

3. 数据挖掘与R语言实战

推荐指数:★★★★

推荐理由:数据挖掘的中级书籍,比较简单易懂。偏重于实战,原理比较少,这本书适合急于上手的同学阅读。

本书在介绍各种数据挖掘方法同时,还介绍了R语言操作,并且在有一定R语言的基础上引入了机器学习的几个经典算法。适合日常工作中用到R语言的同学。

购买地址:https://item.jd.com/11790199.html

4. 数据挖掘与数据化运营实战 思路、方法、技巧与应用

推荐指数:★★★★

推荐理由: 诸多数据挖掘书籍中为数不多的穿插大量真实的实践应用案例和场景的书籍。阿里巴巴BI部门数据分析专家卢辉多年数据挖掘应用实践经验结晶,用通俗易懂的“非技术”语言和大量活泼生动的案例展现了数据挖掘与数据化运营的商业实践。

购买地址:https://item.jd.com/11252775.html

第四阶段:非参数统计

非参数统计是尽可能不对统计模型施加假设的情况下进行统计推断。因其灵活性和普适性而在实践中广泛应用,非常值得学习。

需要的知识包括基础概率论与数理统计、线性回归等统计方法。学习重点应放在统计原理的理解上,最好可以运用基础数学及概率论统计知识进行理论推导。推荐阅读以下2本书籍。

1. All of Nonparametric Statistic

推荐指数:★★★★★

推荐理由:Larry Wasserman同一系列的另一本书,非参数统计概要。这本书主要面向统计学硕士或博士,它也适合于想要快速学习现代非参数方法的研究人员。

这本书要求掌握分布理论,高等代数和数学分析。对于非参数方法包括非参数回归,非参数密度估计,小波算法等都有介绍。感兴趣的同学可以到CMU Larry Wasserman的网站上找到课程视频和资料。

购买地址:https://item.jd.com/1104426803.html

2. Applied Nonparametric Statistical Methods

推荐指数:★★★

推荐理由:应用非参数统计方法这本书中有许多应用介绍,对非参数统计的应用感兴趣的同学可以看这一本。

购买地址:https://item.jd.com/1197472932.html

第五阶段:机器学习

本阶段需要熟练掌握统计方法。学习时,既要能够熟练进行数学理论推导,同时结合数据集进行实战操作,灵活掌握各种机器学习方法。推荐阅读以下6本书籍。

1. The Elements of Statistical Learning

推荐指数:★★★★★

推荐理由:斯坦福三位统计鼻祖级教授著作。本书对机器学习各领域的方法都有详尽的介绍,有电子版,网上也提供一些数据集,可以配合着R操作来学习,熟练R的同时,掌握各种机器学习方法。

学习时,可以考虑将重要方法进行数学推导以理解原理,并结合数据集进行R编程操作。

购买地址:https://item.jd.com/1132486430.html

2. 机器学习

推荐指数:★★★★☆

推荐理由:作者周志华教授是人工智能大牛,也是国际上人工智能奖项“大满贯” Fellow华人第一人。这是一本非常值得推荐给机器学习入门者梳理知识以及机器学习从业者的书。

书本的印刷质量不错,语言表达与思维逻辑也很清晰,内容涵盖了绝大多数热门算法与模型。此书的结构基本与《elements of statistical learning》相同,不想看英文版的同学可以看这本。

购买地址:https://item.jd.com/11867803.html

3. 统计学习方法

推荐指数:★★★★☆

推荐理由:李航老师力作,李航老师曾任微软亚洲研究院高级研究员及主任研究员,现任华为诺亚方舟实验室首席科学家。

这本书以干货为主,书中没有多余的例子与解释,很多都是从问题定义直接开始,到算法,到分析。书中例子、推导、算法相对比较难,很有必要仔细阅读。

购买地址:https://item.jd.com/10975302.html

4. Pattern Recognition and machine learning

推荐指数:★★★★

推荐理由:模式识别的经典教材,讲得比较浅显,算是机器学习的初级书籍。这本书较轻为全面介绍了模式识别和机器学习领域,需要掌握一些多变量微积分和基本线性代数的知识。

本书有大段描述性文字,常用文字代替数学公式去描述原理。大家可以自己尝试数学推导。

购买地址:https://item.jd.com/1104430003.html

5. Python语言构建机器学习系统

推荐指数:★★★★

推荐理由: 机器学习的初级书籍,对机器学习中的聚类、分类、降维等热点话题进行了介绍,并介绍了相应的python操作。本书可以帮助你进入应对正式而真实的数据集项目环节,运用建模技术,创建推荐系统,并介绍了主题建模、篮子分析和云计算等高级主题。这些内容将拓展你的能力,让你能够创建大型复杂系统

购买地址:https://item.jd.com/10253243790.html

6. 统计学习导论 基于R应用

推荐指数:★★★★

推荐理由: 统计学习的入门书,通俗易懂,号称是ESL的入门版。本书介绍了机器学习的方法,R的例子讲的也很实用,并给出很多R程序,适合有编程需求的同学。

购买地址:https://item.jd.com/10378098942.html

最后强调一点,所有的学习重点最终应该放到实践上。不论是数学推导促进理论的理解,还是编程对数据集进行分析和挖掘以应用理论,动手是非常重要的,需要在实践中总结经验并完善加深自己对各种统计理论的理解。

祝大家学习愉快!

感谢京东金融量化运营部提供回答,答者是位死活不想暴露名字的芝加哥大学统计系博士。

搜索