新闻中心
数理统计(数理统计研究生就业方向及前景分析)
上一篇文章中我们回顾了概率论,而数理统计向来是和概率论紧密结合的,甚至绝大部分教科书都是将其放在了同一册中,简单来看,概率论讨论的是不确定性本身,是理论性的,刻画的内在规律性,我们现实世界中能够感知到的则是这种内在规律性的结果,即系统生成的数据。而数理统计讨论的就是基于这些系统生成而被我们观测到的数据,反向推断真实系统的内在规律性。数理统计是以概率论为基础,研究大量随机现象的统计规律性,它的一系列理论与方法则是我们在分析现实问题和数据时的参照与理论保障。数理统计从机器学习应用的角度来看主要分为了两方面,一是通过大数定律与中心极限定理为代表的定理提供了我们根据数据建模真实系统的理论依据,二是通过估计等具体方法提供了建模的基础和出发点。此外,对于机器学习较少涉及到的假设检验等部分内容就不在这里的讨论范围。
大数定律
概率论在理论层面研究了概率分布的性质,但只有把现实世界中观测数据的统计结果与概率分布联系起来我们才能利用概率的理论对现实中的观测数据进行分析和推理,大数定律就是用来担此重任的。
大数定律,通俗地讲,是指当样本的数量越来越多时,样本的算术平均值越来越逼近系统概率分布的期望值,也就是说只要样本数量足够多的,几乎肯定能够反映出系统的真实分布。大数定律揭示了不确定性背后的稳定性,从理论上将观测数据的统计频率与概率,将样本均值与分布的期望联系起来,从而打通了现实和理论。具体来看,大数定律又分为弱大数定律和强大数定律,两者的不同在于对于独立同分布的随机序列,前者保证依概率收敛,后者做出了更强的保证,即几乎处处收敛(以概率11收敛),通俗地可以这么理解:弱大数定律说的是随着样本数量的增多,样本均值接近概率期望的可能性越来越大以至足够大(不排除极小可能性的偏离),强大数定律进一步约束了它,说的是几乎一定会。形式化地来看是:
弱大数定律
N时,使得\forall \varepsilon > 0,\forall \delta > 0,有p (|\mu_n - \mu| < \varepsilon) < \delta\\">,当时,使得,,有∃N∈N+,当n>N时,使得∀ε>0,∀δ>0,有p(|μn−μ|<ε)<δ\exists N \in N^+,当n > N时,使得\forall \varepsilon > 0,\forall \delta > 0,有p (|\mu_n - \mu| < \varepsilon) < \delta\\
强大数定律
N时,使得\forall \varepsilon > 0,有p (|\mu_n - \mu| < \varepsilon) = 1\\">,当时,使得,有∃N∈N+,当n>N时,使得∀ε>0,有p(|μn−μ|<ε)=1\exists N \in N^+,当n > N时,使得\forall \varepsilon > 0,有p (|\mu_n - \mu| < \varepsilon) = 1\\
中心极限定理
通俗地理解,中心极限定理是说,在适当的条件下,大量相互独立的随机变量的的均值经恰当的标准化后依分布收敛于正态分布。中心极限定理之所以重要是它表明适用于正态分布的概率和统计方法同样可以应用于很多非正态分布的实际问题中。
中心极限定理是一组定理,其中棣莫佛-拉普拉斯定理讨论的是参数为n,p的二项分布以np为均值、np(1-p)为方差的正态分布为极限,这一点我们在上一篇文章中介绍过;林德伯格-列维定理则是进一步的拓展,讲的是只要随机变量X1,X2,…,XnX_1, X_2,\dots,X_n 独立同分布,且分布有期望 μ\mu和方差σ2\sigma^2 ,则不论这个分布具体是什么样的分布,它的标准化和( X¯−μσn\frac{\bar X-\mu}{\frac{\sigma}{\sqrt{n}}})收敛于标准正态分布,通俗地理解,每一次抽样同一分布构成一个独立的随机序列,随着独立抽样次数也就是随机序列的数量越来越大,这批随机序列的标准化均值和收敛于正态分布;林德伯格-费勒定理又是对林德伯格 - 列维定理的进一步扩展,它讨论的是独立,但不同分布的情况下的随机变量和,它表明,在满足一定条件下,独立,但不同分布的随机变量序列的和(Sn=∑i=1nXiS_n = \sum_{i=1}^{n}{X_i})收敛于正态分布,这种条件被称为林德伯格条件,通俗地理解,均值为0,方差有限的随机序列XiX_i
如果 XiX_i 相对于 SnS_n 的散布(标准差)是不可忽略的,那么 XiX_i 的分布必须接近正态分布对于所有可忽略的 XiX_i,取其绝对值最大的一项,这个绝对值相对于序列和也是可忽略的参数估计与非参数估计
一个典型的统计过程一般这样的:抽样样本数据 -->观察数据趋势 -->选择概率分布 -->概率分布参数估计-->假设检验,这叫做概率密度建模的参数化方法,即我们根据数据来估计概率分布中固定的几个参数,比如其期望、方差,需要估计的参数根据选定的概率分布有所不同。但我们这样做其实隐含了一个假设,即我们确信我们选定的概率分布能够很大程度上拟合真实数据,但事实真的如此吗?很多情况下现实中的系统是很难用我们已知的概率分布能够拟合的,即使可以,我们就一定选的对吗?这种疑问就对参数化方法提出了挑战,如果假设不成立,我们所作出的估计泛化性能也不会高。
因此,在概率密度建模的参数估计之外有了非参数估计的方法,它对待建模的系统并不做概率分布形式上的假设,可以这么理解,它不是估计概率分布的几个参数,而是估计概率分布本身,它的潜在参数空间是无限的,具体参数的数量和形式取决于实际数据,进而决定了建模出来的函数的形式。比如常见的概率密度建模的非参数方法有直方图法,核密度法,K近邻法,其中K近邻法将在后面与GMM结合进行分析。
这里介绍参数估计和非参数估计更多是为了在具体方法细节之前从更高的层面上看待这些方法,有助于我们的理解和认识。
点估计方法:最小二乘、最大似然与最大后验概率
上文中概率密度的参数估计方法具体来看又分为点估计和区间估计,后者是根据一定的准确率要求构造出一个区间来作为未知参数的一个取值范围,而前者则是基于样本根据某些规则构造出一些特征值,并将这些值近似的看做总体的特征值,也就是参数。这里我们结合在机器学习中的应用,仅涉及点估计。
那么上文说的“某些规则”具体有哪些呢?机器学习应用中常用的更多是最小二乘法、最大似然法和最大后验概率法。在介绍他们的细节之前,我们需要理解的是它们都处在同一个应用框架内,即根据观测样本来估计假设的概率密度的某些特征值,也就是参数,区别就在它们实现的原理和方式不同。
最小二乘法(Least Squares Method),通俗地讲,最小二乘就是构造平方和误差函数,我们通过求导解出平方和误差函数在观测样本上的误差值最小的参数,作为我们的估计值。方法比较简单,我们可以考虑它的几何意义以帮助我们理解,平方和可以和(平方)欧氏距离结合起来,所以我们可以把它的指导思想或者说几何意义看做求空间中欧式距离最小的拟合曲线。那么除了用欧式距离之外,是否还可以用其它的距离呢,自然是可以的,不同的问题定义适用不同的距离定义,我们留待日后探究距离的时候讨论。
在接下来讨论最大似然估计和最大后验概率估计之前,不得不先讨论二者的思想区别,以便更好地区分这两种方法。在统计领域,有两种认识,这两种认识来自于两个学派:频率学派和贝叶斯学派,它们的根本区别在于对世界的认识:频率学派认为万事万物背后的规律虽然各式各样,但在某一时刻(产生样本的时刻)这些规律本身是固定的,是不会变化的,我们能做的就是基于数据和方法去尽可能地逼近这个客观事实;而贝叶斯学派则认为在那个时刻,规律是不确定的而非固定的,怎么衡量这种不确定呢,这就是是概率论的范畴,也就是规律的不确定性,具体说是待建模分布的参数满足某种分布,当然这种分布也是我们假设的,在贝叶斯学派的观点里,我们能做的是根据在这种分布假设的条件下,结合我们观测到的数据,推断出一个最大可能的规律是什么。总结一句话来看,频率学派认为我们要建模的系统的规律是固定的,我们要去尽量逼近它;贝叶斯学派引入了我们人类认识,预先假设我们要建模的系统的规律大概是什么样的,然后结合数据看最有可能是什么样的。
了解了频率学派和贝叶斯学派的基本观点之后,我们来区别地分析二者。首先频率学派的观点将当前观测到的样本所体现的信息全部归纳到一个或几个参数的点估计上,而贝叶斯学派则将这些信息归纳到了一个后验分布上;另外,贝叶斯方法通过先验影响概率分布的参数向预先先验的区域偏移,而且实践中,先验通常表现为偏好更简单和更光滑的模型;最后贝叶斯方法通过共轭先验使得对于在线学习或者顺序学习非常友好。因此贝叶斯学派批判频率学派过于依赖观测样本,不确定性大,容易过拟合,泛化性能低,频率学派则批判说人为主观太过影响预测,虽然样本有限时,先验的作用更大,贝叶斯方法通常泛化地更好,但当样本数量越来越多时,则会增加很大的计算代价。
最大似然估计(Maximum Likelihood Estimation),MLE就是频率学派的方法,似然是什么意思呢,它表示观测到某件事情发生的可能性,最大似然呢,就是使得我们的概率分布观测到当下样本的可能性最大,这样得出的概率分布的参数是最逼近真实规律的。形式化地来看,对模型pmodel(x;θ)p_{model}(x;\theta) 中参数 θ\theta 的最大似然估计定义为:
θML=argmaxθpmodel(X;θ)\theta_{ML} = argmax_{\theta} p_{model}(X;\theta)\\
在样本相互独立的假设下有:
θML=argmaxθ∏i=1npmodel(xi;θ)\theta_{ML} = argmax_{\theta} \prod_{i=1}^{n}p_{model}(x_i;\theta)\\
为方便计算,常常引入对数似然有:
θML=argmaxθ∑i=1nlogPmodel(xi;θ)\theta_{ML} = argmax_{\theta} \sum_{i=1}^{n}log P_{model}(x_i;\theta)\\
此外,除了传统频率学派的介绍,还可以从另一个角度理解MLE,即最小化观测样本上的经验分布pdatap_{data} 和模型分布之间的差异:
DKL(pdata||pmodel)=Edata[logpdata(x)−logpmodel(x)]D_{KL(p_{data}||p_{model})} = E_{data} [log\ p_{data}(x) - log\ p_{model}(x)]\\
左边的经验分布为常数,也就只要最小化右边的一项,即:
θML=argminθEdata[−logpmodel(x)]\theta_{ML} = argmin_{\theta} E_{data} [ - log\ p_{model}(x)]\\
该项其实和对数似然在当前观测样本上求期望是等价的。
MLE有很多比较好的性质,比如在假设的分布正确的情况下MLE具有一致性(保证了估计量的偏差随着数据样本的增多而减小),即训练样本无穷大时,MLE会收敛到参数的真实值,其收敛速度也是最好的,因此MLE经常作为机器学习的首选估计方法,而且经常加上正则化策略以减小过拟合,得到方差较小的最大似然的有偏版本。
最大后验概率估计(Maximum A Posteriori Estimation),MAP则是贝叶斯学派的观点,后验概率是想对先验概率而言的,先验就是在我们上文说的在分析样本之前就引入的人类知识(可能是人类的常识,也可能是基于当前场景外的内容推理出来的),预先地假设或者说约束待建模分布的参数满足的分布;后验概率则是基于先验概率,用观测到的样本来进一步减少参数的熵,将观测样本的信息归纳为以更大的可能性集中到真实系统的参数上。先验的存在作为外部信息的引入,可以减小最大后验点规矩的方差,但是如果先验选的不好,则会增加偏差,因此实践中,在没有太多外部信息时,我们一般会选择一个相对宽泛的,熵高的分布作为先验分布,甚至我们选取一些只包含参数模糊或一般的信息,也就是所谓的无信息先验。形式化地来看有
贝叶斯定理
P(A|B)=P(B|A)P(A)P(B)P(A|B) = \frac{P(B|A)P(A)}{P(B)}\\
因此后验概率为
P(θ|X)=P(X|θ)P(θ)P(X)P(\theta|X) = \frac{P(X|\theta)P(\theta)}{P(X)}\\
其中分母项仅与当前样本有关,为常数项,因此MAP可以定义为
θMAP=argmaxθp(θ|x)=logp(x|θ)+logp(θ)\begin{aligned} \theta_{MAP} &= argmax_{\theta}p(\theta|x)\\ &= log\ p(x|\theta) + log\ p(\theta) \end{aligned}\\
其中前一项对应标准的对数似然项,后一项对应着先验分布。
最后们需要讨论的是三种点估计方法的联系,其实最小二乘的方法,也就是最小化平方和误差函数在求解上等价于高斯噪声假设下的最大似然解,这一点我们可以通过给待建模函数加上高斯噪声项,然后进行求对数似然在数学形式上得出;而从极限的角度考虑,当观测到的数据杨越来越多时,其中的似然项相对于先验项起到的作用越来越大,最终近似于最大似然;反过来,加上正则化项的最大似然,在对数求解下也可以看做对应的最大后验近似,比如加上了L2正则化项的最大似然可以对应高斯先验的最大后验概率估计。
至此,我们介绍了机器学习应用中涉及的梳理统计的常见内容,包括大数定律和中心极限定理的理解,以及对三种点估计方法最小二乘、最大似然和最大后验的分析与比较。接下来,我们将会介绍机器学习的另外一部分基础内容:数值计算和最优化理论。
微软中国正在持续招聘,尤其是2021年更是进行的很多的业务扩张和新业务尝试,涉及必应搜索广告、信息流推荐、NLP、Azure cloud and big data service,以及Office,teams,Edge浏览器等应用开发,北京/苏州/上海,junior, senior, principal 各个级别都有,算法、工程、PM和支持等各个岗位也是。
具体岗位可以参考两个来源,一个是微信公众号:微软招聘(joinmicrosoft),里面的文章会有HR们的编辑渲染和耐心介绍,但是岗位并不全,另一个是如下的公司招聘网址,大家可以通过筛选地址、岗位等来查看全面的岗位信息,我们在内推时同样是通过这个网址来去检索信息。
Search results | Find available job openings at Microsoftcareers.microsoft.com/professionals/us/en/search-results?rk=l-l-beijing对微软感兴趣的朋友在有了心仪的岗位之后欢迎联系我内推,可以帮助进行面试前的岗位详情和匹配度咨询(找对应组的leader)、注意事项和流程沟通,面试过程中及后的实时进度跟踪。这里的内推主要针对社招同学(公司政策),当然实习和校招的同学们也可以联系我,我也会尽我所能。
邮箱:tax@microsoft.com
这里仅对公共问题做一些简要介绍:
很多人对英语水平的要求心有疑虑,其实大可不必,就我近四年来的观察了解,除了高级别Principal(~P9)以及PM岗位,他们需要和老外紧密沟通所以对听力和口语要求比较高,其余岗位只要过了六级大可不必担心,正常的邮件沟通就可以,少部分情况下如果你的工作内容跟老外有交集,开会时候打开语音识别字幕,简单会说两句不是问题。工作时间相比较国内互联网要良心很多,具体看组,但是据我观察,大家基本六点吃晚饭,吃过之后走的人就很多了,大家看到也觉得很正常。更多问题可以联系我,非常乐意解答。