来学习一下概率论基本知识,它能避免你的模子过拟合
晓查 发自 凹非寺
量子位 报道 | 群众号 QbitAI
线性代数和概率论是机器学习的必备基本课程。前几天,量子位以前保举了一个可以互动的线性代数课程。
迩来,有位印度小哥Nimish Mishra在Medium上分享了一篇概率论基本知识,也是一篇零基本的入门课程。
这篇文章提到了很多基本看法和紧张的变量分布。此中有些看法,好比协方差,可以协助我们了解机器学习中变量之间的干系。
这位小哥提到的指数分布,则在神经网络调参中有着直接的使用。
底下,就让我们一同来跟他学习一下吧。
概率论中的基本看法
我们先从掷硬币开头谈起。
随机变量可以是散伙的,也可以是一连的。好比抛硬币的后果就是一个散伙的随机变量,而降雨量就是一个一连的随机变量。
为了便利起见,我们可以界说一个变量x,当硬币显现正面时x=1,当硬币显现不和时x=0。关于降雨量这个随机变量而言,我们只能界说x是一个大于0的实数。
随机变量的后果固然不成预知,但并不是完全不成捉摸的,它有一定的纪律性,这就是概率分布函数。
关于散伙变量,它是x的概率为p,我们可以界说f(x)=p。在抛硬币这个成绩中,f(0)=1/2,f(1)=1/2。
关于一连变量,x的取值是一连的,我们不克不及再说x即是某个值的概率是几多,而是用一个概率密度函数来表现它,当x取值在a和b两个数之间时,它的概率可以用以下积分后果表现:
弄清晰概率分布函数后,接下去我们就可以界说这些量:希冀值、方差、协方差。
希冀值又叫均匀值,寻常用μ表现。以散伙随机变量为例,把变量的值和对应的概率相乘,然后把一切乘积相加起来,就是希冀值:
方差用来权衡随机变量偏离均匀值的水平,它是变量X减均匀值μ的平方——(X-μ)^2——的均匀值。
协方差表现不同随机变量之间关联的强弱。底下是四个变量ABCD之间的协方差表格:
当两个变量的协方差是正数时,表现一个变量值增长的同时,另一个变量值在变小。假如协方差是0,表现一个变量的值不会影响另一个变量。
稀有的几种概率分布
我们照旧以抛硬币为例,这个随机变量只能取正面1、不和0两个值,是一种伯努利分布:
对抛硬币来说, φ=0.5。
假如我们要猜测n次抛硬币中有k次显现正面的概率是几多,还必要引入二项分布:
此中p表现硬币在单次投掷中显现正面的概率,也就是0.5。
以上是散伙变量的情况,关于一连的随机变量,另有最稀有的高斯分布(正态分布)、指数分布等等。
高斯分布在概率论中具有十分紧张的位置,在统计学中,很多随机变量都切合高斯分布。它的界说如下:
此中μ是希冀值,σ是标准差(方差的平方根)。高斯分布的函数图像如下,变量在均匀值四周支配一个标准差内的概率是68.2%。
在深度学习中,我们必要调治神经网络的参数以避免过分拟合。这时分会用到指数分布:
λ值越大,变量x的分布越会合。
实践使用
概率不仅仅是把握机器学习必需的基本知识,它也有一些直接的使用。
在前文中我们提到过,指数分布可以协助调治神经网络的参数,避免过拟合。这一点很紧张,由于过拟合会招致神经网络的功能不佳。
在Kaggle的一项猜测客户买卖的职责中,作者Nimish用概率论的办法找到了内里纪律。
Nimish绘制了200个变量对后果分布的影响:
这组图是不同的两个参数(以0和1表现)条件下,相反变量的不同概率分布。第一行中的前3个图分布不完全相反,而第4个图几乎完全堆叠。以是,第4个参数对随机变量约莫没有影响。
以上只是对概率论的开头先容,假如想要了解更多,可以去看一些干系专辑,也可以去看看Nimish的专栏文章。
原文链接:
https://towardsdatascience.com/probability-theory-for-deep-learning-9551b9255cf0
— 完 —
诚挚招聘
量子位正在招募编纂/记者,事情地点在北京中关村。渴望有才华、有热情的同砚到场我们!干系细节,请在量子位群众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
?’?’ ? 追踪AI武艺和产物新动态

















