透彻了解高斯分布
正态分布是与中的定量征象的一个便利模子。种种千般的心思学测试分数和征象好比计数都被发觉近似地听从正态分布。
开头前,先看几个紧张看法:
概率函数:把事变概率表现成关于事变变量的函数
概率分布函数:一个随机变量ξ取值小于某一数值x的概率,这概率是x的函数,称这种函数为随机变量ξ的分布函数,简称分布函数,记作F(x),即F(x)=P(ξ<x) (-∞<x<+∞),由它并可以决定随机变量落入任何范围内的概率。
概率密度函数:
概率密度即是变量在一个区间(事变的取值范围)的总的概率除以该段区间的长度。
概率密度函数是一个形貌随机变量在某个确定的取值点四周的约莫性的函数。
概率分布函数与概率密度函数的干系:
一连型随机变量X的概率分布函数F(x),假如存在非负可积函数f(x),使得对随意实数x,有
f(x)为X的概率密度
高斯分布
经过概率密度函数来界说高斯分布:
高斯分布的概率密度函数是:
均值为μ,标准差为σ
高斯分布的概率分布函数是:
高斯分布标准差在概率密度分布的数据意义
高斯分布紧张量的实质
- 密度函数关于均匀值对称
- 均匀值是它的众数(statistical mode)以及中位数(median)
- 函数曲线下68.268949%的面积在均匀值支配的一个标准差范围内
- 95.449974%的面积在均匀值支配两个标准差2σ的范围内
- 99.730020%的面积在均匀值支配三个标准差3σ的范围
此中第3-5条称为68-95-99.7端正
举一个例子:
反省一些示例数据:
女性体重的均匀值= 127.8
标准偏差(SD)= 15.5
一个标准差的范围
两个标准差的范围
怎样反省你的数据是不是高斯分布
· 看直方图! 是不是看起来像钟形?
· 盘算形貌性汇总度量 – 均匀值,中位数和形式对否相似?
· 2/3的察看对否位于均匀值的±标准差1内? 95%的察看值对否在均匀值的±2标准差范围内?
中央极限定理
正态分布有一个很紧张的实质:在特定条件下,多量统计独立的随机变量的和的分布趋于正态分布,这就是中央极限定理。中央极限定理的紧张意义在于,依据这一定理的结论,别的概率分布可以用正态分布作为近似。
高斯分布可以从二项式(或泊松)推导出假定:
p不接近1大概0时,n十分大
我们有一个一连变量而不是一个散伙变量
思索扔一次硬币10,000次。
p(头)= 0.5,N = 10,000
关于二项分布:
均匀数为μ = np=5000,标准差为σ = [np(1 ? p)] 1/2=50。
此二项分布的概率在μ±1范围内:
高斯分布均值±一个标准差的概率积分:
高斯分布线性组合的紧张实质