统计学:概率论

最近对数据分析有点兴趣,所以准备好好地学习统计学,而概率论支持着很多统计学的理论,因此概率论是非常重要的一门学科。

1. 基本概念

互斥与不互斥

一般而言,互斥与不互斥是针对某次事件的发生结果而言。

互斥:事件A和事件B不可能同时发生,那么称事件A和B互斥(mutually exclusive)。反之则不互斥(not mutually exclusive)。

例如说抽一张扑克牌,这张牌不可能既是“黑桃”又是“红心”,因此两种事件,也就是2种事件互斥

但针对“黑桃”,“数字3”这两个事件,是有可能同时发生的,因此这两种事件不是互斥的。

独立与不独立

独立与不独立一般是针对两个事件(A和B)之间的独立性,如果事件A的发生不受事件B的影响,那么就是独立事件(independent event),如投两次硬币,第一次的结果不会影响到第二次,否则就是非独立事件(dependent event),如学历与收入,抽到的牌是黑桃和数字。

2. 常见概念

下面介绍几种概率论里面必要的概念。

联合概率

联合概率(joint probability),用P(AB)来表示,表示A和B共同发生的概率。

对于独立事件:P(AB) = P(A) * P(B)

对于非独立事件:P(AB) = P(A|B) P(B) = P(B|A) P(A)

条件概率

条件概率(conditional probability),也叫后验概率,也就是某个事件(设A)在另一个事件(设B)已发生的情况下,发生的概率,用P(A|B)表示:

对于独立事件:P(A|B) = P(A)

对于非独立事件:P(A|B) = P(AB) / P(B)

随机变量

随机变量(random variable)是指随机事件的发生数量,其中分为离散型(discrete)和连续型(continuous)。

离散型是指发生的事件在一定区间内的取值是有限个。

如掷骰子,只有1,2,3,4,5,6这四种情况。

随机变量

连续型是指一定区间可以取无数个,如人的身高,可以取身高曲线上的某个点。

正态分布研究图3

期望值

期望值(expected value)就是随机实验进行很多次,得到的全部值的平均值,就是期望值E(x),如掷骰子,期望值计算如下:

![](/blog/img/statistics/probability/expected value example.svg)

一般而言,对于离散型的变量,我们用以下公式计算:

而针对连续型的变量,我们一般会根据他的概率函数做一个密度(微积分)计算从而得出期望值。

方差

方差(variance)用来表示个体数据的离散程度,有时候也用σ^2来表示,计算方式如下:

具体原理就是累加每个值于平均值的距离,至于为什么要用平方来计算单个的距离值,因为距离可以是正和负,平方值的话可以解决这个问题。

标准差

标准差(standard deviation)就是对方差进行平方,这里不做详细描述。

3. 贝叶斯定理

贝叶斯定理(Bayes' theorem)用于计算在某个事情(如A)下,某个事情(如B)发生的概率。

可以理解为基本用于非独立事件之间的条件概率计算,公式如下:

有些还会把P(B)单独拆分,变成如下样子:

从根本上来说,贝叶斯定理就是在已知先验概率(设P(A))以及某些特定条件概率的情况下,计算后验概率(条件概率P(A|B))。

设你去省医院检查,医院结果显示你呈弱阳性,进一步的结果需要送到国家级的医院进行进一步的检查,但你可能已经吓到半死了。

但你不太死心,感觉自己平时生活习惯良好,不太可能患上XX癌症呀,于是拼命上各种论坛去查案例,发现了一张最新的国家医院体检统计如下:

事件 概率
xx癌症患病的人,设A 1%
省医院结果为阳性的概率,设B 10%
患有xx癌症的人,其结果为阳性的概率,设B|A 90%
体检结果为阳性,其患有xx癌症的概率,设A|B ?%

根据贝叶斯概率计算,你的患病概率为P(A|B) = P(A) * P(B|A) / P(B) = 9%,然后你可以相对来说送一口气。毕竟看上去没有那么吓人了,这是因为你知道了阳性的结果,且不是全部的阳性都是患病,他们是有交集的。求得P(A|B)其实就是求橙色部分在绿色部分的面积。

上面的例子可能不太恰当,但在现实生活,有很多的医学上会用到贝叶斯定理,比如说问你判断你是否患有癌症,先问你是否喉咙痛,根据以往的记录喉咙痛的话患癌症的概率会大幅度提高,其实作用就是不停地通过各种条件去细化这个概率。

4. 二项分布

二项分布(binomial distribution)是由n次的独立的伯努利实验中成功的离散概率分布,那么伯努利实验又是什么呢?

伯努利分布

其实伯努利实验很简单,就是每次事件出现的结果只有互斥的两种,例如投硬币,这就是一个典型的伯努利实验,一般伯努利实验会设出现的结果为失败(0)和成功(1),随机变量出现1的概率为p,出现0的概率为1-p

伯努利分布长这样子:

举个例子:

某人打靶,成功的概率为0.8,失败的概率为0.2,那么这个分布图就和上面展示的一样了。

二项分布

二项分布就是做n次伯努利实验,统计成功的次数和概率,根据两个参数画出分布图。

一般人们会用这个公式去计算n次实验中,成功k次的概率的概率,其中成功概率为p

其中公式中的(n k)是代表组合。

举个例子,设我投6次硬币,投出3次正面的概率根据上面的计算为0.3125。

然后我会整理出现1,2,3,4,5,6次正面的概率,并把它们列成图形,就会下图所示。

6. 泊松分布

泊松分布(possion distribution)用于描述单位时间内随机事件发生次数的概率分布。公式如下:

一般用来统计独立且概率是离散型的事件。

如商场一天之内平均销售10个名牌手袋,请问一天之内售出11个名牌手袋的概率是多少?根据泊松分布,我们可以轻易算出概率为0.1137。

7. 指数分布

指数分布(exponential distribution)用以算出独立事件发生的时间间隔。计算的公式如下:

如某个商店平均每小时卖出3个手袋,那么请问半小时内能卖出手袋的概率是多少?

所算的概率就是P(x<= 1/2 ) = 1 - e^(-3*1/2) = 0.7769

8. 正态分布

现实生活中,很多事件的总体(如人的身高)都会遵守着一个正态分布。很多正面和负面的因素累加起来,会使得总体样本的数据趋向于正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

要注意的是,正态分布是用于处理连续型的概率,刚刚所介绍的分布都是处理离散型的概率。

定义

若随机变量X服从一个数学期望为μ,方差为σ^2的正态分布。

则记为N(μ, σ^2)

其中μ决定了正态分布的位置,σ决定了正态分布的幅度。

其概率密度函数为

公式的意义就是计算抽取的值低于或等于x的概率是多少。

如下图,我们可以用这个公式计算得出下面正态分布,值小于或等于0的概率为0.5

数据标准化

在说标准化正态分布之前,有必要先了解一下数据标准化的意义,因为网上很多文章没有说明白这个概念。之所以要进行数据标准化,其实是可以把数据放在同一个标准下面,可以方便比对。其中有一种著名的方法叫做z-score,标准化完之后,整体会服从平均值为0,标准差为1,公式如下:

举个例子,某次考试有英语和语文,小明考了70分语文,90分英语,按照常理来说,会说小明的英语比语文要好,但是如果那天的考试语文很难,大部分学生只有50-60分,英语却很简单,大部分人都有90分,那么我们要怎么说明白小明的语文要比英语好呢?

而z-score就考虑到了总体的平均值(μ)和离散程度(σ)。从而计算出更加合理的分数机制。

下图引用漫画统计学的一个例子,一个人历史得了73分,一个人生物得到73分,可以通过标准分来对比之间的价值。

1569994965678

标准化正态分布

标准化正态分布就是服从N(0,1)的正态分布,且值和对应的概率如下表所示:

这是因为如果使用概率密度函数来计算概率的话,在以前没有计算机的时代是基本不敢想象的。旧时的人们想了一个方法,就是把要统计的数据标准化一下,再去根据上面的标准化正态表的值对应的概率,可以比较方便知道概率是多少了。

以下例子转载自数学乐

例子:求总体在 0 和 0.45 之间的百分比

在 0.4 的行开始,向右去到 0.45 ,来找到 0.1736 这个值0.1736 是 17.36%,所以总体的 17.36% 是在离平均值 0 到 0.45个标准差之间。

标准正态分布 0.45 = 0.1736

因为曲线是对称的,我们可以用这个表来查看负值:−0.45 的面积也是 0.1736。

更详细的计算可以去这里看,计算的过程稍微想一下就明白了。

连续性修正

但是如果二项分布的实验次数相对较大,那么可以用连续性修正来接近正态分布,从而方便计算概率,这里就不详细说明了。。

参考资料:

  1. 维基百科
  2. 百度百科
  3. 数学乐-标准正态分布
  4. 统计学-日本学习漫画
  5. 深入浅出统计学(headfirst)
  6. 正态分布--阮一峰
  7. vamei博客