【数据挖掘知识点二】概率基础

来源:互联网 发布:2010西部决赛科比数据 编辑:程序博客网 时间:2024/06/08 13:27

知识点:概率基础

1)随机现象

根据客观现象的特征,将其分类两类:一类是确定性现象,在一定条件下必然出现(或不出现)某种结果的现象;另一类是随机现象,在给定的条件下不能确切预言其结果的现象,可在相同条件下重复进行观察或试验,而每次观察或试验的结果不止一个,且事先无法预知确切的结果。在不确定的现象中,还有一种无法重复观察或试验的情况,如无法确定2050年会不会爆发世界大战,这种一次性不可重复的现象称为不确定现象。

概率研究的对象是随机现象。虽然随机现象每次的结果具有偶然性,但在大量观察或多次重复试验后其结果常常会呈现出某种规律性。

2)随机事件

对随机现象进行观测也称作随机试验。随机试验的每一种结果或随机现象的每一种表现都称作随机事件,一般用大写字母A、B、C,….表示。

基本事件:不能再被分解为两个或两个以上的事件。基本事件是随机试验的最基本结果,每次试验必出现一个基本事件,任何两个基本事件都不会同时出现。

复合事件:由两个或两个以上基本事件所组成的事件。

一项随机试验的所有基本事件的集合,称作该随机试验的基本事件空间。必然事件是每次试验都一定出现的事件,记作Ω。任何一次试验都不可能出现的事件称为不可能事件,记作Φ。

事件的关系有包含和相等,事件的运算有和(并)、差、交(积)、逆。

包含:关系式A⊂B表示若A出现则B也出现,反之则未必;

相等:关系A=B表示事件A和B同时出现或都不出现;

和(并):运算式A+B或A∪B表示A和B中至少出现一个;

差:运算式A-B或A\B表示事件A出现但B不出现;

交(积):运算式A∩B表示事件A和B同时出现;

逆事件: 表示A不出现,是A的对立事件;

不相容:若AB=Φ,则A与B不可能同时出现,称A和B不相容。

3)概率概念和性质

对于一个随机事件来说,它在一次试验中可能发生,也可能不发生。既然有可能性,就有可能性大小的问题。事件A在随机试验中出现可能性大小的数值度量,称做概率。事件A的概率以P(A)表示。

在相同条件下,重复进行同一随机试验,A是这个试验的一个结果(事件)。设试验次数为n,在n次重复试验中A出现的次数为nA,则事件A的频率为:nA/n=Pn(A)。当试验次数n较小时,频率的数值有较大的波动,但n充分大时,频率数值的波动明显减弱,并且随着n的增长,频率会趋于稳定在某个常数p附近。

随机试验的频率具有随试验次数增加而趋向稳定的性质,而频率的稳定值可以用来反映事件发生的可能性大小。因此,可以说频率的稳定值p是事件A发生的概率, 即P(A)=p。要注意区别频率和概率,虽然二者都是事件出现可能性大小的度量,但频率是试验值,依赖于试验的次数,即使试验次数相同,频率也可能取值不同,频率具有随机性;而概率则是独立于试验而客观存在的理论值,其大小取决于事件本身固有的规律性。当然在实际应用中,常常通过大量重复试验得到事件发生的频率,且以它作为概率的近似值或估计值。频率是试验值,随机的;概率是理论值,规律的。

设事件A的概率为P(A),则具有如下性质:

非负性,即0≤P(A)≤1;

规范性,对于必然事件Ω,有P(Ω)=1;

对于随机事件Ai(i=1,2,…),只要它们两两互不相容,则有: 

4)概率的估计和计算

概率的直接计算有两种场合:古典型概率和几何型概率,古典型概率用事件个数比率计算,而几何型概率则是用几何度量比率。

也可以用频率直接估计概率。

也可以使主观概率,如专家估计。

概率的计算公式:

概率的加法法则:任意两个事件P(A+B)=P(A)+P(B)-P(AB),不相容事件P(A+B) =P(A)+P(B)。

条件概率:P(A|B)=P(AB)/P(B),在事件B发生的条件下,事件A发生的条件概率。

概率的乘法公式:P(AB)=P(B)P(A|B)=P(A)P(B|A)。


事件的独立性:对于两个事件A和B,假若事件B的发生对事件A发生的概率产生影响,即P(A|B)≠P(A),则称事件A与B之间统计相依;假若事件B的发生并不影响事件A发生的概率,称事件A与B之间统计独立,即:P(AB)=P(B)P(A)。

联合概率:若事件两两独立,则P(ABC)=P(A)P(B)P(C),可推广到n个事件。

5)随机变量及其分布

随机变量就是其取值带有随机性的变量。在给定的条件下,这种变量取何值事先不能确定,只能由随机试验的结果来定,并且随试验的结果而变。随机变量分类离散型和连续型。

随机变量的概率分布:随机变量的一切可能值的集合(值域),及其相应的概率称做随机变量的概率分布。随机变量的统计性质由它的概率分布来表征,分为离散型随机变量分布和连续性随机变量分布两类。

离散型随机变量分布定义:离散型随机变量X的每一个可能的取值xi和随机变量取该值的概率p(xi)之间所确立的对应关系。p(xi)(i=1,2,…)称作随机变量X的概率分布或概率函数,满足p(xi)≥0,且各值和为1。

连续性随机变量分布定义:连续型随机变量X在某一数值区间[a,b]内取值的概率等于竖立在该区间上的,以密度曲线为上底的曲边梯形的面积,写作: