【数据挖掘知识点二】概率基础

来源：互联网发布：2010西部决赛科比数据编辑：程序博客网时间：2024/06/08 13:27

知识点：概率基础

1）随机现象

根据客观现象的特征，将其分类两类：一类是确定性现象，在一定条件下必然出现（或不出现）某种结果的现象；另一类是随机现象，在给定的条件下不能确切预言其结果的现象，可在相同条件下重复进行观察或试验，而每次观察或试验的结果不止一个，且事先无法预知确切的结果。在不确定的现象中，还有一种无法重复观察或试验的情况，如无法确定2050年会不会爆发世界大战，这种一次性不可重复的现象称为不确定现象。

概率研究的对象是随机现象。虽然随机现象每次的结果具有偶然性，但在大量观察或多次重复试验后其结果常常会呈现出某种规律性。

2）随机事件

对随机现象进行观测也称作随机试验。随机试验的每一种结果或随机现象的每一种表现都称作随机事件，一般用大写字母A、B、C，….表示。

基本事件：不能再被分解为两个或两个以上的事件。基本事件是随机试验的最基本结果，每次试验必出现一个基本事件，任何两个基本事件都不会同时出现。

复合事件：由两个或两个以上基本事件所组成的事件。

一项随机试验的所有基本事件的集合，称作该随机试验的基本事件空间。必然事件是每次试验都一定出现的事件，记作Ω。任何一次试验都不可能出现的事件称为不可能事件，记作Φ。

事件的关系有包含和相等，事件的运算有和（并）、差、交（积）、逆。

包含：关系式A⊂B表示若A出现则B也出现，反之则未必；

相等：关系A=B表示事件A和B同时出现或都不出现；

和（并）：运算式A+B或A∪B表示A和B中至少出现一个；

差：运算式A-B或A\B表示事件A出现但B不出现；

交（积）：运算式A∩B表示事件A和B同时出现；

逆事件：表示A不出现，是A的对立事件；

不相容：若AB=Φ，则A与B不可能同时出现，称A和B不相容。

3）概率概念和性质

对于一个随机事件来说，它在一次试验中可能发生，也可能不发生。既然有可能性，就有可能性大小的问题。事件A在随机试验中出现可能性大小的数值度量，称做概率。事件A的概率以P(A)表示。

在相同条件下，重复进行同一随机试验，A是这个试验的一个结果（事件）。设试验次数为n，在n次重复试验中A出现的次数为n_A，则事件A的频率为：n_A/n=P_n(A)。当试验次数n较小时，频率的数值有较大的波动，但n充分大时，频率数值的波动明显减弱，并且随着n的增长，频率会趋于稳定在某个常数p附近。

随机试验的频率具有随试验次数增加而趋向稳定的性质，而频率的稳定值可以用来反映事件发生的可能性大小。因此，可以说频率的稳定值p是事件A发生的概率，即P(A)=p。要注意区别频率和概率，虽然二者都是事件出现可能性大小的度量，但频率是试验值，依赖于试验的次数，即使试验次数相同，频率也可能取值不同，频率具有随机性；而概率则是独立于试验而客观存在的理论值，其大小取决于事件本身固有的规律性。当然在实际应用中，常常通过大量重复试验得到事件发生的频率，且以它作为概率的近似值或估计值。频率是试验值，随机的；概率是理论值，规律的。

设事件A的概率为P(A)，则具有如下性质：

非负性，即0≤P(A)≤1；

规范性，对于必然事件Ω，有P(Ω)=1；

对于随机事件A_i（i=1,2,…），只要它们两两互不相容，则有：