贝叶斯学习总结

来源：互联网发布：网络舆论使思考更多元编辑：程序博客网时间：2024/06/03 19:59

贝叶斯总结

条件概率
p(x｜y) = p(xy)/p(y)

独立同分布：
特征之间相互独立且服从同一分布

贝叶斯公式
p(x|y) = p(y|x)*p(x)/p(y)
以上公式可得到，已知任意三项可以计算第四项的值
根据条件概率分类
如果 p1(x,y) > p2(x,y) 那么属于类别1，反之属于类别2 其中 x,y 表示一个固定点或者某个指定事件

机器学习过程说明：
准备阶段：
确定特征属性
获取训练样本
第一阶段——准备工作阶段，这个阶段的任务是为朴素贝叶斯分类做必要的准备，主要工作是根据具体情况确定特征属性，并对每个特征属性进行适当划分，然后由人工对一部分待分类项进行分类，形成训练样本集合。这一阶段的输入是所有待分类数据，输出是特征属性和训练样本。这一阶段是整个朴素贝叶斯分类中唯一需要人工完成的阶段，其质量对整个过程将有重要影响，分类器的质量很大程度上由特征属性、特征属性划分及训练样本质量决定。

训练阶段：
对每个类分别计算
对每个特征属性计算条件概率
第二阶段——分类器训练阶段，这个阶段的任务就是生成分类器，主要工作是计算每个类别在训练样本中的出现频率及每个特征属性划分对每个类别的条件概率估计，并将结果记录。其输入是特征属性和训练样本，输出是分类器。这一阶段是机械性阶段，根据前面讨论的公式可以由程序自动计算完成。

应用阶段：
对每个类别计算p(X,Y|ci)
已p(X,Y|ci)最大项做为所属类别
第三阶段——应用阶段。这个阶段的任务是使用分类器对待分类项进行分类，其输入是分类器和待分类项，输出是待分类项与类别的映射关系。这一阶段也是机械性阶段，由程序完成。

另一个需要讨论的问题就是当P(a|y)=0怎么办，当某个类别下某个特征项划分没有出现时，就是产生这种现象，这会令分类器质量大大降低。为了解决这个问题，我们引入Laplace校准，它的思想非常简单，就是对没类别下所有划分的计数加1，这样如果训练样本集数量充分大时，并不会对结果产生影响，并且解决了上述频率为0的尴尬局面。

encoding:utf-8

from numpy import *

词表到向量的转换函数

def loadDataSet():
postingList = [[‘my’,’dog’,’has’,’flea’,’problems’,’help’,’please’],
[‘maybe’,’not’,’take’,’him’,’to’,’dog’,’park’,’stupid’],
[‘my’,’dalmation’,’is’,’so’,’cute’,’I’,’love’,’him’],
[‘stop’,’posting’,’stupid’,’worthless’,’garbage’],
[‘mr’,’licks’,’ate’,’my’,’steak’,’how’,’to’,’stop’,’him’],
[‘quit’,’buying’,’worthless’,’pig’,’food’,’stupid’]]
classVec = [0,1,0,1,0,1] #1,侮辱 0,正常
return postingList,classVec
def createVocabList(dataSet):
vocabSet = set([]) #调用set方法,创建一个空集
for document in dataSet:
vocabSet = vocabSet | set(document) #创建两个集合的并集
return list(vocabSet)
def setOfWords2Vec(vocabList,inputSet):
#print ‘vocabList:’,vocabList
#print ‘inputSet:’, inputSet
# 创建一个所含元素都为0的向量
returnVec = [0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] = 1
else:
print “the word:%s is not in my Vocabulary” % word
#print ‘inputSet:’, inputSet
#print ‘returnVec:’,returnVec
return returnVec
def bagOfWords2VecMN(vocabList,inputSet):
# 创建一个所含元素都为0的向量
returnVec = [0]*len(vocabList)
for word in inputSet:
if word in vocabList:
returnVec[vocabList.index(word)] += 1
return returnVec

朴素贝叶斯分类器训练集

trainMatrix 文档矩阵 trainCategory 每篇文档类别标签所构成的向量

def trainNB0(trainMatrix,trainCategory):
# 文档矩阵的长度
numTrainDocs = len(trainMatrix)
# 第一个文档的单词个数
numWords = len(trainMatrix[0])
# 任意文档属于侮辱性文档概率
pAbusive = sum(trainCategory)/float(numTrainDocs)
print ‘pAbusive:’, pAbusive
# 初始化两个矩阵，长度为numWords，内容值为0
#p0Num = zeros(numWords);
# p1Num = zeros(numWords)
# 初始化两个矩阵，长度为numWords，内容值为1 初始化为1 避免某个特征没有出现0
p0Num = ones(numWords);
p1Num = ones(numWords)
# 初始化概率
#p0Denom = 0.0;p1Denom = 0.0
# 初始化为2，避免某个词没有在全集中出现导致结果为0
p0Denom = 2.0;p1Denom = 2.0
for i in range(numTrainDocs):
if trainCategory[i]==1:
p1Num +=trainMatrix[i]
p1Denom += sum(trainMatrix[i])
else:
p0Num +=trainMatrix[i]
p0Denom += sum(trainMatrix[i])
#p1Vect = p1Num/p1Denom #对每个元素做除法
#p0Vect = p0Num/p0Denom
# print ‘p1Num:’,p1Num
# print ‘p1Denom:’, p1Denom
# print ‘p0Num:’, p0Num
# print ‘p0Denom:’, p0Denom
#取log是因为概率值都很小想乘后会更小，容易下益，且 f(x)和ln(f(x))曲线极为相似，ln(a*b)=ln(a)+ln(b)所以使用log代替乘法这样会使得计算结果更容易比较
p1Vect = log(p1Num/p1Denom)
p0Vect = log(p0Num/p0Denom)
return p0Vect,p1Vect,pAbusive

朴素贝叶斯分类函数

def classifyNB(vec2Classify,p0Vec,p1Vec,pClass1):
##因为前面为log 所以这里为sum
p1 = sum(vec2Classify * p1Vec) + log(pClass1) #元素相乘
p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)
if p1>p0:
return 1
else:
return 0
def start():
listOPosts,listClasses = loadDataSet() #产生文档矩阵和对应的标签
myVocabList = createVocabList(listOPosts) #创建并集
#print ‘myVocabList:’,myVocabList
trainMat = [] #创建一个空的列表
for postinDoc in listOPosts:
trainMat.append(setOfWords2Vec(myVocabList,postinDoc)) #使用词向量来填充trainMat列表
print ‘trainMat:’,trainMat
p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses)) #训练函数
# print ‘p0V’,p0V
# print ‘p1V’, p1V
# print ‘pAb’, pAb
testEntry = [‘love’,’my’,’dalmation’] #测试文档列表
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #声明矩阵
print testEntry,’classified as:’,classifyNB(thisDoc,p0V,p1V,pAb)
testEntry = [‘stupid’,’garbage’]
thisDoc = array(setOfWords2Vec(myVocabList,testEntry)) #声明矩阵
print testEntry,’classified as:’,classifyNB(thisDoc,p0V,p1V,pAb)
if name == ‘main‘:
start()
特征连续分布
标准差：
（1）计算平均值： (2 + 3 + 4 + 5+ 6 + 8)/6 = 30 /6 = 5
（2）计算方差：
(2 – 5)^2 = (-3)^2= 9
(3 – 5)^2 = (-2)^2= 4
(4 – 5)^2 = (-1)^2= 0
(5 – 5)^2 = 0^2= 0
(6 – 5)^2 = 1^2= 1
(8 – 5)^2 = 3^2= 9

（3）计算平均方差：
(9 + 4 + 0 + 0+ 1 + 9)/6 = 24/6 = 4

（4）计算标准差：
√4 = 2

正态分布的概率密度函数与x轴所围成的面积为1的证明：
设X服从标准正态分布,概率密度为f(x)=1/(√2π)e^(-x^2/2),x取任意实数
则∫f(x)dx,(积分下上限是负无穷和正无穷）,就是概率密度函数图像与x轴所围成的面积
根据概率密度的性质可得∫f(x)dx=1,(积分下上限是负无穷和正无穷）
∫f(x)dx=∫1/(√2π)e^(-x^2/2)dx (积分下上限是负无穷和正无穷）
直接积分不好积
假设Y也服从标准正态分布,且X,Y相互独立,则有
∫f(x)dx∫f(y)dy=∫∫f(x)f(y)dxdy,积分下上限是负无穷和正无穷
用x=√2u,y=√2v,代入上式可得
∫∫f(x)f(y)dxdy=∫∫1/πe^(-u^2-v^2)dudv=1/π∫dθ∫re^(-r^2)dr,前面的积分下上限是0和2π,后面的是0和正无穷
∫∫f(x)f(y)dxdy=∫∫1/πe^(-u^2-v^2)dudv=1/π∫dθ∫re^(-r^2)dr=1/ππ=1
因为∫f(x)dx=∫f(y)dy
所以可得∫f(x)dx=∫f(y)dy=1
所以
正态分布的概率密度函数与x轴所围成的面积为1
解毕

一般认为连续特征服从高斯分布（正态分布）：
http://blog.csdn.net/rns521/article/details/6953591

f(x)=1/σ√2π*exp(-(x-μ)^2/2σ^2)
其中μ为期望，即均值
σ为标准差
x为特征值

参考文档：
http://www.cnblogs.com/leoo2sk/archive/2010/09/17/1829190.html
http://www.cnblogs.com/maybe2030/p/4655338.html
http://blog.jobbole.com/88260/

阅读全文

0 0