贝叶斯线性回归——推导及实现

来源：互联网发布：疯狂美工京东关联促销编辑：程序博客网时间：2024/06/05 04:40

推导
算法
代码

理论推导

贝叶斯推断

贝叶斯定理：通过观察到的数据D，把先验概率p(θ)转化为后验概率p(θ∣∣D)

p (θ ∣ ∣ D) = p ( D ∣ ∣ θ ) p ( θ ) \int p ( D ∣ ∣ θ ) p ( θ ) d θ = p ( D ∣ ∣ θ ) p ( θ ) p ( D )

显然，分母是一个归一化常数，用来确保右侧的后验概率分布是一个合理的概率密度。故有

p(θ∣∣D)∝p(D∣∣θ)p(θ) 即后验

∝ 似然

×先验。

贝叶斯线性回归

问题是这样的，不能够一次性接收到整个数据集，而是不断接收到小的数据集Di,i=1,2,...,n，同时由于存储的限制不能存储已经接收到的所有数据集,每次可以处理的数据仅为Di。这就导致不能对所有数据做线性回归，但是可以通过贝叶斯线性回归达到同样的效果。

第 i 个数据集 Di 中有 m 个训练样本，构成 (X(i),y(i))

p (y (i) ∣ ∣ X (i), θ) = N (y (i); X (i) θ, I) \propto e x p (- 1 2 (y (i) - X (i) θ) T (y (i) - X (i) θ))

为了确定模型参数向量

θ 的后验分布
假设其先验分布

p (θ) = N (θ; μ 0, Λ 0) \propto e x p (- 1 2 (θ - μ 0) T Λ - 1 0 (θ - μ 0))

其中

μ0,Λ0 分别是先验分布的均值向量和协方差矩阵。通过贝叶斯回归得到的目标为

θ 的期望。
模型参数的后验分布：

p (θ ∣ ∣ X (i), y (i)) \propto p (y (i) ∣ ∣ X (i), θ) p (θ) \propto e x p (- 1 2 (y (i) - X (i) θ) T (y (i) - X (i) θ)) e x p (- 1 2 (θ - μ 0) T Λ - 1 0 (θ - μ 0)) \propto e x p (- 1 2 (- 2 y (i) T X (i) θ + θ T X (i) T X (i) θ + θ T Λ - 1 0 θ - 2 μ T 0 Λ - 1 0 θ))

Λ i = (X (i) T X (i) + Λ - 1 0) - 1, μ i = Λ i (X (i) T y (i) + Λ - 1 0 μ 0)

p (θ ∣ ∣ X (i), y (i)) \propto e x p (- 1 2 (θ - μ i) T Λ - 1 i (θ - μ i))

缺点：

1 参数先验分布的不同假设形式，可能会带来计算上的不便。
2 参数先验分布的假设有偏，对于小数据会有较大的影响。

解决方法：

1 参数的先验分布假设为数据分布假设的共轭先验
共轭先验：对于一个给定的概率分布p(x∣∣w),能够寻找一个先验 p(w) 能够与似然函数共轭，从而后验分布的函数形式与先验分布相同。

B e r n (x ∣ ∣ μ) = μ x (1 - μ) 1 - x B e t a (μ ∣ ∣ a, b) = Γ ( a + b ) Γ ( a ) Γ ( b ) μ a - 1 (1 - μ) b - 1

N (x ∣ ∣ m, Λ) N (m ∣ ∣ μ, Λ') W (Λ ∣ ∣ W, v) = 1 2 π | Λ | e x p (- 1 2 (x - m) T Λ - 1 (x - m)) = 1 2 π | Λ ' | e x p (- 1 2 (m - μ) T Λ' - 1 (m - μ)) = B | Λ | v - D - 1 2 e x p (- 1 2 T r (W - 1 Λ))

2 合理初始化，迭代求解
对于接收到的第1个数据集有：

Λ 1 = (X (1) T X (1) + Λ - 1 0) - 1, μ 1 = Λ 1 (X (1) T y (1) + Λ - 1 0 μ 0)

p (θ ∣ ∣ X (1), y (1)) \propto e x p (- 1 2 (θ - μ 1) T Λ - 1 1 (θ - μ 1))

这里根据极大似然估计得到的解

θ=(X(1)TX(1))−1X(1)Ty(1)，所以假设

Λ−10=O, 此时极大似然的解和贝叶斯回归的参数期望一致。

对于接收到的第i 个数据集Di (i>1)，将第i−1 个数据集计算得到的参数后验作为先验，不断迭代。

Λ i = (X (i) T X (i) + Λ - 1 i - 1) - 1, μ i = Λ i (X (i) T y (i) + Λ - 1 i - 1 μ i - 1)

p (θ ∣ ∣ X (i), y (i)) \propto e x p (- 1 2 (θ - μ i) T Λ - 1 i (θ - μ i))

具体算法

输入：D1,D2,D3,...,Dn 其中 Di=(X(i),y(i))
输出： μn
初始化

Λ 1 = (X (1) T X (1)) - 1 μ 1 = Λ 1 (X (1) T y (1)) i + = 1

while

i<=n

Λ i = (X (i) T X (i) + Λ - 1 i - 1) - 1 μ i = Λ i (X (i) T y (i) + Λ - 1 i - 1 μ i - 1) i + = 1

代码

def BayesLR(path):    la=10    mu=np.mat(np.zeros(3)).T    gama=np.mat(np.eye(3)*la)    for i in range(n):        fileName = path + "%d.csv" % i        x0,y0 = loadDataFromFile(fileName)#从文件中加载数据        X, y = data2Mat(x0,y0)#将数据转换成np.mat的格式        mu0 = mu        gama0 = gama        if i==1:            gama = (X.T*X).I            mu = gama*(X.T*y)        else:            gama = (X.T*X+gama0.I).I            mu = gama*(X.T*y+gama0.I*mu0)    return np.array(mu)

阅读全文

0 0