机器学习算法逻辑回归（LR）的学习与应用（疾病问诊）

来源：互联网发布：网络咨询医生平均收入编辑：程序博客网时间：2024/05/01 16:20

实验目的

逻辑回归(Logistic Regression, LR)模型其实仅在线性回归的基础上，套用了一个逻辑函数，但也就由于这个逻辑函数，使得逻辑回归模型成为了机器学习领域一颗耀眼的明星，更是计算广告学的核心。单纯的使用线性回归去对数据进行分类，系统的鲁棒性很差，所以一般会对线性回归的结果做一个逻辑函数的映射，在这里，逻辑函数为sigmoid函数，函数模型为S形：

实验介绍

语言： Python

GitHub地址：luuuyi/logistic_regression

实验步骤

1）原理介绍

回归是一种极易理解的模型，就相当于y=f(x)，表明自变量x与因变量y的关系。最常见问题有如医生治病时的望、闻、问、切，之后判定病人是否生病或生了什么病，其中的望闻问切就是获取自变量x，即特征数据，判断是否生病就相当于获取因变量y，即预测分类。

但是对于一个单纯的线性模型，分类效果受数据集噪点的影响，分类表现不会特别突出，但是通过增加一个结果对于逻辑函数的映射，在辅与优化方法，能够很好地对训练数据集进行收敛训练，最终得到一个依托于训练数据集求出的最完美的参数集合。

具体介绍可以百度或者参考以下两篇博文：

逻辑回归

逻辑回归模型基础

2）简单实现

①梯度上升方法

照惯例，先简单实现以下LR的核心代码：

def sigmoid(in_datas):    return 1.0/(1.0+exp(-in_datas))def gradientAscent(datas,labels):    datas_mat = mat(datas)    labels_mat = mat(labels).transpose()    h, w = shape(datas_mat)    alpha = 0.001    max_iter = 500    weights = ones((w,1))    for i in range(max_iter):        res = sigmoid(datas_mat*weights)        errors = (labels_mat - res)        weights = weights + alpha*datas_mat.transpose()*errors          #梯度上升变形，朝着标准标签的方向缓慢移动    return weights

第一个是逻辑函数，也就是sigmoid函数的实现；第二个是梯度上升的训练方法，对于数据集，与初始的模型参数做线性运算之后将结果通过sigmoid函数映射到（0,1）区间，对于一个简单的二分类问题，正样本为1，负样本为0，当结果处于（0,1）区间范围内时，可以通过结果与端点的差值，反向调整权值数据，最终目的是缩小这一差值，达到收敛，这里使用的是梯度上升的方法去迭代500次计算，学习率为0.001，之后对模型进行可视化表现：

可以看出分类还是比较准确的，只有两个数据被错误分类。

②随机梯度上升

但是这其实是对于整个数据集进行划分，每一次迭代的时候都读入了所有的数据集进行计算，当样本量和特征维度特别大的时候计算耗时特别久，虽然能得出很好的结果，但是开销太大。现在介绍一个随机梯度上升的优化方法；系统每一次在数据集中随机选择一条数据进行训练，训练次数为样本总数：

def randomGradientAscent(datas,labels):    datas_arr = array(datas)            #array和matrix有区别    h, w = shape(datas_arr)    alpha = 0.01    weights = ones(w)                   #一维矩阵    for i in range(h):        res = sigmoid(sum(datas_arr[i]*weights))        errors = labels[i] - res        weights = weights + alpha*errors*datas_arr[i]    return weights

对结果可视化看一下：

可以看出训练效果并没有上一个那么理想，但这其实并不能说明什么，上一个参数值是通过了500次迭代，每一次都是对整个训练样本数据集进行计算的结果，计算量之间没有可比性，结果也没有代表意义。

③改进的随机梯度上升

但是随机梯度上升方法一个好处就是，训练系统对于数据集，无论有多少样本，或者是样本的特征维度有多大，都有很好的计算优势，因为每一次只用读取一条数据进行训练，对于之后新采集到的样本也能加入其中。基于这个基础，我们改进了一下该方法：

def advancedRandomGradientAscent(datas,labels,iter_nums=150):    import random    datas_arr = array(datas)               h, w = shape(datas_arr)    weights = ones(w)                      for i in range(iter_nums):        indexs = range(h)        for j in range(h):            alpha = 4/(1.0+j+i)+0.01            random_index = int(random.uniform(0,len(indexs)))            res = sigmoid(sum(datas_arr[random_index]*weights))            errors = labels[random_index] - res            weights = weights + alpha*errors*datas_arr[random_index]            del(indexs[random_index])    return weights

大体上和上一个函数差不多，不同点在于首先在学习率上，将不再使用一个固定的值，通俗点来说体现在与随着迭代次数的增加，权值向着标准位置偏移的步幅变缓，能这样理解，经过多次迭代之后，其实系统的分类能力已经趋于稳定，当前训练的权值相对于标准的权值来说已经无限接近了，步幅太大会导致权值在标准权值左右大幅振动，可能带来误差，为了能够得到一个很好的收敛效果，可以适当降低学习率。

来看一下分类效果的可视化结果：

可以看出改进的随机梯度上升方法，在迭代次数为150次的时候其实效果已经比较理想了，但是与第一个500次迭代的结果还是有一点点差距。

当将迭代次数改为500次和1000次之后又会发生什么样的变化：

500次：

1000次：

其实效果上倒是没有多大的改进了，不过在一些临界数据的分类上会更加的细致，由此能看出到模型趋于稳定的情况下，单纯提高迭代次数对于模型的优化改进已经不是特别明显了；对于数据集中的一些噪点干扰，LR回归模型还是不能做到绝对的线性可分；

3）场景应用

这里使用了一份网上的数据，为马匹疝病的诊断数据，将其一分为二，一部分为训练数据，一部分为测试数据，原数据中每一行（每一条数据）有21个特征，最后的0,1标签代表是否致死，通过对训练数据的迭代训练，我们构建一个简单的分类模型，进而使用模型对测试集进行模型误差分析。

def colicTest():    fd_train = open('horseColicTraining.txt')    fd_test = open('horseColicTest.txt')    train_datas=[]; train_labels=[]    for line in fd_train.readlines():        line_data_list = line.strip().split('\t')        tmp_list=[]        for i in range(21):            tmp_list.append(float(line_data_list[i]))        train_datas.append(tmp_list)        train_labels.append(float(line_data_list[21]))    weights = advancedRandomGradientAscent(train_datas,train_labels,500)    error_count = 0; total_size = 0.0    for line in fd_test.readlines():        total_size += 1.0        line_data_list = line.strip().split('\t')        test_data = []        for i in range(21):            test_data.append(float(line_data_list[i]))        if int(classifyResult(array(test_data),weights)) != int(line_data_list[21]):            error_count += 1    error_rate = float(error_count)/total_size    print "The Error Ratio is: %f" % error_rate    return error_rate

通过对前面介绍的几个函数集合整理，得到上面这个分析函数，最终的输出结果为：

上面的警告为浮点数位数计算溢出了，解决方法可以使用Python pip安装一个叫做bigfloat的包，在安装之前还要给系统先配置一个什么环境，反正是一个C++的库，有兴趣可以去看一下；

结果为38%，看起来好像很糟糕，但其实不然，这份数据其实是通过一个残缺的数据集修复得到的，关于数据集的修复，网上还有学术界有大量的研讨资料，这里使用的方法是残缺数据补0的做法，因为补0并不会对回归的权值更新带来额外的问题，回顾一下这条代码：

weights = weights + alpha*errors*datas_arr[random_index]

在做权值更新的时候，某一条数据的某一维特征假如说因为残缺补全为0，那么在这一维的梯度上升计算中，他结果为0，也就是该数据的该特征对于权值的更新没有贡献，它不影响权值的结果，这是一个比较折中同时也比较保守的方法，因为对于最终结果是没有贡献的。

最后，博主最近开始学习机器学习，希望结识更多的有识之士一起探讨交流，下一章研究SVM。

0 0