机器学习实战-逻辑回归

来源：互联网发布：浙江大学软件学院面试编辑：程序博客网时间：2024/05/16 12:27
逻辑回归：1.非线性函数sigmoid最佳拟合参数 1/(1+e（-z）)
2.梯度上升、梯度下降、随机梯度上升、改进的逻辑梯度上升
#encoding:utf-8from numpy import *import math#数据下载与处理~打开文本，逐行读取，前两行对应值x1,x2，第三行对应类别标签。并且将x0都设为1.0def loadDataSet():    dataMat = []; labelMat = []    fr = open('testSet.txt')    for line in fr.readlines():        lineArr = line.strip().split()        dataMat.append([1.0, float(lineArr[0]), float(lineArr[1])])#将x0设为1.0        labelMat.append(int(lineArr[2]))    return dataMat,labelMat#sigmoid函数-阶跃函数-将值代入此函数，得到0~1之间的数值def sigmoid(inX):    return 1.0/(1+math.exp(-inX))#梯度上升算法~#输入：dataMatIn~2维数组~每列分别表示不同的特征（x0,x1,x2）~每行表示每个训练样本def gradAscent(dataMatIn, classLabels):    dataMatrix = mat(dataMatIn)             #转换为numpy矩阵类型    labelMat = mat(classLabels).transpose() #转换为numpy矩阵类型    m,n = shape(dataMatrix)    alpha = 0.001#向目标移动的步长    maxCycles = 500#迭代次数    weights = ones((n,1))    for k in range(maxCycles):              #heavy on matrix operations        h = sigmoid(dataMatrix*weights)     #matrix mult        error = (labelMat - h)              #计算真实类别与预测类别的差值，接下来按照差值方向来调整回归系数        weights = weights + alpha * dataMatrix.transpose()* error #回归系数计算    return weights#返回训练好的回归系数#画出决策边界def plotBestFit(weights):    import matplotlib.pyplot as plt    dataMat,labelMat=loadDataSet()    dataArr = array(dataMat)    n = shape(dataArr)[0]     xcord1 = []; ycord1 = []    xcord2 = []; ycord2 = []    for i in range(n):        if int(labelMat[i])== 1:            xcord1.append(dataArr[i,1]); ycord1.append(dataArr[i,2])        else:            xcord2.append(dataArr[i,1]); ycord2.append(dataArr[i,2])    fig = plt.figure()    ax = fig.add_subplot(111)    ax.scatter(xcord1, ycord1, s=30, c='red', marker='s')    ax.scatter(xcord2, ycord2, s=30, c='green')    x = arange(-3.0, 3.0, 0.1)    y = (-weights[0]-weights[1]*x)/weights[2]#最佳拟合直线    ax.plot(x, y)    plt.xlabel('X1'); plt.ylabel('X2');    plt.show()#随机梯度上升~~在梯度上升上略加修改def stocGradAscent0(dataMatrix, classLabels):    m,n = shape(dataMatrix)    alpha = 0.01    weights = ones(n)   #初始化为1    for i in range(m):        h = sigmoid(sum(dataMatrix[i]*weights))        error = classLabels[i] - h#h和error都是向量        weights = weights + alpha * error * dataMatrix[i]    return weights#改进的随机梯度上升def stocGradAscent1(dataMatrix, classLabels, numIter=150):#默认迭代次数50次    m,n = shape(dataMatrix)    weights = ones(n)   #initialize to all ones    for j in range(numIter):        dataIndex = range(m)        for i in range(m):            alpha = 4/(1.0+j+i)+0.0001    #每次迭代都调整alpha值            randIndex = int(random.uniform(0,len(dataIndex)))#随机选取样本更新回归系数            h = sigmoid(sum(dataMatrix[randIndex]*weights))            error = classLabels[randIndex] - h            weights = weights + alpha * error * dataMatrix[randIndex]            del(dataIndex[randIndex])    return weights#病马预测#逻辑回归分类函数#输入：特征向量、回归系数    返回：1,0def classifyVector(inX, weights):    prob = sigmoid(sum(inX*weights))    if prob > 0.5: return 1.0    else: return 0.0#打开测试集、训练集，进行格式化预处理def colicTest():    frTrain = open('horseColicTraining.txt'); frTest = open('horseColicTest.txt')    trainingSet = []; trainingLabels = []    for line in frTrain.readlines():        currLine = line.strip().split('\t')        lineArr =[]        for i in range(21):            lineArr.append(float(currLine[i]))        trainingSet.append(lineArr)        trainingLabels.append(float(currLine[21]))    trainWeights = stocGradAscent1(array(trainingSet), trainingLabels, 1000)    errorCount = 0; numTestVec = 0.0    for line in frTest.readlines():        numTestVec += 1.0        currLine = line.strip().split('\t')        lineArr =[]        for i in range(21):            lineArr.append(float(currLine[i]))        if int(classifyVector(array(lineArr), trainWeights))!= int(currLine[21]):#分类结果与测试集比较            errorCount += 1    errorRate = (float(errorCount)/numTestVec)    print "the error rate of this test is: %f" % errorRate    return errorRate#调用colictTest() 10次~并求结果平均值def multiTest():    numTests = 10; errorSum=0.0    for k in range(numTests):        errorSum += colicTest()    print "after %d iterations the average error rate is: %f" % (numTests, errorSum/float(numTests))
0 0