机器学习之-逻辑回归-具体怎么实现及应用

来源:互联网 发布:can网络数据帧 编辑:程序博客网 时间:2024/05/29 05:08

1、logistic回归的优缺点及适用数据类型:

优点:计算代价不高,易于理解和实现。

缺点:容易欠拟合,分类精度可能不高。

适用数据类型:数值型和标称型数据。

2、如何实现logistic回归分类器:

在每个特征上都乘以一个回归系数,然后把所有的结果值相加,将这个总和代入sigmoid函数中,进而得到一个范围在0~1之间的数值,所要做的工作主要是确定最佳回归系数是多少,如何确定它们的大小。

3、基于最优化方法的最佳回归系数确定:

a)了解梯度上升法。

b)训练算法:使用梯度上升找到最佳参数。

b-2)训练算法:随机梯度上升。

4、使用logistic回归估计马疝病的死亡率:

a)准备数据:处理数据中的缺失值-①使用可用特征的均值来填补缺失值。②使用特殊值来填补缺失值如-1.③忽略有缺失值的样本。④使用相似样本的均值添补缺失值。⑤使用另外的机器学习算法预测缺失值。一般把缺失值设置为0比较好,因为这样不会影响权重因子,并且sigmoid(0)=0.5

表示它对结果的预测不具有任何倾向性。

b)测试算法:用logistic回归进行分类:其中有这么一段代码:h = sigmoid(data_mat * weights);   err = (label_mat - h);   weights = weights + alpha * data_mat.transpose() * err;这段代码就是用来更新weight的,其中梯度那里是http://blog.csdn.net/whai362/article/details/51860379   这么求得的。

0 0
原创粉丝点击