机器学习常用算法

来源:互联网 发布:焦作优易网络 编辑:程序博客网 时间:2024/06/05 16:39

机器学习的分类:
1、有监督的机器学习:预测、分类——有Y这一列——lable标签
2、无监督的机器学习:没有Y这一列(聚类)

机器学习:分类预测(线性回归算法)、聚类(K-means算法)、推荐

机器学习的核心思想:迭代计算,设置Threshold(阈值)求到最优解,简而言之就是做大量的尝试和测试(试)

Native—Bayes 算法:
贝叶斯分类器一种算法,适合做文本的分类,判定垃圾邮件之类等等
思维:一封邮件进入服务器,由服务器对邮件进行分词,把每一个词代入,在服务器端构建一个频率表,求它是垃圾邮件的概率

在Native-bayes算法中,如果需要计算多个特征的时候:假设他们的概率都是相互独立的,分别求出概率,似然之间的比例求出概率

拉普拉斯估计
频率表中的每个计数加上一个较小的数,保证每一个类中的每一个特征发生的概率非零

Apriori算法:一个频繁项集的所有子集都必须为频繁的子集
同时,在使用之前先排除所有的完全不相关关联规则
支持度support=x出现的次数/N(总数—订单)、一个项级在数据中出现的频率
置信度(带方向)=同时出现的支持度/被指向的物品的支持度
设置Threshold,大于则认定为强关联
迭代评估1项集,与Threshold比较,留下的进行迭代2,置信度与Threshold比较,直到没有产生新的项集

聚类:给事物打标签,寻找同一组内的个体之间的一些潜在的相似模式(代表性算法:K-means)

K-means : K代表聚几类(事先设置)
原理:随机找三点,作为中心点,利用距离来分配和更新类,求平均点,然后迭代式的归堆,离谁近,归到哪里,直到这一次的平均值跟上一次的平均值相同(收敛)
N次聚类,N种结果
选择适当的聚类数:肘部法,随着K值的增大,Error会越来越小
理想状态:
Error最小:所有的点都落在中心点上,就没有误差
Error最大:只分成一类

0 0
原创粉丝点击