机器学习笔记(一)

来源:互联网 发布:ubuntu怎么连接服务器 编辑:程序博客网 时间:2024/05/22 16:44

总结自 《机器学习》 周志华

基本术语:
数据:类似日常生活中的经验,记录关于一个事件或对象的描述
属性或特征:反映事件或对象在某方面的表现或性质的事项,eg:颜色、根蒂
属性值:属性上的取值,eg:乌黑、青绿
属性空间(样本空间、输入空间):属性构成的空间,eg:用颜色、根蒂构成一个关于西瓜的二维空间系,可以粗略的描述每一个西瓜。
模型:泛指从数据中学得的结果
学习或训练:从数据中产生模型的过程
训练数据:训练过程中使用的数据
学习算法:从数据中产生模型的算法
样本:包含属性的具体事例
示例:训练过程中使用的样本
标记:关于示例结果的信息
样例:拥有标记信息的示例
测试:学得模型后对样本进行预测的过程
分类:预测的是离散值(需要标记信息)
回归:预测的是连续值(需要标记信息)
聚类:将训练集中的对象自动分成若干组(聚类前不知道标记信息)
监督学习:训练数据有标记信息
无监督学习:训练数据无标记信息
版本空间:满足训练集测试的“假设”的集合
归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好
NFT定理(没有免费的午餐 no free lunch theorem):在所有问题同等重要时,学习算法的误差期望都是相同的
NFT定理的意义:脱离具体问题讨论学习算法的优劣是没有意义的,只有在针对具体问题时学习算法才能体现出差异

原创粉丝点击