Course学习之旅--UW的Machine Learning Foundations: A Case Study Approach--Lesson 2,3,4,5

来源:互联网 发布:js 提示允许加载flash 编辑:程序博客网 时间:2024/05/20 06:55

一口气看了4课,用2X的速度,没办法,内容太简单了,纯入门级别,第一课里提到的那么多模型和概念在哪里 !_! 。还是对里面的内容做个简略介绍吧。

Lesson 2:Regression: predicting House Prices

本节讲的case为预测房价。问题:给定房子的一组属性值,要求预测售价。几个要点如下:

1. 预测效果评价:经典的RSS,残差,1/2sum{(y'-y)^2}

2. 训练集与测试集:将样本分为两块,一部分用于训练和调参,一部分用于评测

3. Overfitting:当模型过于复杂时,会将数据中的噪音也进行拟合,从而产生过拟合现象。这可通过模型在训练集上和测试集上效果差异来差别,差异大为过拟合。过拟合的解决办法为增加数据,或减少特征,或增加正则化项,如L1、L2正则项。

4. 线性模型:y=w_0+w_1*x_1+w_2*x_2+..+w_n*x_n

5. 回归问题:预测一个连续值


Lesson3:Analyzing Sentiment

本节讲的case为语义分析。问题:给定一个文档(评论),要求判断是积极的还是消极的。这是一个分类问题。

1. 特征集合:文档中的词分布

2. 特征值修正:TF-IDF。TF: Term-Frequency,一个词在当前文档中的出现频次,表明了该词在该文档中的重要性; IDF: Inverse Document Frequency,计算公式为log(#all documents/(1+#documents having this word)),衡量了一个词在所有文档中的稀有程度,如果一个词在所有文档中都出现了,说明这个词是个普适的词,对文档的话题性并无判别作用,如“的”“这”等。TF*IDF则能兼顾词在本文档中的出现频次以及该词在所有文档中的重要程度来确定该词在本文档中的重要程度。

3. 线性模型:仍将之前的线性模型引入进来,如果y>0则认为是正向的,<0则是负向的。为将结果转化为概率形式,以表明对该预测结果的可信程度,引入sigmod函数做转换。


Lesson4: Clustering and Similarity: Retrieving Documents

#TODO


Lesson5: Recommending Products

#TODO

0 0