计算机--机器学习---机器learning技法sum

来源：互联网发布：python怎么取最大编辑：程序博客网时间：2024/05/01 10:29

-------------

lecture 1: linear SVM:

1. 对于large margin 的理解，利用相关的参数，来简化对应的文章分析，使得算法，可以很快地进行推进。---Model建模的过程，简化分析的函数相关值，如何利用数学知识，来一步步解决问题，都是需要思考的。

2.适当地添加一些数学表达式，来优化对应的模型，比如添加yn不影响最后的结果，但是，可以很大程度上，优化模型的复杂度这种情况。

3化简公式的时候，适当地拆解对应的表达式w来优化分析，这点要注意体会。比如对应的距离表达，是合理地利用dot product来优化分析解决的。minium变成对应的大于等于，都是非常关键常见的。

4.有的时候，对于公式的表达，可以加入一些特别的解，常数，example代入，然后，得到对应的数值，加深对应的理解，比如对应的linear algebra里面涉及的东西。都是非常的重要。

5.课程再设计讲解的时候，逻辑性很强，介绍模型，structure, why?---theory gaurantee ---performance----notice atttention---thinking thoughts more to get for purpose.

6,前后知识的联系，非常非常的关键，比如对应的svm regulization都涉及了对参数范围，取值大小的限制，这些都有所体现，要多看下，联想前后的知识，来进行联系。-----实际上，在前后的运用中，都可以看到对应的参数，范围限制，和思维的逻辑，都存在有一定的关联，这种关联，都会形成对应的解题过程分析。------其中的数学模型，原理，要深深地进行体会分析。

7. fewer dichotomies =) smaller ‘VC dim.’ =) better generalization----这个是关键，看下，如何进行实现的，从本质上，更多的地方，来理解对应的函数过程。

8.fewer dichotomies =) smaller ‘VC dim.’
considers dVC(A) [data-dependent, need more than VC]
instead of dVC(H) [data-independent, covered by VC]---这就是更深的理解，不是说你测出来的performance好，就用对应的模型，而是，进一步分析，看到对应的model , vc dimension这些参数，可以实现很好的模型优化，这样的话

lecture 2 dual svm:

1.第一步化简的时候，引入拉格朗日函数，然后进行对应空间的解释降解，来进一步实现对应的参数可解范围。

2.KKTcondition 条件收敛，前后函数方程联系，其实是和对应的 regulization参数是一致的，可以辅助记忆分析，这点可以进行关注。

3.矩阵公式展开的时候，利用对应的展开空间，将坐标进行合理的表达展开，来运用分析，使得整体的函数，可以有效地可控。

4.后面的章节里面，涉及到了optimal (b,k)这个部分，介绍的就是如何从a中来简化对应的b,w但是，仍然保证了对应的fat boundray这点非常的关键，如何利用对应的理论模型，来优化自己的求解，并且，在理论上，保证自己是可以解的，这些都显得非常的重要。-----随时思考这个部分到底在讲什么，有什么对应的物理意义相关，并且，进一步分析，可以得到对应的相关空间展开解。-----强化对函数化简，你要做的事情的理解，随时思考，就像老板讲过的physical meaning如何消化理解。

5.在后面的一个问题problem中，我们看到求解optimal b但是，没有提及KKT condition就需要自己对题意进行加工，并且，形成对应的理解，来做到相应的解空间，一定要活学活用，展开对应的知识，来进行相关的分析。

6.在后面的表达式子中，自己又看到了对应的linear combination of xnyn这种表达式，这个就很关键了。--前后知识的联系，对于wn都是对于xn, yn的线性组合，这样才可以形成对应的驱动相关。w ‘represented’ by data

7.进行转化之后，实现的目标是no dependence on ~d?---这句话要注意理解背后的物理意义，这个就是对应的physical meaning的优化降解理解，我做数学化简的目的到底是什么，而这背后的东西，到底是什么。

8.# SVs  # SV candidates  N:--几个参变量的关系，有所不同，注意体会。

lecture kernel trick:

1. 在看第三遍对应的PPT时候，进一步理解对应的Kernel所表达的含义意味着什么，这些都是非常必须的，

2.在后面的kernel  trick说明里面，又进一步讲到了：kernel trick: plug in efficient kernel functionto avoid dependence on ~这个就是对这个工具的更深一层次的理解。

3.kernel SVM:use computational shortcut to avoid ~d & predict with SV only---理解英文背后的含义。

4.gaussian kernel进行无穷级数展开，涉及的就是对应的空间向量变化，注意体会其中的变化值分析。

5.gaussian kernel的运用分析，利用对应的空间解，进行降解分析，进一步，我们可以看到：linear combination of Gaussians centered at SVs xn also called Radial Basis Function (RBF) kernel这些，就是对RBF的更近一层的理解，

6. Gaussian SVM:find n to combine Gaussians centered at xn& achieve large margin in infinite-dim. space----高斯分布的特点，不仅仅是在对应的空间distribution在这里面，我们可以进一步看到，是对其中的无穷级数展开，形成对应的large margin解函数构成的，这样的话，更进一步，我们可以看到更多的空间解形成。

7。对比几个kernel形成自己的理解，关于学习方法的提升，如何有效地利用对应的Kernel来优化我所提出的模型，并且，进一步进行求解分析。

8.在最后的时候，介绍到了对应的

kernel represents special similarity---和NG部分的讲述联系在一起，就联系在了一起。

based on the previous lecture shortcomings, we can develop next points and improvements about the kernel and margin to modify it. Thus, we can get the next lecture----soft margin engine for the search space. -when thinking about this method, we can first recall the pocket technique and then we develop to combine the two methods for future development .

6.在后面的章节里面，注意知识的相互贯穿，带有kernel的SVM该如何进行理解，这个就显得非常的重要了，注意进行相关的体会，这一行，可以融会贯通，更好地进行文章的理解。

next lecture：

1. kernel trick所用到的工具，是作为的中间手段，来优化解决对应的模型相关值，而不是简单地一种SVM模型，这点自己要注意进行体会，更多的，涉及到的是，相关的改变变量所涉及的维度，或者，利用NG的说法，涉及到的是，similarity的判断求解分析。

2. SVM 和 regulization中涉及到的相关变量处理，在Ein中互为优化进行处理转变呢，注意体会对应的变化分析，并且，这样的函数变化，都在MIn最后希望求的函数中，进行对应的收敛判断分析，会不会，着眼点不同就产生了不同的结果，或者idea的产生之初，就是在于看到某种模型的缺陷，转移关注点在收敛的空间解上面，这样就可以收敛对应的函数模型。

3. Kernel Logistic Regression 介绍的就是两种模型，如何进行有效地融合，而不仅仅是只是利用之前学到的一种单一模型，而是，多维度，多方法的糅合分析运用，这样可以更好地优化对应的求解空间值。

lecture support vector regression:

1.利用Kernel ridge regression来优化对应的空间解函数，可以更好地优化对应的求解空间。---时刻提醒自己，到底在做什么样的事情，这些函数方法。

hw  1 solve :

1.在求解一个新的Problem 利用langrage 的时候，注意构造的方式方法。

2.完成q7时候，突然想到，所有的优化，梯度，都是基于min，意思就是有了一个求min的需求，然后，求梯度，认为可以得到极值，但是，问题来了，如何保证自己所求的就是极小值，不是极大值。----注意思考。二阶导数，来观察分析，但是问题来了。如何有效地降解对应的二阶导数。

3.作业Q10里面，求R的时候，是有所不同的，利用的是对应的kkt condition来确定R，因为之前对R求导，得到的是一个其他函数的的常数项，那么我们在后面求解的时候，就需要对相关的函数，进行重新代入等式，利用条件进行求解。

4.q12,q13判断的时候，抓住对应的性质，symmetric and positive definitive

-----Q13不太会：假设K是二维的，将每个选项带入计算，只有一个结果矩阵是半正定的。

QQ14：多从概念上进行相关的理解分析，核函数的作用到底是什么，有什么对应的优势可以用来解。---核函数的值跟w负相关，当核函数放大p倍，w则缩小p倍。而objective还是原来的最优解则C也要缩小p倍。---自己在推理的时候，也是如此分析，K,C进行了改变，而最后生成的值要相同，这样的话，就必然需要我们对问题，进行重叠分析，K影响了左端的结构，那么C进行右部分调解，使得函数可以进行降解。

lecture from combining the models.--lecture name:blending and bagging

1. 分析讲解的思路从linear---optional condition---然后再是bagging---bootstrap（利用resample里面，可以放回，来实现，不同的data生成，保证hypothesis 的randomness 特性，进一步的话，可以展开得到更多更好的数据。）-----贯穿的思想到底是什么，要注意进行体会，其中的原理这些，都需要进行体会。---平均的优化，分析。

lecture:adaptive boosting:

1. 先是引入例子，介绍对应的空间几何解，然后代入对应的un来优化对应的解函数空间，其中非常关键的是，再引入Un之后，引入了scaling error来优化对应的模型空间---physical meaning 非常重要，帮助我们更好地理解对应的公式意义，到底在做什么，这点需要体会，我们做这样的操作，到底是为了什么，有什么样的几何意义，小于1/2的物理意义下，我们又如何进行对应的优化。---scaling-up incorrect examplesleads to diverse hypotheses这样的分析构造，很有体会。

1.在最后形成的adapboosting里面，会根据对应的参数环境，来不断地进行迭代优化，比如对应的空间ut.at这些， Adaptive Boosting =weak base learning algorithm A (Student)+ optimal re-weighting factor t (Teacher)+ ‘magic’ linear aggregation t (Class)最后求解的这些元素，都是高度拟合之前讲到的例子，这些都需要引起注意，十分地相关。

2.看过程实现的时候，进一步体会对应的adaptive boosting所对应的含义类型，这些就作为基础，形成了方法的过程，产生error--_调整algorithm不断地合成，并且，其中生成对应algorthim的weight来优化对应的模型实现，保证一个不差的performance.

3. boosting view of AdaBoost:if A is weak but always slightly better than random (t   < 12 ),then (AdaBoost+A) can be strong (Ein = 0 and Eout small)---更多的总结，理解对应的函数空间。

3. AdaBoost-Stump:efficient feature selection and aggregationHsuan-

lecture decision tree:

1.decision tree: a traditional learning model thatrealizes conditional aggregation

2.dt 的 recursive 结构，务必关注，学会如何简单有效地构造我们所需要的数据结构，也是非常的关键。

3.引入 Classification and Regression Tree (C&RT)---来分析

4.crt里面，利用更加simple的choices比如对应的C&RT: bi-branching by purifying---two classifications.选择对应的argmin来运用分析。---其中涉及了impurity的定义分析，联想AI课程学习到的cross entropy计算，也是会计算对应的impurity， 也就是对应的error measure来衡量选择对应最小的，知识相互穿起来，融会贯通。

5.看到fully grow就应该想到对应的函数方程式可能为overfitting---在设计对应的算法，机器学习模型的时候，如何有效地规避对应的空间函数，可能出现问题的地方，前瞻性地进行预测，这些都显得非常的关键。

6.Missing Features--在PPT中被指出来了，这点要注意，每个模型都有每个模型缺陷的地方，这些都是我们应该关注的重点。学习的时候，要举一反三，对应的问题在哪里，都需要很清楚地知道，并且可以有效地学会分析。

lecture random forest:

1. data randomness for diversity in baggingrandomly sample N0 examples from Danother possibility for diversity:randomly sample d0 features from x 引入新的random方式，要学会扩展，思考，别人是怎么想到这个方法，你为什么没有想到，会给你带来什么样的启示，我们应该如何做，这些都是关注的重点。

2. random feature的提取，利用多种行列式的赋值定义，来求解优化，实现问题的降解。

3.第三章的题目名字取得特别好，Feature Expansion---体会，利用projection产生randomness!!!-数学的运用，联想线性代数。

20170117:permutation test的作用在于利用对应的x进行替换入手，求解出对应的解。

1.RF feature selection via permutation + OOB:often efficient and promising in practice 对应的函数解，到底在做什么，这些需要思考清楚。

2.从题目中看出来，对应的PERMUTATINO TEST是在数据进行测试运用的时候，利用对应的数据结构讲解，来完成相关的替换动作，从而实现对应的求解，并且，进一步实现数据的判断分析，VALIDATION验证。

lecture 11： gradient boosted decision tree:

1. adaboost  tree:利用对应的weight来添加对应的元素，形成全生长树的特点，比如对应的树的生长，对应所处的voting 这种，在数据都有所体现。

2.AdaBoost-DTree: often viaAdaBoost + sampling / u(t) + DTree(~Dt )without modifying DTree--几个成分之间，进行相应的叠加，比如对应的

3，任何一个参数，在取值的时候，其实，所对应的物理意义，都是可以解释化的，这点要注意体会，每一个参数，对应的物理意义，都会尽可能地进行解释化分析，从而实现更好的展开效果。

4。前后的知识，在越来越紧密地联系在一起，这样的话，可以更好地连接对应的相关元素。

5.AdaBoost: steepest descent with approximate functional gradient实际运用中的变化情况，在进行公式化简的时候，可以看到对应的参数在一定的范围内，有对应的求解相互照应相关。

6.通过近似化简，我们得到，最后要regression 收敛的函数，是对residual 的xn 线性近似逼近，这样的话，就可以解开的对应的计算分析问题。

7.求解问题的过程，就是一个不断化简的过程，如何利用有效的数学知识，来化简我们的求解问题，都是需要进行考虑的因素，这些都非常的关键----联想师姐说过的，我们先定义问题，然后，就是求解问题，这些都是需要进行考虑的。

8.泰勒展开分析： $\sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}$ ---基本公式熟悉，在后面的公式中，依然会运用到。

9.aggregation feature transform regulization

10.GBDT 重看了视频，才理解了对应的算法核心，一定要注意学习的效率方式，有效地在一定的时间内，形成对应知识的积累，这点非常的关键!!!一定要注意。

开始做Hw2：

1对于Q2，发现yn^2=pn???这样代入答案才正确，待确认。

2.Q3求kernel ridge regression size的时候，需要注意对应的公式记忆清楚，= (I + K)

后面的Lecture介绍了对应的nn,deep learning 针对的东西需要注意。

rbf kerNel 和之前的gaussian svm会高度相关，并且有效地利用对应的公式解，进行一步步推导，来实现对应的函数空间解。

2.rugulization的方式，多种多样，需要注意对应的优化情形。

3.Kmeans 里面进行相互迭代的优化分析，这样来降解对应的最优化问题。

4.rbf + k means多个进行融合。

lecture 15 matrix factorization:

1. 在RATING 里面，涉及的东西是利用对应的rating， id来进行推荐相关，但是，在具体的运用里面，我们可以看到，---categorical features 要学会转换成对应的numerical features来转化降解分析。 ----联想之前看到的expert system就是利用binary coding的表示，

2. Linear network里面，利用对应的矩阵相乘相关来进行对应的表达分析，进一步进行对应的实现 。

3.在这个RECOMMENDATION SYSTEM里面，我们需要的是建立对应的

4. similar modeling can be used forother abstract features---这种运用的场景分析，注意看到对应的VN,UN的变化分析。针对ABSTRACT FEATURES进行求解分析，然而，自己在看到对应的分析思路里面，将RATING and moview拆解成两个部分，然后，进行求解，这样的思考，还是非常引人注意。

5.与Linear Autoencoder进行对比，看在具体的环境里面，有什么对应的差异和不同。

5.其实在对应的解空间可以看到，Matrix Factorization有一定的特点，比如对应的hidden value/label这些都是在之前没有遇到过的，注意进行体会，有一定的变化。

6.SGD: perhaps most popular large-scalematrix factorization algorithm---指的是在实际中，可以运用对应的解函数空间，进行运用分析，并且，有效地进行实现。

7.在真正比赛运用的时候，一般不会仅仅专注于对应的产生分析函数，而是，从更多的角度，进行解释分析，比如对应的sgd里面，我们会设置一定的强调成分，这些东西，可以加深对应的理解运用分析。

8.extraction models: feature transform  as hidden variablesin addition to linear model---总结。

Q3 question:

1. （1-1/n）^(pn)来运用求解分析，这样就是的理解才对，注意，是bagging里面的revisited 特性

2. q2:计算的时候，自己第一次，还没有计算出来，这点有点晕，计算一定要细致，争取一遍搞定，最后看到在square error里面，我们用的是1/2左右argmax然后，代入选择答案1.并且，进一步关注题目背后的意义，描述的是对应的是如何对于error进行一个normalization这样的情况，这些情况下，我们可以对其中的函数，进行对应的拆解运用分析。

Q4,Q5对OOB概念的理解考察的非常到位，根本考察的是，对于validation中间一部分过程的理解分析，主要是从data数据的角度，看横向的数值如何进行传接，来实现对应的validation而在本题目的思考中，抓住对应的：Question 4
三个里面有两个错误才能出现错误，可以把资料分成10份分，1中出错的一份与3中对应，2中出错的两份与3中的
对应，则一共有3份错误，就是0.3 
Question 5
同一个资料有超过一半的g出错才会出错，最好情况下就是所有的err资料加在一起除以(k+1)/2[就是超过半数]---进行理解，从每一行的data资料分析，就可以进一步得到对应的求解值空间。
Q6-可以运用相关的知识进行展开：((a && !b && !c) || (!a && b && !c) || (!a && !b && c))多个元素的展开分析，我们利用的是5个门，这样就可以解开对应的空间解。这样的话，就可以实现对于过
年的额空间---注意对应的多个元素展开分析。
Q11：代入具体的公式，只有最后一层的L 不为零，进行这样的分析。
Q12：利用对应的图形节点，进行对应的推导，然后发现，从Node出发，回溯前面的单元，对应的数据是不一样的，然而，通过前面的元素，推导后面的元素，都是same这点要注意
Question 11
可以看到对应的，回溯不一样的，但是，promotion向前，是相关对应的元素解。

0 0