计算机--机器学习---机器learning技法sum

来源:互联网 发布:python怎么取最大 编辑:程序博客网 时间:2024/05/01 10:29

-------------

lecture 1: linear SVM:

1. 对于large margin 的理解,利用相关的参数,来简化对应的文章分析,使得算法,可以很快地进行推进。---Model建模的过程,简化分析的函数相关值,如何利用数学知识,来一步步解决问题,都是需要思考的


2.适当地添加一些数学表达式,来优化对应的模型,比如添加yn不影响最后的结果,但是,可以很大程度上,优化模型的复杂度这种情况。

3化简公式的时候,适当地拆解对应的表达式w来优化分析,这点要注意体会。比如对应的距离表达,是合理地利用dot product来优化分析解决的。minium变成对应的大于等于,都是非常关键常见的。

4.有的时候,对于公式的表达,可以加入一些特别的解,常数,example代入,然后,得到对应的数值,加深对应的理解,比如对应的linear algebra里面涉及的东西。都是非常的重要。

5.课程再设计讲解的时候,逻辑性很强,介绍模型,structure, why?---theory gaurantee ---performance----notice atttention---thinking thoughts more to get for purpose. 


6,前后知识的联系,非常非常的关键,比如对应的svm regulization都涉及了对参数范围,取值大小的限制,这些都有所体现,要多看下,联想前后的知识,来进行联系。-----实际上,在前后的运用中,都可以看到对应的参数,范围限制,和思维的逻辑,都存在有一定的关联,这种关联,都会形成对应的解题过程分析。------其中的数学模型,原理,要深深地进行体会分析。

7. fewer dichotomies =) smaller ‘VC dim.’ =) better generalization----这个是关键,看下,如何进行实现的,从本质上,更多的地方,来理解对应的函数过程。

8.fewer dichotomies =) smaller ‘VC dim.’
considers dVC(A) [data-dependent, need more than VC]
instead of dVC(H) [data-independent, covered by VC]---这就是更深的理解,不是说你测出来的performance好,就用对应的模型,而是,进一步分析,看到对应的model , vc dimension这些参数,可以实现很好的模型优化,这样的话



lecture 2 dual svm:

1.第一步化简的时候,引入拉格朗日函数,然后进行对应空间的解释降解,来进一步实现对应的参数可解范围。

2.KKTcondition  条件收敛,前后函数方程联系 ,其实是和对应的 regulization参数 是一致的,可以辅助记忆分析,这点可以进行关注。

3.矩阵公式展开的时候,利用对应的展开空间,将坐标进行合理的表达展开,来运用分析,使得整体的函数,可以有效地可控。

4.后面的章节里面,涉及到了optimal (b,k)这个部分,介绍的就是如何从a中来简化对应的b,w但是,仍然保证了对应的fat boundray这点非常的关键,如何利用对应的理论模型,来优化自己的求解,并且,在理论上,保证自己是可以解的,这些都显得非常的重要。-----随时思考这个部分到底在讲什么,有什么对应的物理意义相关,并且,进一步分析,可以得到对应的相关空间展开解。-----强化对函数化简,你要做的事情的理解,随时思考,就像老板讲过的physical meaning如何消化理解。

5.

5.在后面的一个问题problem中,我们看到求解optimal b但是,没有提及KKT condition就需要自己对题意进行加工,并且,形成对应的理解,来做到相应的解空间,一定要活学活用,展开对应的知识,来进行相关的分析。

6.在后面的表达式子中,自己又看到了对应的linear combination of xnyn这种表达式,这个就很关键了。--前后知识的联系,对于wn都是对于xn, yn的线性组合,这样才可以形成对应的驱动相关。w ‘represented’ by data
7.进行转化之后,实现的目标是no dependence on ~d?---这句话要注意理解背后的物理意义,这个就是对应的physical meaning的优化降解理解,我做数学化简的目的到底是什么,而这背后的东西,到底是什么
8.# SVs  # SV candidates  N:--几个参变量的关系,有所不同,注意体会。
lecture kernel trick:
1. 在看第三遍对应的PPT时候,进一步理解对应的Kernel所表达的含义意味着什么,这些都是非常必须的,
2.在后面的kernel  trick说明里面,又进一步讲到了:kernel trick: plug in efficient kernel functionto avoid dependence on ~这个就是对这个工具的更深一层次的理解。
3.kernel SVM:use computational shortcut to avoid ~d & predict with SV only---理解英文背后的含义。
4.gaussian kernel进行无穷级数展开,涉及的就是对应的空间向量变化,注意体会其中的变化值分析。
5.gaussian kernel的运用分析,利用对应的空间解,进行降解分析,进一步,我们可以看到:linear combination of Gaussians centered at SVs xn also called Radial Basis Function (RBF) kernel这些,就是对RBF的更近一层的理解,
6. Gaussian SVM:find n to combine Gaussians centered at xn& achieve large margin in infinite-dim. space----高斯分布的特点,不仅仅是在对应的空间distribution在这里面,我们可以进一步看到,是对其中的无穷级数展开,形成对应的large margin解函数构成的,这样的话,更进一步,我们可以看到更多的空间解形成。
7。对比几个kernel形成自己的理解,关于学习方法的提升,如何有效地利用对应的Kernel来优化我所提出的模型,并且,进一步进行求解分析。
8.在最后的时候,介绍到了对应的
kernel represents special similarity---和NG部分的讲述联系在一起,就联系在了一起。
based on the previous lecture shortcomings, we can develop next points and improvements about the kernel and margin to modify it. Thus, we can get the next lecture----soft margin engine for the search space. -when thinking about this method, we can first recall the pocket technique and then we develop to combine the two methods for future development .
6.在后面的章节里面,注意知识的相互贯穿,带有kernel的SVM该如何进行理解,这个就显得非常的重要了,注意进行相关的体会,这一行,可以融会贯通,更好地进行文章的理解。
next lecture:
1. kernel trick所用到的工具,是作为的中间手段,来优化解决对应的模型相关值,而不是简单地一种SVM模型,这点自己要注意进行体会,更多的,涉及到的是,相关的改变变量所涉及的维度,或者,利用NG的说法,涉及到的是,similarity的判断求解分析。
2. SVM 和 regulization中涉及到的相关变量处理,在Ein中互为优化进行处理转变呢,注意体会对应的变化分析,并且,这样的函数变化,都在MIn最后希望求的函数中,进行对应的收敛判断分析,会不会,着眼点不同就产生了不同的结果,或者idea的产生之初,就是在于看到某种模型的缺陷,转移关注点在收敛的空间解上面,这样就可以收敛对应的函数模型。
3. Kernel Logistic Regression 介绍的就是两种模型,如何进行有效地融合,而不仅仅是只是利用之前学到的一种单一模型,而是,多维度,多方法的糅合分析运用,这样可以更好地优化对应的求解空间值。
lecture support vector regression:
1.利用Kernel ridge regression来优化对应的空间解函数,可以更好地优化对应的求解空间。---时刻提醒自己,到底在做什么样的事情,这些函数方法。
hw  1 solve :
1.在求解一个新的Problem 利用langrage 的时候,注意构造的方式方法。
2.完成q7时候,突然想到,所有的优化,梯度,都是基于min,意思就是有了一个求min的需求,然后,求梯度,认为可以得到极值,但是,问题来了,如何保证自己所求的就是极小值,不是极大值。----注意思考。二阶导数,来观察分析,但是问题来了。如何有效地降解对应的二阶导数。
3.作业Q10里面,求R的时候,是有所不同的,利用的是对应的kkt condition来确定R,因为之前对R求导,得到的是一个其他函数的的常数项,那么我们在后面求解的时候,就需要对相关的函数,进行重新代入等式,利用条件进行求解。
4.q12,q13判断的时候,抓住对应的性质,symmetric and positive definitive 
-----Q13不太会:假设K是二维的,将每个选项带入计算,只有一个结果矩阵是半正定的。
QQ14:多从概念上进行相关的理解分析,核函数的作用到底是什么,有什么对应的优势可以用来解。---核函数的值跟w负相关,当核函数放大p倍,w则缩小p倍。而objective还是原来的最优解则C也要缩小p倍。---自己在推理的时候,也是如此分析,K,C进行了改变,而最后生成的值要相同,这样的话,就必然需要我们对问题,进行重叠分析,K影响了左端的结构,那么C进行右部分调解,使得函数可以进行降解。
lecture from combining the models.--lecture name:blending and bagging
1. 分析讲解的思路从linear---optional condition---然后再是bagging---bootstrap(利用resample里面,可以放回,来实现,不同的data生成,保证hypothesis 的randomness 特性,进一步的话,可以展开得到更多更好的数据。)-----贯穿的思想到底是什么,要注意进行体会,其中的原理这些,都需要进行体会。---平均的优化,分析。
lecture:adaptive boosting:
1. 先是引入例子,介绍对应的空间几何解,然后代入对应的un来优化对应的解函数空间,其中非常关键的是,再引入Un之后,引入了scaling error来优化对应的模型空间---physical meaning 非常重要,帮助我们更好地理解对应的公式意义,到底在做什么,这点需要体会,我们做这样的操作,到底是为了什么,有什么样的几何意义,小于1/2的物理意义下,我们又如何进行对应的优化。---scaling-up incorrect examplesleads to diverse hypotheses这样的分析构造,很有体会。
1.在最后形成的adapboosting里面,会根据对应的参数环境,来不断地进行迭代优化,比如对应的空间ut.at这些, Adaptive Boosting =weak base learning algorithm A (Student)+ optimal re-weighting factor t (Teacher)+ ‘magic’ linear aggregation t (Class)最后求解的这些元素,都是高度拟合之前讲到的例子,这些都需要引起注意,十分地相关。
2.看过程实现的时候,进一步体会对应的adaptive boosting所对应的含义类型,这些就作为基础,形成了方法的过程,产生error--_调整algorithm不断地合成,并且,其中生成对应algorthim的weight来优化对应的模型实现,保证一个不差的performance.
3. boosting view of AdaBoost:if A is weak but always slightly better than random (t   < 12 ),then (AdaBoost+A) can be strong (Ein = 0 and Eout small)---更多的总结,理解对应的函数空间。
3. AdaBoost-Stump:efficient feature selection and aggregationHsuan-
lecture decision tree:
1.decision tree: a traditional learning model thatrealizes conditional aggregation
2.dt 的 recursive 结构,务必关注,学会如何简单有效地构造我们所需要的数据结构,也是非常的关键。
3.引入 Classification and Regression Tree (C&RT)---来分析
4.crt里面,利用更加simple的choices比如对应的C&RT: bi-branching by purifying---two classifications.选择对应的argmin来运用分析。---其中涉及了impurity的定义分析,联想AI课程学习到的cross entropy计算,也是会计算对应的impurity, 也就是对应的error measure来衡量选择对应最小的,知识相互穿起来,融会贯通。
5.看到fully grow就应该想到对应的函数方程式可能为overfitting---在设计对应的算法,机器学习模型的时候,如何有效地规避对应的空间函数,可能出现问题的地方,前瞻性地进行预测,这些都显得非常的关键。
6.Missing Features--在PPT中被指出来了,这点要注意,每个模型都有每个模型缺陷的地方,这些都是我们应该关注的重点。学习的时候,要举一反三,对应的问题在哪里,都需要很清楚地知道,并且可以有效地学会分析。
lecture random forest:
1. data randomness for diversity in baggingrandomly sample N0 examples from Danother possibility for diversity:randomly sample d0 features from x 引入新的random方式,要学会扩展,思考,别人是怎么想到这个方法,你为什么没有想到,会给你带来什么样的启示,我们应该如何做,这些都是关注的重点。
2. random feature的提取,利用多种行列式的赋值定义,来求解优化,实现问题的降解。
3.第三章的题目名字取得特别好,Feature Expansion---体会,利用projection产生randomness!!!-数学的运用,联想线性代数。
20170117:permutation test的作用在于利用对应的x进行替换入手,求解出对应的解。
1.RF feature selection via permutation + OOB:often efficient and promising in practice 对应的函数解,到底在做什么,这些需要思考清楚。
2.从题目中看出来,对应的PERMUTATINO TEST是在数据进行测试运用的时候,利用对应的数据结构讲解,来完成相关的替换动作,从而实现对应的求解,并且,进一步实现数据的判断分析,VALIDATION验证。
lecture 11: gradient boosted decision tree:
1. adaboost  tree:利用对应的weight来添加对应的元素,形成全生长树的特点,比如对应的树的生长,对应所处的voting 这种,在数据都有所体现。
2.AdaBoost-DTree: often viaAdaBoost + sampling / u(t) + DTree(~Dt )without modifying DTree--几个成分之间,进行相应的叠加,比如对应的
3,任何一个参数,在取值的时候,其实,所对应的物理意义,都是可以解释化的,这点要注意体会,每一个参数,对应的物理意义,都会尽可能地进行解释化分析,从而实现更好的展开效果。
4。前后的知识,在越来越紧密地联系在一起,这样的话,可以更好地连接对应的相关元素。
5.AdaBoost: steepest descent with approximate functional gradient实际运用中的变化情况,在进行公式化简的时候,可以看到对应的参数在一定的范围内,有对应的求解相互照应相关。
6.通过近似化简,我们得到,最后要regression 收敛的函数,是对residual 的xn 线性近似逼近,这样的话,就可以解开的对应的计算分析问题。
7.求解问题的过程,就是一个不断化简的过程,如何利用有效的数学知识,来化简我们的求解问题,都是需要进行考虑的因素,这些都非常的关键----联想师姐说过的,我们先定义问题,然后,就是求解问题,这些都是需要进行考虑的。
8.泰勒展开分析:\sum _{n=0}^{\infty }{\frac {f^{(n)}(a)}{n!}}(x-a)^{n}---基本公式熟悉,在后面的公式中,依然会运用到。
9.aggregation feature transform regulization  
10.GBDT 重看了视频,才理解了对应的算法核心,一定要注意学习的效率方式,有效地在一定的时间内,形成对应知识的积累,这点非常的关键!!!一定要注意
开始做Hw2:
1对于Q2,发现yn^2=pn???这样代入答案才正确,待确认。
2.Q3求kernel ridge regression size的时候,需要注意对应的公式记忆清楚,= (I + K)
后面的Lecture介绍了对应的nn,deep learning 针对的东西需要注意。
rbf kerNel 和之前的gaussian svm会高度相关,并且有效地利用对应的公式解,进行一步步推导,来实现对应的函数空间解。
2.rugulization的方式,多种多样,需要注意对应的优化情形。
3.Kmeans 里面进行相互迭代的优化分析,这样来降解对应的最优化问题。
4.rbf + k means多个进行融合。
lecture 15 matrix factorization:
1. 在RATING 里面,涉及的东西是利用对应的rating, id来进行推荐相关,但是,在具体的运用里面,我们可以看到,---categorical features 要学会转换成对应的numerical features来转化降解分析。 ----联想之前看到的expert system就是利用binary coding的表示,
2. Linear network里面,利用对应的矩阵相乘相关来进行对应的表达分析,进一步进行对应的实现 。
3.在这个RECOMMENDATION SYSTEM里面,我们需要的是建立对应的
4. similar modeling can be used forother abstract features---这种运用的场景分析,注意看到对应的VN,UN的变化分析。针对ABSTRACT FEATURES进行求解分析,然而,自己在看到对应的分析思路里面,将RATING and moview拆解成两个部分,然后,进行求解,这样的思考,还是非常引人注意。
5.与Linear Autoencoder进行对比,看在具体的环境里面,有什么对应的差异和不同。
5.其实在对应的解空间可以看到,Matrix Factorization有一定的特点,比如对应的hidden value/label这些都是在之前没有遇到过的,注意进行体会,有一定的变化。
6.SGD: perhaps most popular large-scalematrix factorization algorithm---指的是在实际中,可以运用对应的解函数空间,进行运用分析,并且,有效地进行实现。
7.在真正比赛运用的时候,一般不会仅仅专注于对应的产生分析函数,而是,从更多的角度,进行解释分析,比如对应的sgd里面,我们会设置一定的强调成分,这些东西,可以加深对应的理解运用分析。
8.extraction models: feature transform  as hidden variablesin addition to linear model---总结。
Q3 question:
1. (1-1/n)^(pn)来运用求解分析,这样就是的理解才对,注意,是bagging里面的revisited 特性
2. q2:计算的时候,自己第一次,还没有计算出来,这点有点晕,计算一定要细致,争取一遍搞定,最后看到在square error里面,我们用的是1/2左右argmax然后,代入选择答案1.并且,进一步关注题目背后的意义,描述的是对应的是如何对于error进行一个normalization这样的情况,这些情况下,我们可以对其中的函数,进行对应的拆解运用分析。
Q4,Q5对OOB概念的理解考察的非常到位,根本考察的是,对于validation中间一部分过程的理解分析,主要是从data数据的角度,看横向的数值如何进行传接,来实现对应的validation而在本题目的思考中,抓住对应的:

Question 4

三个里面有两个错误才能出现错误,可以把资料分成10份分,1中出错的一份与3中对应,2中出错的两份与3中的
对应,则一共有3份错误,就是0.3 

Question 5

同一个资料有超过一半的g出错才会出错,最好情况下就是所有的err资料加在一起除以(k+1)/2[就是超过半数]---进行理解,从每一行的data资料分析,就可以进一步得到对应的求解值空间。
Q6-可以运用相关的知识进行展开:
((a && !b && !c) || (!a && b && !c) || (!a && !b && c))多个元素的展开分析,我们利用的是5个门,这样就可以解开对应的空间解。这样的话,就可以实现对于过
年的额空间---注意对应的多个元素展开分析。
Q11:代入具体的公式,只有最后一层的L 不为零,进行这样的分析。
Q12:利用对应的图形节点,进行对应的推导,然后发现,从Node出发,回溯前面的单元,对应的数据是不一样的,然而,通过前面的元素,推导后面的元素,都是same这点要注意

Question 11

可以看到对应的,回溯不一样的,但是,promotion向前,是相关对应的元素解。

0 0
原创粉丝点击