ELLA:An Efficient LIfelong Learning Algorithm 随笔

来源:互联网 发布:医学科普文章 知乎 编辑:程序博客网 时间:2024/05/01 21:52

相关名词:

an instance of the Lasso:??

 vec::向量化

L1\L2 regularization term :??

i.i.d:独立同分布

a.s:almosrt sure 全概率成立

sparse coding:??

l论文中的Proof sketch??

如何推导??

-------范数类别:

-------L为基向量向量空间,k*d   K个 长度为d的基向量组成。

theta(t)表示 L每一列的线性组合 ,至于他们的权重向量为S(t).

 

--------下示公式不适合终身机器学习的原因:

1、需要到和所有以前的训练数据相关的总和,该论文通过泰勒展开来解决这个不足

 

泰勒展开抑制了常数项和线性项,只留下二次项。delta X=theta(t)-L*s(t), L是函数的自变量,delta不是确值,Xo=theta(t)。

2、为了评估一个新的L,T个 s(t)又要重新计算一次,当T越来越大的时候,会越来越。(通过gT公式我们可以看出来),该论文移除公式(2)中s(t)的min,当有 第t 任务来的时候只更新对应的s(t),而其他的s(t)不改变。这样的做法 得益于接下来的修改L上。

-----------D(t)的尺寸为d*d.s(t)为k*1,L为d*k,,theta(t)为d*1

---------Lipschitz  条件


-----------ELLA 和GO-MTL 比较:让我们知道两个模型正确率之间的关系。

-----------ELLA 和OMTL:让我们知道相对于其他的终身机器学习方法ELLA的效率。

------------S(t)的稀疏值为0.5,意思为:用一般数量的隐藏基来表征参数

-----------可以拓展的方向:

1、确定K值

2、优化L值

3、确定s的稀疏值

---------需要看得内容:STL GO-MTL OMTL

0 0