ELLA：An Efficient LIfelong Learning Algorithm 随笔

来源：互联网发布：医学科普文章知乎编辑：程序博客网时间：2024/05/01 21:52

相关名词：

an instance of the Lasso:??

vec::向量化

L1\L2 regularization term :??

i.i.d:独立同分布

a.s:almosrt sure 全概率成立

sparse coding：？？

l论文中的Proof sketch？？

如何推导？？

-------范数类别：

-------L为基向量向量空间，k*d K个长度为d的基向量组成。

theta（t）表示 L每一列的线性组合，至于他们的权重向量为S(t).

--------下示公式不适合终身机器学习的原因：

1、需要到和所有以前的训练数据相关的总和，该论文通过泰勒展开来解决这个不足

泰勒展开抑制了常数项和线性项，只留下二次项。delta X=theta(t)-L*s(t), L是函数的自变量，delta不是确值，Xo=theta（t）。

2、为了评估一个新的L，T个 s（t）又要重新计算一次，当T越来越大的时候，会越来越。（通过gT公式我们可以看出来），该论文移除公式（2）中s（t）的min，当有第t 任务来的时候只更新对应的s(t),而其他的s（t）不改变。这样的做法得益于接下来的修改L上。

-----------D(t)的尺寸为d*d.s(t)为k*1，L为d*k,,theta(t)为d*1

---------Lipschitz 条件

-----------ELLA 和GO-MTL 比较：让我们知道两个模型正确率之间的关系。

-----------ELLA 和OMTL：让我们知道相对于其他的终身机器学习方法ELLA的效率。

------------S（t）的稀疏值为0.5，意思为：用一般数量的隐藏基来表征参数

-----------可以拓展的方向：

1、确定K值

2、优化L值

3、确定s的稀疏值

---------需要看得内容：STL GO-MTL OMTL

0 0