【论文阅读笔记】A Multi-Task Learning Formulation for Predicting Disease Progression

来源：互联网发布：ubuntu top命令详解编辑：程序博客网时间：2024/05/19 16:36

Jiayu Zhou, Lei Yuan, Jun Liu, Jieping Ye KDD2011

本文提出一种预测Alzheimer’sDisease (AD)老年痴呆症的cognitive scores和病症趋势的多任务学习算法。通过多种正则化方法解决不同时间点预测任务之间的依赖及特征选择问题。

一.提出的多任务回归算法

本文将在一个时间点对cognitive scores进行预测的问题视为一个回归问题，考虑到不同时间点的预测值之间并不是独立的，本文将问题建模为多任务回归问题。普通的回归模型未考虑非独立性，因此不适用。

贡献1：Temporal Smoothness Prior

在普通回归的基础上引入额外的正则项，对相邻时间点预测的大的偏差进行惩罚，方程如下：最后一项为Temporal Smoothness正则化项。

令：

则：

贡献2：缺失值的处理

医疗数据中存在缺失值的情况，如果简单的将这些值抛弃，可能导致样本数严重不足。文中提出的方法是设置一个矩阵S来指示目标值缺失。

Si;j = 0 ：如果样本i在时刻j值缺失。并使用对应位置元素相乘⊙，则原模型修正为：

贡献3：Temporal Group Lasso Regularization

医疗数据中特征数量庞大，为了进行有效的学习，必须进行特征降维。传统的PCA方法会导致降维后的特征难以解释，文章采用基于ℓ2;1-norm的groupLasso regularization对选取的特征进行惩罚。这种方法让所有的回归模型在不同的时间共享同一套特征集合。原模型修正如下，δ为正则化参数。在所有任务中使用的某一个特征使用二范数进行group，所有特征被进一步通过一范数group。因此惩罚趋向于根据在所有时刻中某一个特征的强度来选择。

阅读全文

0 0