特征工程知识笔记

来源:互联网 发布:linux cgroups 编辑:程序博客网 时间:2024/06/06 03:14

1. recent click; recent skip

    加doc-id; 加类别等特征;

    分成最近1次session; 1小时;6小时;24小时;>24小时;多个时间段内统计特征出现次数;

    按照该特征出现次数,对其进行归一化,例如归一化到0~1浮点数区间内; 

    或者按特征出现次数,进行bining


2. 特征的不同层次,不同粒度, 都加进去


3. 用户画像的特征,按照频次进行分箱:

    男性&科比:低点击率;中低点击率;中点击率;中高点击率;高点击率


4. 广告点击率预估任务,GBDT,连续特征居多;

    男性&科比:fit到这个bucket里的展示,点击率是多少;

    按类别聚合:男性&[体育类关键词] 里面,点击率的Max, Min, Avg


5. 搜索里,位置排在前几的doc, 即是被点击,也不要做为正例样本,因为用户习惯点前几个的,并不是因为语义内容相关。

    而且,排名在前的,已经很强了,越增强越马太效应。


6. Click了一个军事,Skip了三个军事,那这3个Skip是否就是负例呢?也许是因为他点了一个军事,才Skip同题材的3个;如果把这3个军事加入负例,则会对召回造成不利;因此这里要从负例中去掉“重现过同类别Click的Skip们“


7. 某一个特征,设点击率p=click/show;  统计出所有用户p的均值和方差来,某一个用户而言,计算他这个特征的z-score,然后比如取z-score>1的(即他在这个特征上压过百分之八十多的人),加入到特征集里面去;用户画像里的特征们,就是这么来的! 点过,但是超出平均点击率不多,也会被忽略掉。只保留强信号。


8. 视频图像特征:抽关键帧(相邻帧变化大的就是关键帧),训练ImageNet,倒数第二层拿出来,该视频所有帧上做AvgPooling; 可用来衡量两个视频的相似程度


9. 用在召回上, 体现相关性: 正例就是推送里面click的样本,负例包括推送里面skip的样本(做降权), 还包括热文章表里面没推送给该用户的文章(体现和用户之间的相关性)


10. Doc侧把几个facet的向量相加得到DocVec;User和Doc点了的做正例,随机选的Doc做负例(10个),也可再选几个Skip的Doc做负例(效果提升较微弱),联合训练;即User向量完全是学习出来的;

原创粉丝点击