特征工程知识笔记
来源:互联网 发布:linux cgroups 编辑:程序博客网 时间:2024/06/06 03:14
1. recent click; recent skip
加doc-id; 加类别等特征;
分成最近1次session; 1小时;6小时;24小时;>24小时;多个时间段内统计特征出现次数;
按照该特征出现次数,对其进行归一化,例如归一化到0~1浮点数区间内;
或者按特征出现次数,进行bining
2. 特征的不同层次,不同粒度, 都加进去
3. 用户画像的特征,按照频次进行分箱:
男性&科比:低点击率;中低点击率;中点击率;中高点击率;高点击率
4. 广告点击率预估任务,GBDT,连续特征居多;
男性&科比:fit到这个bucket里的展示,点击率是多少;
按类别聚合:男性&[体育类关键词] 里面,点击率的Max, Min, Avg
5. 搜索里,位置排在前几的doc, 即是被点击,也不要做为正例样本,因为用户习惯点前几个的,并不是因为语义内容相关。
而且,排名在前的,已经很强了,越增强越马太效应。
6. Click了一个军事,Skip了三个军事,那这3个Skip是否就是负例呢?也许是因为他点了一个军事,才Skip同题材的3个;如果把这3个军事加入负例,则会对召回造成不利;因此这里要从负例中去掉“重现过同类别Click的Skip们“
7. 某一个特征,设点击率p=click/show; 统计出所有用户p的均值和方差来,某一个用户而言,计算他这个特征的z-score,然后比如取z-score>1的(即他在这个特征上压过百分之八十多的人),加入到特征集里面去;用户画像里的特征们,就是这么来的! 点过,但是超出平均点击率不多,也会被忽略掉。只保留强信号。
8. 视频图像特征:抽关键帧(相邻帧变化大的就是关键帧),训练ImageNet,倒数第二层拿出来,该视频所有帧上做AvgPooling; 可用来衡量两个视频的相似程度
9. 用在召回上, 体现相关性: 正例就是推送里面click的样本,负例包括推送里面skip的样本(做降权), 还包括热文章表里面没推送给该用户的文章(体现和用户之间的相关性)
10. Doc侧把几个facet的向量相加得到DocVec;User和Doc点了的做正例,随机选的Doc做负例(10个),也可再选几个Skip的Doc做负例(效果提升较微弱),联合训练;即User向量完全是学习出来的;
- 特征工程知识笔记
- 特征工程--笔记
- 特征工程-TSA笔记
- 【学习笔记】特征工程(1)
- 特征工程笔记(1)
- 机器学习笔记--特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 特征工程
- 使用QUdpSocket时编译出错的问题
- SDN控制器之OVN实验五:配置OVN网络安全功能(ACL)
- 二分法程序实现
- 自定义View-自动换行的标签控件
- 第7节-Linux账户与文件目录权限
- 特征工程知识笔记
- WatchDog工作原理
- UVA10562UnderdrawTheTrees
- poj 2029 Get Many Persimmon Trees(树状数组)
- EAS License过期处理
- 测试docker建立以太坊集群
- lambda表达式的10个示例
- 用Jquery实现checkbox的反选、全选、全不选
- Windows下Nginx Virtual Host多站点配置详解