工作纪要---解决统计差别问题

来源：互联网发布：java 动态方法编辑：程序博客网时间：2024/05/01 14:12

1、解决统计差别问题

zongheng统计的访问uv和百度统计相差较大

经过逐项对比数据，查找发现是因为直接访问的uv差距

有部分用户禁用的cookie，导致无id信息，没有列入统计

结果是对该用户的ip地址进行记录，然后

通过对总量的 uv/ip 的出比值，再进行相乘

或者是总量pv/uv得出比值，再进行计算无cookie的pv 和uv

2、百度统计的总uv=直接访问+搜索+渠道一个用户只会统计一次，有渠道优先级

对于多方式的用户难以统计完全数目

各个渠道单独统计。

计算出来纯直接访问粘性用户(一天之内未经过任何渠道进入)

计算出来直接访问用户(可以有其他渠道的链接)

3、百度统计的中，区分搜索和外部链接是通过关键词来通缉的，移动端阿拉丁跳转中间页不含搜索词，被归类为外部链接

4、发现网站统计的入口页uv数小于网站整体的uv数，查找原因。

select urlfields['pf'] pf,
count(distinct baiduid) u1,
count(distinct
case when (parse_url(page_refer, 'HOST') not rlike '\\.zongheng\\.' and
parse_url(page_refer, 'HOST') not rlike '\\^zongheng\\.'and
parse_url(page_refer, 'HOST') not rlike '\\.mmzh\\.') then baiduid end ) u2
from zongheng_access
where dt=20141209 and
urlfields['pf'] in(1,2,3)

group by urlfields['pf']

5 浏览与转化，解决用户的路径问题，类似于谷歌的wordvec，3重路径 p(1，2，3)=p(1)*p(2|1)*p(3|1-2) 这就是出现用户按照1，2，3来访问网站的概率

p(2|1)=p(1,2)/p(1) 计算用户在先访问1的页面下访问页面2的概率

p为用户转为阅读页的情况，p1 为用户经历p1页最后转为阅读页的情况，最后可以发现用户经历了哪些页面容易转入哪些不会转入阅读页。

通过对书籍和渠道的统计，可以找出用户那些章节是重点收入章节，渠道从哪个入口介入更能创造价值

0 0