卢辉《数据挖掘与数据化运营实战:思路、方法、技巧和应用》第一遍 读书笔记

来源:互联网 发布:2015年nba新秀体测数据 编辑:程序博客网 时间:2024/05/22 16:03

原书京东链接

目录:

    • 第一遍观后感
    • 数据化运营
    • 业务最重要
    • 我的疑惑

第一遍观后感

(3,4两月)
也不知道我们家宝宝哪里找到这本书的,结果 让我先拿来学习了。
这本书是我转行一来,认认真真从头到尾读的第一本跟数据挖掘相关的书,坦白讲,实用价值要远远高于看《机器学习》、《数据挖掘导论》这种偏学术的书籍;
作者是30岁左右从一名机械专业相关的工作人员转行到数据行业;所以他的很多见解,往往能从高处落点,看行业由来和发展,分析业务需求与痛点,阐述业务实践中的方法和技术,最后从一个职业发展的角度为我们后起之辈讲些做人做事的道理。既有又论,对于刚入门的菜鸟来说真的是很接地气的一本书。

1. 数据化运营

现代营销理论已经从4P向4C发展,也就是product到customer的发展。挖掘客户的不同价值,做个性化推荐的时代,随着技术进步,已经到来了。改革开放30年来,粗犷式的发展模式已经难以在这个物质泛滥的社会中有好的效果而必须诉诸于精细化运营,众多互联网公司、金融公司多年积累了足够多的用户数据产品数据作为数据化运营的先决条件,HDFS分布式数据系统以及便捷的网络云、快速高效的服务器响应,可以满足数以亿计的数据量处理。所以外来的10年肯定是数据化运营的时代,“互联网+”会取代掉传统思维的行业和公司,大势所趋也。
在我理解看来,数据挖掘与机器学习的区别,就在于有没有落实到数据化运营的概念上。
机器学习,强调的是学习,讲的是人已经会做某件事了,而且效果还不错,有没有方法通过模型算法让机器来学习,最后达到给激励,就能反馈正确的响应结果;
数据挖掘,强调的是数据,没有大量准确的数据,就没有挖掘的价值。而且既然是挖掘,就是人也不知道哪里是金子,哪里是沙子,要结合业务,采取技术,才能挖出真金。而这一方面,又往往离不开对数据的清洗和筛选,而且是大量的数据。
我相信数据化营销的终极目的就是下面

Sales=FlowTransformratePrice

我称之为FTP公式,无论是黑猫model1还是白猫model2,能将等式右边任意一项提高的model,就是好model。

2. 业务最重要

很多人一上来更强调机器学习用什么算法啊,调什么参数啊,却忽视了业务的重要性。
“以业务为核心,以思路为重点,以技术为辅助” 才能把数据挖掘技术开展下去。业界普遍在应用的都是以监督学习为主的方法,半监督学习、强化学习仍停留在论文阶段,与落地应用还有些距离;
其次,工作下来才发现,只有从业务出发,挖掘有用的数据,整理成特征因子代入到模型优化中,才会有好的效果;数据不理想,或者相关性不大,算法再复杂再高级,模型预测结果依然不好。

3. 我的疑惑

书中谈论具体如何实践技术的内容还是相对匮乏了一点。
比如:

  1. 数据摸底
    P157页讲到的,到底应该怎么实践才能得到类似于书上的结论呢。
  2. 金字塔式的用户分层模型
    P42页
  3. 因子通过相关性检验来筛选
    p160 相关性系数会求,但是显著水平P值怎么算?

等我与工作实践结合,有了心得体会,有了code再更新~

2 0