数据分析中会常犯哪些错误,如何解决? 一
来源:互联网 发布:柯杰律师事务所知乎 编辑:程序博客网 时间:2024/05/17 08:37
作者:邹昕
链接:http://www.zhihu.com/question/46942656/answer/103917503
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
来点入门的吧(因为我就是入门水平啊)
举个栗子
根据这组数据,为了赢球,科比应该少出手?并不一定如此。有可能科比出手少的时候是因为队友状态好,并不需要他出手太多。也有可能是因为球队早早领先,垃圾时间太多。而出手太多的比赛是因为比赛艰难或者队友状态不好,需要他挺身而出。当然,以上也只是可能之一,具体是什么情况光靠这组数据并不能得出任何结论。
图片来源:图片来源:http://www.statisticshowto.com/wp-content/uploads/2014/12/correlation.png
-- 声明:非科比粉,路人偏黑。
比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。
再比如 Uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。
图片来源:http://66.media.tumblr.com/3a600f05e67d4995557ccb788e7db97b/tumblr_nnzx8oTLo91uqr0clo1_1280.png
类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。
图片来源:http://i.stack.imgur.com/yZQgZ.gif
比如 Linkedin 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了3%,但是统计显著。于是 PM 拿出统计101翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。
很显然,这个例子也是我瞎扯的。
图片来源:图片来源:https://s-media-cache-ak0.pinimg.com/736x/a2/3c/db/a23cdb849c2f0b25f9798cfd1f6fddda.jpg
「数据会说谎」的真实例子有哪些? - 谢科的回答
图片来源:https://s3.amazonaws.com/lowres.cartoonstock.com/business-commerce-data-big_data-data_specialist-bar_graphs-data_chart-jcen1296_low.jpg
(一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)
算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。
图片来源:https://pbs.twimg.com/media/BlSiygoCEAEJC8S.png
-- 此片应有人人小秘书配图
有兴趣解释 p-value 的欢迎留言。
图片来源:http://3.bp.blogspot.com/-y_hvRb5anNc/VTGkru5LZeI/AAAAAAAABNo/GAVvAbPS-CQ/s1600/worship.gif
链接:http://www.zhihu.com/question/46942656/answer/103917503
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。
来点入门的吧(因为我就是入门水平啊)
- 错把相关性当成因果性 correlation vs. causation
举个栗子
数据显示,当科比出手10-19次时,湖人的胜率是71.5%;当科比出手20-29次时,湖人的胜率骤降到60.8%;而当科比出手30次或者更多时,湖人的胜率只有41.7%。
图片来源:图片来源:http://www.statisticshowto.com/wp-content/uploads/2014/12/correlation.png
-- 声明:非科比粉,路人偏黑。
- 幸存者偏差 survivorship bias
比如比尔盖茨、乔布斯、扎克伯格都没有念完大学,所以大家都应该退学去创业。这一结论的最大问题在于那些退学而又没有成功的例子,很多时候我们是看不到的。另一方面,他们是因为牛逼才退学,而不是退学才牛逼的,看,相关性/因果性真是限魂不散。
再比如 Uber 发现新用户有10块钱优惠券,但是平均评价却只有3星。相反,第二次再用的时候没有优惠券了,评价却高达4星半。这说明,不给优惠券用户评价会更高,果然用户虽然爱用优惠券,但内心还是觉得便宜没好东西的?很明显,幸存者偏差在这个例子里体现在那些打一星二星评价的用户,之后可能就没有第二次了。更明显的,这个例子是我瞎扯的。
图片来源:http://66.media.tumblr.com/3a600f05e67d4995557ccb788e7db97b/tumblr_nnzx8oTLo91uqr0clo1_1280.png
- 样本跟整体存在着本质的不同
类似的例子有水木的工作版块、步行街的收入和华人网站的贫困线。
图片来源:http://i.stack.imgur.com/yZQgZ.gif
- 过于追逐统计上的显著性 statistical significance
比如 Linkedin 又要改版了(我为什么要说又呢),有两个版本 A 和 B. 灰度测试发现,跟现有版本比起来,A 的日活比现有版本高20%,但是统计不显著。而 B 的日活跟现有版本虽然只高了3%,但是统计显著。于是 PM 拿出统计101翻到第二页说,来,咱们把统计显著的版本 B 上线吧。苦逼的数据科学家 DS 说,等一下!并不是所有时候都选统计显著的那一个,咱们再看看版本 A 的数据吧(具体分析略过一万字)。
很显然,这个例子也是我瞎扯的。
图片来源:图片来源:https://s-media-cache-ak0.pinimg.com/736x/a2/3c/db/a23cdb849c2f0b25f9798cfd1f6fddda.jpg
- 不做数据可视化,以及更可怕的:做出错误或者带误导性的数据可视化
「数据会说谎」的真实例子有哪些? - 谢科的回答
在趋势图中,为了说明增长趋势多明显,把Y调成不从0开始。这样差距会看起来很大,增长很大,但是如果把Y轴从0开始看的话,会显得基本没有差距。
图片来源:https://s3.amazonaws.com/lowres.cartoonstock.com/business-commerce-data-big_data-data_specialist-bar_graphs-data_chart-jcen1296_low.jpg
(一下步就是要编排一个 twitter 的例子了23333,因为数据分析表明,有 twitter 公司这样的例子读起来会更有趣)
- 数据分析提供的结果和建议不具有可行性
算了,我编不出来,由此可见,不具有可行性的结果虽然是“理论正确‘的分析结果,然并卵。。。
图片来源:https://pbs.twimg.com/media/BlSiygoCEAEJC8S.png
- 不做数据分析
-- 此片应有人人小秘书配图
- 最后的大招:如何解释 p-value
有兴趣解释 p-value 的欢迎留言。
图片来源:http://3.bp.blogspot.com/-y_hvRb5anNc/VTGkru5LZeI/AAAAAAAABNo/GAVvAbPS-CQ/s1600/worship.gif
0 0
- 数据分析中会常犯哪些错误,如何解决? 一
- 数据分析中会常犯哪些错误,如何解决的?
- 数据分析中会常犯哪些错误,如何解决? 二
- 数据分析中会常犯哪些错误,如何解决? 三
- 数据分析中会常犯哪些错误,如何解决? 四
- 数据分析中会常犯哪些错误,如何解决? 五
- 数据分析中会常犯哪些错误,如何解决? 六
- 网站数据分析要分析哪些数据
- 如何成为一名数据分析师
- 数据分析常犯的几个错误(一)
- OSGI错误分析解决
- 502错误如何解决
- 如何解决段错误
- 数据分析的方法有哪些?
- 数据分析的步骤有哪些?
- 问卷数据分析方法都有哪些?
- 数据分析的步骤有哪些
- 数据分析的方法有哪些
- fastdfs的一些常见错误 getStoreStorage fail, errno code: 2
- [2016.7.test1] T2 偷天换日 [codevs 1163 访问艺术馆(类似)]
- Android(java)开发之将double类型,强制保留到小数点后两位解决方法。
- CSS强制等比例缩小图片
- Notifications (通知、通告)
- 数据分析中会常犯哪些错误,如何解决? 一
- 谷歌大脑科学家 Caffe缔造者 贾扬清 微信讲座
- (OK) init_install_android-x86_64_in_QEMU-KVM.sh
- linux 平台 性能分析 工具
- 数据分析中会常犯哪些错误,如何解决? 二
- CountDownLatch
- Android 四大图片缓存原理、特性对比
- 通过来模仿稀土掘金个人页面的布局来学习使用CoordinatorLayout
- 非常简单的视频播放器源码