有了数据和洞察力,我该如何进行数据挖掘?

来源:互联网 发布:郭雷 复杂网络 m 编辑:程序博客网 时间:2024/04/23 20:27

原文:I have data. I need insights. Where do I start?
作者:Rama Ramakrishnan
翻译:无阻我飞扬

摘要:本文介绍了如何更为有效的通过挖据数据获得更多的信息。以下是译文。

这个问题常常被问起。

它通常会被才接触数据技术的数据科学家,分析师和管理人员问起。

他们的老板迫于压力不得不展示投资回报率。公司需要从投资于收集、存储和规划数据的系统上得到回报。(更不用说花在数据科学家身上的钱了)。

有时他们很幸运,可能被要求解决一个特定的被研究很透彻的问题(比如,预测哪个客户可能取消他们的手机合同)在这种情况下,有很多方法可以去做,这是数据科学的天堂。

但他们经常被要求”挖掘数据,告诉我一些有趣的事情”

从哪儿着手?

这是一个很难回答的问题,没有一个完美的答案。我相信有经验的从业人员已经有许多方法来做到这一点,这里我发现一个有用的方法。

它基于两个概念:

1、每个企业可看作是一个有许多活动部件组成的复杂系统。没人能真正的100%的了解它。即使有经验的员工,他们对企业的理解和实际工作之间也存在着差距。而且由于业务不断变化,这一差距不断变的愈来愈大。

2、你有的关于业务的任何数据描述了这个复杂系统行为的某些方面。

基于这一点,你可以认为”洞察力”就是增加你理解系统如何实际工作的东西。它弥补了你认为系统工作原理与系统实际工作方式之间的鸿沟。

或者,借用Andy Grove的高输出管理的类比,复杂系统是黑盒子,洞察力就像一扇插在黑盒子上的窗户,”照亮”里面发生了什么。

因此,对洞察力的探索可以被看作是通过分析数据来理解事务实际如何工作的。

但这正是科学家们所做的事情!这世界是非常复杂的,他们有一个屡试不爽的剧本,逐渐提高我们对科学方法的理解。

一般地:

利用他们目前对系统如何工作(”理论”)的理解,做出某些预测。然后他们检查数据(有时进行详细的试验来生成数据),看看是否符合他们的预测。

如果不匹配,他们深挖正在发生的事,更新他们的理解(”修改理论”),做出新的预测,如此循环往复。

数据科学家和分析人员也能做同样的事情.

在你探索数据之前,写下你期望看到的数据的一个清单:关键变量的分布,重要变量之间的关系,等等。这样的清单基本上是根据你目前对业务的理解所作的预测。

现在分析数据。列计划,做总结,无论什么,都需要去看看它是否符合你的期望。有什么不相符的吗?有啥让你觉得”那很奇怪”或”那没有任何意义”的吗?

放大并试着了解在你的业务中是什么使这种奇怪的事情出现在这样的数据中。这是关键的一步。你可能刚刚发现了对业务的见解,提高了你的理解力。

这里有一个真实的例子。几年前,我们正在研究大型B2C零售商的交易数据。数据集中的一个字段是”交易量”。

我们期望看到什么?我们预计大部分的金额将在平均水平附近,但可能会有一些较小的数额和一些更大的数额。所以这个字段的柱形图可能看起来像这样:
这里写图片描述
但当我们检查数据,这是我们所看到的:
这里写图片描述
我们调查了’隐马尔科夫模型’

结果,这些交易不是由具有代表性的购物者(年轻的妈妈为孩子们购买)产生的。他们是一年一次从国外到美国的人,走进一家商店,买很多东西,把他们带回自己的国家,然后在自己的商店里出售。他们是分销商,他们与我们的零售商没有特殊关系。

这家零售商当时在北美洲以外没有实体,也没有从他们的电子商务网站运送到这些地方。但这些地方有足够的需求,当地的一些商人的出现填补这一空白。

这个小小的”发现”引发了一连串有趣的问题:这些分销商购买什么样的产品,什么样的促销活动最适合他们,甚至这些数据被用来预知全球扩张计划。

这全部来自一个简单的柱形图。

精彩的艾萨克·阿西莫夫捕捉到了这个美丽的灵魂。

听到科学中最令人激动的话,那预示着新的发现,不是”我找到了!”而是”那很有趣……”

艾萨克o阿西莫夫

请注意,从数据中找到业务中的”根本原因”需要时间、精力和耐心。如果你有一个很好人脉关系,他们能回答你的问题,你的效率就会更高。另外,他们也能很明显的识别对你而言的怪事?(因为他们对业务的了解,可能比你更好),你就可以节省时间。

总的来说,你越了解业务的细微差别,你的预测就越有针对性,最终你会有更好的见解。所以,尽你所能去了解业务的细节。找到了解业务的同事,向他们学习,如果有可能的话,让他们成为你合作者。

拥有数据科学知识显然是一个好的事情,但是你对业务的了解会对你的工作质量产生更大的影响。

除了数据科学的工作,我发现这种”预测和检查”的心态在分析任何分析时都是有用的。

在”翻页”之前,停顿几秒钟,预估你预期看到什么。你可能会发现,这增加了你能更好地在数海中发现有趣的东西的可能。


*或者,您可能会发现在收集或计算数据的过程中存在一个错误。(特怀曼定律)