生活在数据时代;聊聊数据分析在当今社会生活中的有趣应用

来源:互联网 发布:刘国梁怎么了知乎 编辑:程序博客网 时间:2024/04/29 08:30


以下文章内容,来自草堂君的新书《人人都会数据分析-从生活实例学统计》。因为新书中增添和细化了很多知识点,所以草堂君会逐步将这些内容补充到统计基础导航页中来,帮助大家建立数据分析思维。限于篇幅,只截取书中部分内容


二百多年前,英国批判现实主义小说家狄更斯曾经说过:“这是一个最好的时代,这也是一个最坏的时代。”这句话放在今天,依然适用。随着科技的进步,计算机技术的成熟以及移动互联网的普及,我们已经步入大数据时代。在大数据时代,我们每个人的信息都是透明的,个人偏好、行为习惯以及社会关系都可以被捕捉,这促进和发展了广告精准推送以及服务量身定制等商业模式。这些新的商业模式让用户获得更好的个人体验的同时,也直接戳向了传统商业模式的软肋,使传统企业叫苦不迭,以至于银行都抱怨自己是弱势群体。由此可见,这个时代对于固守传统商业模式和经营理念的行业及厂商来说,无疑是最坏的时代。


生活在大数据时代,能够被记录和分析的数据无处不在。特别是随着智能手机以及各种可穿戴智能设备的出现,每个人的行为、位置、偏好,甚至各项生理指标都成了可被记录和分析的数据。但是数据本身并不能产生价值,只有经过有效的数据分析过程,隐藏在大量数据背后的富含价值的信息才会展现在我们面前,从而帮助我们做出正确的行为决策,带给我们巨大的价值回报。现如今,各行各业都逐渐意识到数据统计及分析的重要性,数据分析的应用已经渗透到人们生产和生活的各个领域。无论是政府机构、机关企事业单位、私营工厂,还是家庭、个人,数据分析都扮演着越来越重要的角色,发挥着重要的作用。


国家的统计数据分析

政府对国家的管理需要关注到社会生活的方方面面。从人们的衣食住行到国家的内政外交,政府对于每项政策的制定和决策的实施,都要依赖于大量的统计调研和数据分析。国家会定期在国家统计局官网上发布一些国家统计指标,大家可以登录国家统计局官网:http://www.stats.gov.cn/查询和下载相关数据。


制造业的数据分析应用

过去的十几年间,印有“Made in China”标志的商品被销售到了世界各地,成为国人骄傲的同时,也为我国的经济增长做出了卓越的贡献。从2015年开始,一些制造业大省接连传来了工厂倒闭的消息:东莞和苏州两地的数家万人规模的制造企业破产倒闭,温州每天都有小型制造企业在消亡,这些信号都预示着我国的制造业走到了发展的拐点,迫切需要做出改变,寻找新的发展动力。

随着人口红利等优势条件的丧失,中国的制造业走到了必须转型升级的生死关头。如果企业经营者依旧固步自封,没有创新和利用数据分析方法的观念,其结果只能是被数据时代所淘汰。几十年前,摩托罗拉和通用电气公司仅仅是通过生产数据的分析并创造性地利用和延伸了统计基础里的六西格玛理论,就在短短的几年时间里取得影响至今的惊人成果。如今,随着各种计算机技术、互联网技术和移动互联网技术的发展,数据的分析利用已经非常快速、高效、便宜和便捷,这为制造业的从业者积极学习和掌握数据分析技术和手段,并通过数据分析结果的应用创造惊人价值提供了通道。数据分析目前在以下几方面对我国制造业的转型升级发挥重要的作用。


营销领域的数据分析应用

过去很长一段时间里,推播式的营销手段大行其道,这种营销方式只是一味地向尽量多的消费者灌输广告信息,而并不尝试与消费者互动和找到目标消费者。这种营销模式在过去精神生活不丰富、人员聚集场景稀少的时代取得了非常好的效果。例如,前几年有几个产品的广告,将简短的广告词和广告画面在短短的几十秒内连续重复播放五到六次,让人印象深刻,取得了非常好的产品宣传和渗透的效果。然而随着电脑和智能手机、互联网和移动互联网的普及,原本大量聚集在电视和广播前的人群被这些新兴媒介分流,与此同时,由于电脑和手机娱乐自主性非常强,用户可以随意选择自己喜欢的活动,导致原本屡试不爽的推播式的营销手段失去了原有的效力。面对时代的发展和人们生活习惯的改变,基于互联网用户数据分析的精准营销方式开始发挥作用,并取得令推播式营销方法望尘莫及的效果。


经常上网的人可能已经发现,如果一段时间内,你用搜索引擎搜索过一种产品,接下来这种产品的广告将频繁出现在你的面前,从电脑打开的网页到手机新闻客户端,从QQ到微信的即时聊天页面,让人有种被跟踪记录的感觉。这种基于用户搜索行为数据的营销方式只是迅猛发展的精准营销方式的冰山一角,也是最初级的表现形式。

近两年,手机应用“今日头条”的发展来势凶猛,它利用复杂的用户数据分析模型将精准营销带上了一个新的高度,并有一个响亮的名字叫个性化推荐。个性化推荐的数据分析逻辑是怎么样的呢?下面简单介绍一下。


首先要做的是冷启动。当手机应用产品链接到新用户后,需要一段时间来收集用户的行为数据。那么在收集到足够多的用户数据之前,如何做出较为精准的推荐呢?今日头条选择的解决方案是新用户可以用微博、微信或QQ等社交账号进行登录,通过对用户账号的分析建立一个“兴趣图谱”,根据用户在社交账号上发布的内容及所属类别、用户标签、社交关系、社交行为、参与群组、机型和使用时间等数据推测出用户的兴趣点有哪些。例如,当我使用微博账号接入今日头条后,系统便会对我的兴趣做出分析,建立我的初始兴趣模型,并根据分析出来的不同兴趣的权重进行推荐。因为这是第一步,所以称这个过程为冷启动。


在冷启动后,今日头条会根据初始的兴趣模型从三个维度呈现内容:第一个是“推荐”,即从资源库中抓取资源信息,从中提取几十个到几百个高维特征,并进行降维、相似计算、聚类、分类等处理,然后根据用户的兴趣模型来推荐这些资源,今日头条每天会抓取并处理超过100万个网页,以保证内容来源足够充足准确;第二个是“热门”,也就是互联网和社交网站上出现最多的内容;第三个是好友动态数据。当然,用户也可以根据自己的喜好对文章进行顶、踩、转发和收藏等操作,这些用户行为数据会被实时性传送到后台,在用户每次操作后的30秒内,系统就会对用户模型进行更新。所以,在冷启动之后,随着用户行为数据的积累,系统为每个用户建立的兴趣模型就越精确,你会感觉到这款产品越来越了解你,你也就会对这款产品越来越信任和依赖,这也是个性化推荐系统希望得到的效果。除此之外,精彩的评论也是个性化推荐不能忽视的领域,甚至有时候评论比正文更加受到网友的追捧。每一篇文章下面的评论,今日头条都会依照用户的社交关系、评论人的影响力等因素进行排序,把最吸引当前用户的评论展现在用户面前。所以我们看到,基于用户数据分析而发展起来的个性化推荐已经深受用户的喜爱,这也是越来越多广告商在今日头条上做广告的原因,相比于推播式的广告营销,个性化推荐的精确营销更能帮助商品找到喜爱它的顾客,从而提高营销效率并降低成本。数据分析技术在个性化推荐中扮演了举足轻重的角色,是个性化推荐的灵魂。


医疗行业的数据分析应用

医生是一个讲究经验积累的职业,去医院看病,如果坐诊的是一位老大夫,那么病人往往会感觉庆幸。因为老大夫意味着治疗经验丰富,能够针对病人的病情做出更加准确的诊断,病人就有更大的概率被医治痊愈。这里可以做个形象的比喻,老大夫的大脑就是电脑的硬盘,他经历的每个病人的治疗过程就是一条数据,几十年下来,硬盘里已经存储了无数条数据,每当接诊一位新病人,根据病人的病情,大脑会自动搜索过去经历过的所有病例,检索出与眼前这位病人相匹配的病例,然后根据过去病例的治疗经验,对眼前这位病人做出更为准确的诊断。年轻医生因为从业时间短,经历的病例少,虽然掌握的书本理论知识丰富,但是往往与实际情况有差异,所以年轻医生误诊的情况比较多。


经验丰富的老医生诊断准确,但是数量不足,再加上他们的时间和精力有限,远远不能满足社会的需求;年轻医生的时间和精力充足,但是缺乏实践经验,误诊情况较多,这是矛盾的现状。如何让全科医生和刚毕业入职的新医生在面对不同患者时,能够给出更科学准确的判断、制定更合理与个性化的诊疗方案,成为降低临床误诊率,满足社会需求的关键。对于我国临床误诊率的统计,国内医疗行业的共识是30%左右,其中,鼻咽癌、白血病、胰腺癌、结肠癌等恶性肿瘤以及肝结核、胃结核、肠系膜淋巴结核等结核类疾病的平均误诊率更是高达40%以上。近几年,虽然医疗检测技术有快速发展,但是临床误诊率依然在30%上下,基本没有什么改进。如何提高临床诊断的正确率是医学领域迫切需要解决的问题。

你可能会想到:如果能将所有医生的诊疗经验都存储在计算机里,病人去医院看病时,将病人的病情线索输入到计算机,计算机自动在病例库内检索出相应的病例,帮助坐诊医生做出诊断,那么每位医生都可以成为老大夫,从而大大提高医生诊断的正确率并提高人们的健康水平。随着计算机互联网技术的发展,这样的设想已经可以实现并快速开展起来,这样的工作被安上了一个贴切的名字“智慧医疗”。智慧医疗是基于数据技术和智能数据分析技术形成的综合性智能辅助医疗系统,当医生在系统中输入患者的个人病情信息之后,系统可以在毫秒间为医生推荐相应的有针对性的治疗方案。数据分析系统之所以能在瞬间给出最佳的诊疗方案,得益于系统背后庞大的病例数据库和不断完善的数据分析模型,该数据库存储的信息一般包括病案、教科书、文献、专家会诊结果等六大数据模块、知识与经验来源。

国外的很多著名科技公司已经在智慧医疗领域进行布局,将大数据、深度学习、云计算、人工智能等相关的技术手段应用于疾病诊断与治疗,其中以谷歌、IBM、苹果和微软为代表。微软专门成立了一个项目“Hanover”,该项目旨在希望能够将每年发表的所有医学论文进行消化、分类和存储,“Hanover”已经在俄勒冈卫生科学大学Knight癌症研究所被投入使用,在自动分析研究论文中的数据以及临床试验、影像学诊断报告、电子医疗记录的基础上,以寻求能够有效治疗急性骨髓性白血病的药物,同时预测药物的有效性,并为病患制定个性化的治疗方案。IBM公司开发的Watson肿瘤解决方案,通过对多个肿瘤研究机构与医院的病案进行学习,能帮助医生分析临床数据,为病患制定个性化的治疗方案。2016年8月,IBM公司宣布将其旗下开发的智能医疗系统Watson系统引入中国,马上引起了国内医院的强烈兴趣,在很短的时间内,国内已有21家医院计划使用这套系统,以期基于此认知计算平台助力医院医生获得有效的个性化癌症治疗方案。Watson系统之所以如此被医院青睐,是因为它在其他国家已经发挥作用。例如,日本东京大学医学研究院曾利用Watson系统成功判断一位女性患有罕见的白血病,并提供了个性化诊疗方案,而在几个月前,该患者还曾被其他医院误诊。


从统计学上看,即使是经验丰富的医生也会出现判断或诊疗失误,这是无法克服和避免的,然而通过智慧医疗系统,能够充分分析和利用过去的海量医疗数据信息,从而快速将过去的相关医疗信息呈现在医生的面前,提高医生的诊断正确率。


总结一下

本节主要介绍了数据分析在社会生活中不同领域的广泛运用,从政府对国家的管理到制造业的产品质量管理,从市场营销领域到医疗改革领域,处处都有数据分析的身影。数据分析已经成为社会生活中各个领域都不可或缺的一门科学,它能够帮助落后的行业尽快实现转型升级。数据分析如此重要,也就要求生活在这个社会中的每个人都应该掌握一定的数据分析技能,这是社会发展的需要,也是个人价值实现和发展的需要。


温馨提示:

  • 数据分析课程私人定制,一对一辅导,添加微信(possitive2)咨询!

  • 生活统计学QQ群:134373751,用于分享文章提到的各种案例资料、软件、数据文件等。

  • 生活统计学微信交流群,用于各自行业的数据研究项目及其成果交流分享;由于人数大于100人,请添加微信possitive2,拉您入群。

  • 数据分析咨询,请点击首页下方“互动咨询”板块,获取咨询流程!

阅读全文
0 0