全球最牛的28个大数据可视化应用案例

来源:互联网 发布:java哈希表 编辑:程序博客网 时间:2024/05/16 17:33

随着大数据在人们工作及日常生活中的应用,大数据可视化也改变着人类的对信息的阅读和理解方式。从百度迁徙到谷歌流感趋势,再到阿里云推出县域经济可视化产品,大数据技术和大数据可视化都是幕后的英雄。今天,我们将连载由Teradata独家提供的来自全球28个大数据可视化应用案例。文章中不仅有极具艺术美感的可视化炫图,更有作者为大家解析可视化是如何制作的。

本系列4篇文章为36大数据独家专稿,任何不表明来源36大数据和Teradata以及本文链接http://www.36dsj.com/archives/41214的转载均为侵权。公众号也是如此。

一、航线星云

作者:Karthik Guruswamy

航线星云

关于洞察

截止到2012年1月,开源网站OPENFLIGHTS.ORG上记载了大约6万条直飞航班信息,这些航班穿梭在3000多个机场间,覆盖了500多条航线。

通过高级分析技术,我们可以看到世界上各家不同的航空公司看起来就像是一个美丽的星云(国际星云的组成部分)。同种颜色的圆点和粗线提供了见解,它们代表提供相同航线的航空公司,显示出它们之间的竞争以及在不同区域间的潜在合作。

这张基于数据可视化的Sigma图表显示了服务城市相似的不同航空公司。图中的圆点或圆圈代表航空公司,连线的粗细和远近则反映两个航空公司之间的相似性;连线越粗或越短则代表两家航司服务的城市越相似。图表中有几组航空公司,直观地表现了它们所服务的地理区域。

这张图表中的关键洞察当然地是航空公司之间的相似性甚至是重叠,它们是中国的南航和东航、阿联酋航空和卡塔尔航空、英航和汉莎航空、美航和达美航空;我们可以从中看出这些公司之间的竞争关系。瑞安航空则通过服务与汉莎航空和英航存在潜在协力的城市占据了一个利基市场;比起意大利或汉莎等其他的欧洲航司,法国航空则与美国联航等美国航空公司更为相似,这也许可以解释为联合品牌效应。本质上说,这是一张多维的韦恩图,用一种简明扼要的方式揭示了不同主体间的复杂关系。

总的来说,这张图表揭示了不同航司之间的相似性和竞争情况,有利于发掘潜在的合作关系、增加市场份额和市场覆盖面。这项技术可以通过不同参与者之间的相同变量,用于分析任何生态系统。

分析技术

这张可视化图表通过Aster App中心生成,运用到了关联挖掘的分析技术,研究上下文中各条目的共现关系。其中关联挖掘的算法是协同过滤,它作用于航线和城市数据,并将数据当做零售篮子数据。也就是说,篮子代表城市,而航空公司则是条目。两个航司之间的相似性由相似性得分确定,计分的原则是比较各个航司独有的航线以及同时运营的航线。之后再将这些成对的相似性得分当做连线的权重,再把各个航司当做节点,共同输入可视化仪器当中,运用具有模块上色技术的force-atlas算法,最终生成出这张美丽的图表。

二、Calling Circles

作者:Christopher Hillman

36大数据

关于洞察

我们无论何时何地都在使用手机并且产生出非常大量的资料,这些资料代表了我们每天的行为及活动。我们与其他人的每通电话及简讯都对应到我们的社会关系、商业活动以及更广泛的社群互动并且形成了许多复杂互相联结的通话圈。

这个资料视觉化图表是从行动电话使用者的通话模式资料所制作的。每个点都代表一个使用者拨出的手机号码,愈大的点就代表这个号码被拨打愈多次。每条两点之间的线都代表着从一个号码拨打到另一个号码。

每个行动电话使用者都会有一种独特的通话模式,这种模式可以用来发展适合的话费方案并且可以用来定义或预测他/她的行为。举例来说,当一个使用者正要从现在的行动电话服务商转换到另一个服务商时,我们可以从网内及网外发现两个类似的通话模式。

这张特别的图表是在前期由一连串的分析产生用来过滤第一层的通话模式。这里使用到的资料只从在几秒钟的时间取得。从图表的左上角可以看到许多大回圈,这些回圈表示短时间内这些号码被拨打了许多次。可以推测这些号码有可能是机器,像是自动答录机、互动式语音应答(IVR) 系统、安全系统或警报。人类不可能在短时间拨出这么多电话。这些电话会先放置在一个分开的群组,后续的分析就可以集中在个人使用者的通话模式上。

分析技术

我们利用图表来达成资料视觉化,虽然在调整版面格式的参数与传统展示图表不同。有一个常见的问题就是这些互连的图表通常在短时间就会变成非常巨大且因为庞大的互动次数导致几乎不可能被视觉化。从一个高度连结的图表里选出一段范例是一个困难的问题,因为我们需要决定忽略哪些连结。在这个例子里,我们取用来自非常短的时间的资料来达到一个可以呈现的资料范围。

资料格式就相对简单,拨话号码、收话号码、拨话时间、通话时间。我们先利用机器学习(machine-learning) 来对资料作分群然后再利用Aster Lens 来展示图表。

Calling Circles作者介绍

Calling Circles

Christopher Hillman

Christopher Hillman 跟他的妻子及两个小孩住在英国伦敦,在Teradata 的进阶分析团队(Advanced Analytics team) 担任首席资料科学家在全世界旅行工作。

他钟情于分析工作且有二十年的经验于商业智慧(business intelligence) 及进阶的分析产业。在Teradata 之前,Chris在Retail 和CPGN vertical作为一位解决方案架构师(solution architect)、首席顾问及技术总监。 Chris 现在与Teradata Aster 专家一同工作且参与大数据的分析专案,他帮助客户洞察资料中的价值并且了解MapReduce 或SQL 作为合适的技术。

在Teradata 工作的期间,Christopher 也同时攻读在Dundee 大学的资料科学博士并运用大数据分析在人类蛋白类的实验资料上。他的研究领域包含利用平行化演算法即时分析质谱仪的资料。他也在大学开课教授Hadoop 及MapReduce 程式设计。

三、信号风暴骑士

作者:桑德拉.拉曼 (Sundara Raman)

信号风暴骑士

关于洞察

此可视化捕捉了桑德拉.拉曼在澳大利亚悉尼通勤列车廊道的旅程。桑德拉携带其手机和专用软件乘坐列车穿行于悉尼, 由于列车快速穿过城市, 我们可以通过其手机与信号发射塔的连接来跟踪, 用彩点(或节点)描绘在图表上。

利用手机数据对运动中的、聚集大量人群的交通模式进行研究是新分析形式的一部分。其主要目的在于优化发射塔网络、避免性能问题、改善客户体验。但它还能支持新兴数据货币化发展,详细的交通流量信息可用于城市规划、零售商店位置分析和市场营销供应。

桑德拉在分析中探寻能击垮发射塔、影响手机性能的信号“风暴”。当拥挤的通勤列车奔跑于轨道线上,后停于车站,列车发出的100-1000个信号快速移动于各发射塔之间,就足以击垮它们。该可视化是一系列图表的一部分,覆盖了发射塔性能数据、通勤交通流量以及塔切换的信息,准确表现出手机信号的“风暴潮”,从而据此提出详细的建议来优化网络。

图表中还能突显出特定客户体验时由于在4G发射塔(暗点)和低速3G发射塔(亮点)间切换而出现的问题—-信号在发射塔之间来回反复切换,塔信号强度剧烈变化,产生“乒乓效应”。典型代表是位于林菲尔德、可莱雅、怀塔拉、北悉尼以及查茨伍德各车站附近的相连的封闭式发射塔群。

分析方法

该可视化是通过Teradata Aster和Aster Lens实现的。智能手机的遥信数据是从同时使用的3G和4G手机中收集的, 收集在拥挤的公共交通路线上使用专用软件的数据, 地点是沿着澳大利亚悉尼北岸线和史卓菲市交通线一带。分析还包括了对火车站和信号发射塔位置数据的地理空间分析, 从而将位于火车站方圆1公里内的发射塔隔离出来。这个方法有助于衡量确定小范围内,车站周围各发射塔之间信号传播的影响。另外GEXF西格玛图表中还添加了颜色代码, 利用可视化语言统一地区分4G和3G信号发射塔的区域。每种颜色代表一组发射塔的网络覆盖区域。悉尼城市铁路公布的统计数据涉及峰值时间每个车站火车的交通负荷, 分析则利用这一数据关联了手机站点的性能。

作者介绍

信号风暴骑士

桑德拉.拉曼 (Sundara Raman)

桑德拉白天是一位高级电信行业咨询师, 夜间则是一位胸怀大志的数据科学家。他在新西兰梅西大学获得商业管理硕士学位, 现在与妻子及2个孩子住在澳大利亚的悉尼。

桑德拉还是一名发明家, 他曾与他的妻子共同应用“认知行为疗法”(CBT)原则, 设计出“计算机辅助心理评估与治疗”, 获得了澳大利亚一项专利权。

所以, 如果你在下一个日常通勤时碰巧瞥见桑德拉在把玩多个手机, 你就会明白他不是疯了。他只是在利用分析获得深入见解, 从而帮助电信客户改善移动网络的客户体验。

四、互联网络

作者:Yasmeen Ahmad

大数据

关于洞察

这一匿名可视化报告用于支持一家Telco运营商分析住宅Telco线路。该项目旨在确定线路与网络硬件性能之间的关联,此类关联可能影响到客户体验。

点(节点)代表Telco网络上的DSLAM(数字用户线接入复用器)。DSLAM提供了一项重要服务,能够影响客户呼叫体验;它们可将客户线路连接到主网络。

DSLAM服务级别有多项测量指标,例如衰减、比特率、噪声容限和输出功率,并可针对每条线路整合至三个性能类别。紫色节点显示具备卓越性能的DSLAM,橙色显示具备出色性能的DSLAM,白色显示性能较差的DSLAM。

在图表中,仅少数DSLAM体验到了高质量服务(紫色)。这些 DSLAM 在同一建筑中与主网络基础设施共置,由于靠近中央网络中枢,从而带来了优质服务。大多数客户实现了出色体验(橙色),同时我们发现城市郊区存在服务较差(白色)的DSLAM。

当客户获得可变网络质量时,客户体验和满意度会受到很大影响。Telco的主要目标是确保客户获得一致的体验,即使是那些身处主城市外部的用户也不例外。此图表确定了每个提供可变服务级别的 DSALM;以出色(橙色)和较差(白色)簇之间共享的节点表示。借助这一数据,Telco现在能够调查和优化可变DSLAM。

分析方法

这一西格玛可视化报告使用内建分析和在Teradata Aster平台内发现的可视化创建而成。

收到的数据来自整个城市的住宅线路,其属性包括衰减、比特率等。我们对这些属性进行了整合,以确定表明客户网络体验的性能等级。

这些簇构成了相关性和回归分析的基础,以确定在不同因素下网络性能的变化,这些因素包括:线路技术和长度、调制解调器类型和配置、DSLAM、卡技术、地理位置等。

该西格马可视化图表仅显示了整体分析的一部分,即DSLAM与网络性能间的联系。

作者介绍

大数据
Yasmeen Ahmad

Yasmeen是Teradata的最有创意和有见地的数据科学家之一。 Yasmeen在苏格兰长大,她喜欢户外活动,尤其是在苏格兰Munros山和在海上划皮艇。

她在许多国家工作过,包括英国、爱尔兰、荷兰土耳其、比利时和丹麦,她涵盖了金融,电信,零售和公用事业等行业。 Yasmeen专精与企业合作以确定他们的挑战,并将其转化为分析背景。她专注于企业如何利用新的或尚未开发的数据来源,沿着新技术以提高自身的竞争能力的独特能力。

Yasmeen已经与许多分析团队工作,提供领导,培训,指导和实践的支持,提供可操作的见解和经营成果。她使用各种分析方法,包括文本分析,预测建模,归属策略和时间序列分析的发展。她坚信可视化的力量使的在企业用户可以容易进行复杂的沟通。

在Teradata之前,Yasmeen在生命科学行业工作作为数据科学家,建设复杂、多维数据分析管线。 Yasmeen还持有数据管理,挖掘和可视化,这是进行在威康信托中心的基因调控和表达的博士学位。她在国际上发表了多篇论文并在国际会议和活动中演讲。此外,她还在MSc教有关科学数据和商业智能硕士课程。

Yasmeen对于数据分析和可视化有敏锐的热情,通过她的研究中一直好奇地问问题并了解更多信息。这些技能已经允许Yasmeen探索多学科的机会,为她提供了新的无尽的挑战!

五、连续性集装箱修理

作者:Frances Luk

大数据

关于洞察

物流集装箱在运输过程中常常会受到损伤,而这些集装箱的修理则依靠世界各地数以百计的供应商来处理。在通常情况下,如果状况不好无法继续使用,受损的集装箱会在被运往下个目的地之前就近修理。我们的客户是全世界最大的一家物流公司,他们希望了解集装箱的修理质量以及各个提供修理的供应商。在进行这项分析之前,客户无法获知集装箱使用寿命当中所发生事件的整体概览。而通过重现每个集装箱使用寿命当中发生的所有事件,我们成功地分析出了集装箱的修理模式。

通过这项分析,客户希望找出因为同一种损伤原因而发生的连续的修理活动,规定这两次修理发生在某一段时间内,或者说第二次修理比预期的时间提前了。这种活动表示早期修理的质量较差,从而造成了第二次的修理。这张桑基图中第一列的方框代表负责第一次修理的国家。

第二列的方框则代表负责第二次修理的国家。从第一列方框直接连到‘结束’框的则代表在第一次修理之后没有再发生修理行为,这是理想的状况;连到第二栏方框的则是意外情况。这张可视化图表让我们的客户得以按地域查看提供修理的供应商,未来还可能在工厂层级继续深钻。

分析技术

集装箱修理活动通过内建的数据装载器从Teradata数据库牵引到了Aster数据库中。我们利用事件序列和模式匹配技术来鉴别连续性修理活动。我们利用这张桑基图来比较不同国家修理工厂的质量,图中的线越粗则表示两个国家共同出现的次数越多。这张图表提供了极佳的整合信息,显示出应该关注于哪个国家,接下去可以利用数据来计算重点关注国家发生第二次修理的相对频率。这张桑基图通过Aster平台中的Aster Lens生成。

作者介绍

Frances Luk

Frances Luk是丹麦哥本哈根团队的一名数据科学家。她从小在香港长大,但某天却决定要去做一些不一样的事情,现在和她的丈夫还有两只可爱的小猫一起在丹麦生活,还拥有哥本哈根大学的硕士学位。在成为数据科学家之前,她曾经用五年时间来开发企业Java应用,并有七年从事银行和物流行业的数据仓库和数据分析的经验,现在负责丹麦和其他北欧国家的跨行业售前和大数据管理PS服务。

Frances对数据科学的热情来源于她强大的技术背景以及她对商业强烈的好奇心。每一比特的数据对她来说都像是一个谜,她喜欢拼凑细节并享受美丽图像产生的那一刻,喜欢看到客户发现未知的洞察时脸上惊叹的表情,这就是她每天工作的功力。

六、集装箱修理波浪

作者:Frances Luk

大数据

关于洞察

在通过遍布世界的船舶、卡车、火车进行运输的时候,集装箱时时会受到损伤。损伤情况发生时,集装箱会被运到最近的修理铺里,而这些成百上千个的修理铺散布在世界的各个角落。

我们的客户马士基航运公司希望加强他们对不同修理铺修理质量的了解。过去他们无法在每一个集装箱的层级上对这些数据进行分析,但Teradata Aster平台让马士基航运能够在这个层级调查并分析修理结果,获取有趣的发现、了解它们的模式和趋势,而这是前所未有的。

这张可视化图表中右下方的点代表不同的修理活动,曲线上方的点则表示不同的商品,商品和修理活动之间的连线则代表运输某种商品之后马上发生某种修理活动的频率;连线越粗表示运过某种商品后集装箱发生修理的频率越高。从图中可以看到,最粗的线连接着废金属和底板损伤,也就是说最经常出现的商品和修理类型配对是废金属和集装箱底板修理。

对于马士基航运来说,知道废金属最经常导致破损当然不是什么新鲜事,但采集到的这些数据为将来的分析奠定了强大的基础,(自然可以延伸到考虑比如比起其他货品,是不是更经常要运送废金属)。我们不能完全肯定废金属和底板破损之间的因果关系,但这张可视化图表却突出了问题的规模,建立了马士基航运公司的高级分析团队未来进行更细致的分析时的好的起点。将来的分析工作完成时,最终得到的结果可能就是更差异化的货运定价模型,抵减预计的运后修理成本。

分析技术

集装箱运输和修理活动通过内建的数据加载器从Teradata牵引到Aster当中。通过和马士基航运的ADL(敏捷数据实验室)和AA(高级分析)团队紧密合作,我们确定了适合的途径,用来分析货物和修理之间的关系,并应用模式匹配技术调查连续性运输和修理的模式。

之后我们用sigma可视化工具来展现货物和修理类型之间的关系,这两者在图中表示为实心点,连线的粗细表示共现的次数。初始sigma图通过Aster平台中的Aster Lens生成,现在展现的是优化版本。

作者介绍

Frances Luk,同连续性集装箱修理是一个作者。

七、Terror Report

作者:Kailash Purang

大数据

关于洞察

这份资料视觉化是Kailash Purang两部分CIA 报告的第一部分。它展示了进阶分析可以快速地客观地从复杂的文件精炼成简单易懂的视觉化图表。这份图表应该与第两部分的报告(Crown Of Thorns) 一起被检视。

Kailash 刻意挑选了一个具高度政治及情绪相关的主题,这份报告是美国参议院特别委员会研究院针对2001 到2006 年CIA(Central Intelligence Agency) 拘留和审讯程序及审讯拷打的研究。

这是一份相当长的报告,总共从6000 页中有525 页被公开,其中包含特定的政府用词以及在技术文件上会有的专有名词。这是份极端重要的文件以至于少数人可以第一手阅读到并且提供自己的意见,大部分人只能从其他人写的摘要报告接触到。然而像这样泛政治化及情绪性的主题,我们如何确定我们读到的摘要是完全正确且没有其他人的主观意见呢?

简短地来说,这是一个对于测试分析工作是否可以提供一个简单客观的方法来检视报告内容的理想主题。

Kaliash 的第一个视觉化图表”恐怖攻击” 是简单的文字云(word cloud),报告里愈常出现的特定文字在图表上呈现愈大的图形。文字云这样的图表可以很快速被制作,也可以轻易客观被吸收。然而,太粗浅的呈现是它的限制,我们从中可看到关键字,但是并无法从图表中得知任何的细节也无法知道各个主题中间的关联。文字云提供我们一个快速且非常简单的方式来了解报告里的内容。
请接着阅读第二部分“Crown Of Thorrns” 。

分析方法

这份视觉化使用525 页的中央情报局委员拘留及审讯计划报告,这份报告是于2014 年12月9号由美国参议院情报委员会公开发表。

这份图表是使用Wordle 制作的,Wordle 是一个由Jonathon Feinberg发表的文字云制作程式且可以从网站上免费取得。我们可以利用英文里的剔除字(stop word) 来移除低资讯价值的字像”的”跟”了”。制作的图表留下最常出现的字词,读者可以简单地从字词出现的频率得到结论。

作者介绍

大数据
Kailash Purang

Kailash 是在Teradata新加坡资料科学家领导人。他也在整个东南亚工作,大部分在印尼支援及领导Teradata在银行及通讯产业客户的服务。

Kailash 有新加坡国立大学经济硕士经济跟统计学学士、新加坡国立大学经济硕士、伦敦大学管理学学士。他在分析领域有长达15年跟产业的经验。

尽管是”出卖灵魂” 投身商业领域,他仍然认为所有这一切的学习和技术的目的是为了让人们的生活更轻松更有趣。为了引进一个有趣的无痛的分析方式,他在业余时间作资料视觉化让每个人都可以从简单的分析应用过程中获益。

作为Teradata资料科学家,他努力使自己的客户实现大数据的全部潜力,使他们的客户可以通过更好的服务和产品受益。

八、荆棘之冠

作者:Kailash Purang

数据可视化

关于洞察

这是Kailash Purang的CIA系列可视化报告的第二部分,它可以快速提炼出复杂的文档,将其转换成没有偏见且易用的可视化报告,显示出了高级分析能力。建议读者在看过第一部分“Terror 报告”后继续阅读本报告。

在此部分可视化报告中,Kailash 分析了与“Terror 报告”词云相同的数据,并进行了更完善的文本和图形分析,以揭示更多的环境信息和报告本身的意义。每个点(或节点)是报告中出现的重要词,较大的节点是出现更频繁的词。线条(或分界线)将词语与随之出现的其他词语连接在一起。颜色较深、较粗的分界线连接出现频率较高的词语。

现在,我们可以在词语簇中查看主要环境信息和主题,及其相互的关联。如果您从左上角开始,可以看到“waterboarding、rectal、mother、brutal”和“harm”等词中的姓名 Abu Zubaydah。这些线条把它连接到强化审讯手段、CIA 和被拘留者及较小词组,如监督和积极避免,描述了俘虏Abu Zubaydah所接受的治疗。我们可以通过追踪这些线条来查看如何及为何允许其发生的相关问题。

通过研究可视化报告,读者现在可以快速了解这一极为复杂的报告所涵盖的所有主题以及它们之间的关键细节和相互作用,没有人为偏见和筛选。

分析方法

此可视化报告应用了Teradata Aster的文本挖掘技术,对 2014 年 12 月 9 日公开发布的“中央情报局的拘留和审讯程序委员会调查”摘录的第525页进行分析。此调查由美国参议院情报委员会编制。

术语频率–逆文档频率被用于分离报告中的关键词和词组。此算法比较了一个词在一篇文本中出现的频率,与它在整篇文本中出现的频率。对某篇文本很重要的词在该篇文本中会比在整篇文本中出现得相对频繁一些。

链接词的详细连接数据通过文本挖掘,使用原生Aster文本挖掘功能(如nGram)来获取。输出结果用于创建底层节点分界线表。这可看作是使用Aster Lens的图表,强调连接。这允许出现清晰的词语簇,代表个人的想法。

作者介绍

数据可视化Kailash Purang

Kailash 是在Teradata新加坡资料科学家领导人。他也在整个东南亚工作,大部分在印尼支援及领导Teradata在银行及通讯产业客户的服务。

Kailash 有新加坡国立大学经济硕士经济跟统计学学士、新加坡国立大学经济硕士、伦敦大学管理学学士。他在分析领域有长达15年跟产业的经验。

尽管是”出卖灵魂” 投身商业领域,他仍然认为所有这一切的学习和技术的目的是为了让人们的生活更轻松更有趣。为了引进一个有趣的无痛的分析方式,他在业余时间作资料视觉化让每个人都可以从简单的分析应用过程中获益。

作为Teradata资料科学家,他努力使自己的客户实现大数据的全部潜力,使他们的客户可以通过更好的服务和产品受益。

九、就业的耀斑

作者:Tatiana Bokareva

数据可视化

关于洞察

这张可视化图表反映的是职业服务供应商对雇主的收费。图中“喷发”出射线束的点代表服务供应商,其外围的点则代表雇主,它们之间的连线表示两者之间的关系,连线的粗细和收费的高低成比例。

这张可视化图表可被用于观察职业服务供应商和雇员之间的关系。服务供应商帮助人们寻找合适的工作岗位,同时也不断地为求职者提供维持工作的帮助。为了向每个求职者高效地提供定制化而灵活的服务,职业服务供应商通常需要跟众多雇主保持良好的关系。

而本张图表还能检测到不寻常的联系,例如:

  • Ÿ某一组单独的服务供应商和多家雇主存在连接,但是连接网络却和图中其他的参与者不同
  • Ÿ某家服务供应商只和一家雇主存在关系
  • Ÿ服务供应商同时也是雇主的环路

澳大利亚就业部负责监管各类就业服务供应给澳大利亚政府的方式。服务供应商负责与当地雇主和注册的培训机构联络,为求职者提供恰当的服务组合。绘制这张图表的目的是调查现有请求中重要而不符合体系的那一类。

分析方法

这张可视化图表是使用Teradata Aster Lens生成的网状图。图中的请求数据来自就业部,在导入Teradata Aster探索平台之后这些数据被进行分类,并且按时间、地点、种类分别测试了准确性;之后再进行纵向分析,检查流程和事件异常。这张网状图可用于监察合谋的模型,可以快速查看服务供应商向雇主要求金额的多少。

还可以跨越不同的时段比较这系列的可视化图表,观察网络中是否出现了新的孤岛或合谋模型。

作者介绍

Tatiana Bokareva

十、极端网络

作者:Anonymous

数据可视化

关于洞察

如果说越战只是“存在在电视里”的战争,那么伊朗和叙利亚之间的冲突就说得上是“社交媒体里的战争”,这场冲突还正在进行中,并且牵扯到了伊斯兰国(亦即ISIS或ISIL)。ISIS的成员经常利用Twitter等社交媒体来招募成员、发布宣传信息,他们把社交媒体当做散布恐怖的武器,并通过发布极端暴力的图片和视频极大地影响了世界对他们的看法。

通过这些活动,ISIS非常成功地鼓吹了那些被剥夺权利的穆斯林青年,在全世界发起了无数的恐怖袭击。ISIS发布Twitter的机器由一群非常擅长技术的人进行管理,这使它成为了一个非常难以战胜的敌人,这个问题还被ISIS社交媒体网络的动态性质继续放大。他们会很规律地禁用一些账号然后不断地开启新的账号,使得这一群人非常难以追踪。

这张可视化图表展示了ISIS Twitter网络的一小部分,显示出社交互动的复杂性以及要鉴定并追踪每个利益相关人时所要面临的困难。而ISIS成员和新闻来源、政治活动人士、学术研究人之间的联系更使问题恶化,他们之间有着千丝万缕的联系。

图中高亮的结点代表一部分曾经发布仇恨、暴力推文来支持ISIS的Twitter用户,我们依靠33个ISIS成员及其簇拥发现了这一部分人,这33个人中有的是ISIS的招募专员,有的是它们的宣传员。我们利用图分析技术来分析激进分子及其朋友与关注者之间的联系,凭此来发现网络中最有影响力的账户。这种技术使我们能够分析ISIS支持者及其追随者的社交网络联系,最终找出在该组织内部最有影响力的人。

分析方法

这张Teradata Aster可视化图表是Aster App Center产出图表中Gephi图的范本。这张图表以33个ISIS成员及其追随者的Twitter好友列表为根源展开树状分析,最后总计分析了334,370个Twitter账号,但图中显示出的只有前10%的节点。本图以特征向量中心性来衡量每个用户在社交网络中的影响力。图中的点代表每个用户,线则代表用户之间的连接关系;高亮的节点代表这些用户是已知的或被怀疑是ISIS成员/支持者,而高亮的连线则在追踪这些“重点用户”和网络中其他用户的联系。

作者介绍

Tatiana Bokareva

十一、风暴之眼

作者:Christopher Hillman

数据可视化

关于洞察

在现代社会,社交媒体是一个十分重要的存在,它在许多领域发挥着积极的作用。然而,它也有着负面的影响。网络欺凌和言论不当的推文可以在短时间内发生病毒性传播,对个人和品牌造成毁灭性的影响。此外,人们常常会对这些140字的微博进行断章取义。

这个数据可视化图表展示了“推特风暴”中各推特用户间的联系,这个现象可以被等价地视为发生在21世纪的操场欺凌,但它在全球范围内发生,而欺凌发生的场所则变成了整个网络社交媒体。

每个人都可以发布具有有意或无意地煽动性的信息,一群人可以针对一个原推作者发表负面评论,群起而攻之;然而另外一群人可能关注了到发生的事情,并尝试去保护原推作者。事件在某一个时间就会形成病毒性传播,使每一个推特用户都知道发生了什么事情,并对原推或者热门评论发表自己的意见。这些事件的覆盖面确实可以在很短的时间内辐射到全球范围。

Justine Sacco的“推特风暴”事件是“风暴之眼”的原型。Justine在踏上去非洲的飞机前发表了一条调侃种族主义的推文并推送给了她的几个朋友,但等她降落时,她就成了全球网民的众矢之的。这是因为她的推文被病毒式传播了,而大规模的“推特风暴”摧毁了她的生活。

而这一张可视化图表则记录了英国前首相玛格丽特•撒切尔夫人离世时的“推特风暴”。撒切尔夫人的支持者和反对者们都对一条负面的推文进行了回应,这两群人之间有着清晰的界限。风暴的中心是撒切尔夫人,她的簇拥者们希望支持和保护她;而风暴的外围则是大量的网民,其中不乏用威胁手段发表负面言论的攻击者。这些节点是各推特用户的ID,这些线(或边界)则联系起了通过转发和提及等方式参与其中的推文。

分析方法

尽管它的布局参数和图表形式有些不同寻常,但这张可视化图表再现了一张表格。图表里的数据是从twitteR 包里下载出来的,并且经过一周左右的持续采集。从这个时点开始,数据被导入Teradata Aster ,一部分的数据清理和重定格式工作展开,这就比如在“收件人”后面的字段中采用文本挖掘技术筛选掉不相关的推文。之后再使用Aster滤镜来创建图表,导入例如调整的重力、边缘影响等参数,最终生成可视化图形。

作者介绍

数据可视化
Christopher Hillman

Christopher Hillman 跟他的妻子及两个小孩住在英国伦敦,在Teradata 的进阶分析团队(Advanced Analytics team) 担任首席资料科学家在全世界旅行工作。

他钟情于分析工作且有二十年的经验于商业智慧(business intelligence) 及进阶的分析产业。在Teradata 之前,Chris在Retail 和CPGN vertical作为一位解决方案架构师(solution architect)、首席顾问及技术总监。 Chris 现在与Teradata Aster 专家一同工作且参与大数据的分析专案,他帮助客户洞察资料中的价值并且了解MapReduce 或SQL 作为合适的技术。

在Teradata 工作的期间,Christopher 也同时攻读在Dundee 大学的资料科学博士并运用大数据分析在人类蛋白类的实验资料上。他的研究领域包含利用平行化演算法即时分析质谱仪的资料。他也在大学开课教授Hadoop 及MapReduce 程式设计。

十二、欺诈入侵者

作者:Christopher Hillman

数据可视化

关于洞察

此分析是一种检测潜在保险索赔诈骗的快速方法。可疑的索赔就像外星人侵略一个星球,或虫子细菌感染一个纯细胞。

骗子通常会在索赔细节中留下微小的数据痕迹。呼叫中心指出的像一个共同的地址、电话号码、电子邮件、银行账户、注册信息、医生或律师等。这个数据可视化显示了所有正当保险索赔和欺诈保险索赔之间的联系。图像中每个点(或节点)代表一个单个的保险索赔,因此整个圈就代表每个索赔。大的节点是那些已经过调查并被发现是欺诈的索赔。较小的节点是正当索赔和那些没有被调查过的索赔,因此它们可真可假。节点间的线(或边界)显示出各索赔之间的联系。它可能是重复使用同样的电话号码、地址、银行账号信息、电子邮箱地址和注册信息等。节点间的线越粗,意味着节点之间联系越紧密,像电子邮箱、地址和电话等信息重复越多,进而索赔则越可疑。

从分析中我们现在可以很容易的找出潜在的索赔诈骗,例如下午7点外星虫子一样的侵略者显示在圈内,那么有共同联系的正当索赔也可能会是诈骗。我们能够迅速把所有未调查的、却与欺诈索赔高度关联的索赔隔离出来。最终输出的是一项索赔列表,其关联指出其欺诈的嫌疑,这些索赔会被送入欺诈调查部门进行仔细调查。结果这就带来了极高的成功率。

分析方法

这一视觉化利用Teradata Aster及Aster 透镜构建而成。它使用详细的索赔数据,通常意味着数百GB到数TB的数据,以及来自呼叫中心机构的关于处理索赔的文本数据。该数据通过加载到Teradata Aster数据库进行分析使用。

保单号码可帮助我们将呼叫中心机构的文本数据和索赔数据联系起来。但寻找共同的或重复的却联系非常困难,因为它们通常是以文本形式存在的。大多数详细的关联数据也是从文本中获取的,利用Aster本身的文本挖掘功能,如“命名实体识别”算法,查出索赔形式和呼叫中心的指示。输出的信息不仅可被用来确定任意2个索赔间可能发现的重复数据,还可创建一个基于节点和边缘的表格。使用Aster透镜和 ForceAtlas2显示算法可将其具象成图表。

十三、资金喷泉

作者:石棋玲

数据可视化
关于洞察

这个匿名的可视化是分析的一系列映射在中国大型企业之间的资金流动量的关系,这是一家中国大型银行的企业银行业务的风险分析项目之一。分析使用转账交易数据以了解风险和发现市场机会。

在此图中点 (节点) 代表公司。线 (边缘) 代表两家公司之间的资金转移和箭头显示这笔钱流向。

图表显示了不同的公司之间的所有金钱流动。我们可以将映射通过 2、 3 和 4 的后续交易,如绿色公司了解上游供应链的流动和对彼此相互依赖性的公司。
若要管理风险,银行需要识别于高度相互依存的公司。它允许银行确定关键的公司在供应链和独立交叉检查公司的现金流来验证其资金的健康状况。

它还有助于识别欺诈。银行可以检查公司的真正的商业活动,并可以验证借出的资金用于其目的。例如制造商,是投资在股票市场的投机资金,而不是向供应商付款或谁拿出一笔贷款建一座工厂,但真正地将资金用于短期住宅房地产交易。
它还有助于市场营销,它强调了银行服务方面的差距。其中大量的资金流出 (或) 到的链标识高价值前景公司。它为现有的客户端揭示了在融资、 结算、 风险管理等更广泛金融服务的服务提供更高的价值。

关于分析

这种分析使用 Teradata Aster和 Aster 的Lens。装载的交易数据是非常大的, 涵盖超过 670,000 公司的 60,802,990 记录。公司记录包含行业分类代码,因此我们可以理解他们的业务活动。这张图包括 PageRank 用于选择顶级的32 个重要客户和我们包括所有相关的交易对手方总交易大于或等于达到人民币 70 万元(USD$ 115 k)。

在此图中有 3883 节点和 3943 条边。节点代表公司,而边代表公司之间的现金流,箭头显示这笔钱流向。

作者介绍

数据可视化

石棋玲

石棋玲(Mary) 是已经在中国尝试使用高强度超级图形方法的大规模风险分析的数据科学家和开拓人。她与中国的银行结成伙伴关系的目标是要揭开中国高度复杂的商业系统中管理风险的新方法。她的工作包括”资金喷泉”是一系列的创新,帮助消除金融系统中的风险只是其中一例。 她充满天赋, 会在银行金融应用方面有更广阔的世界。

石棋玲目前是Teradata中国 的高级顾问,是Aster & Hadoop 大数据卓越 (COE)中心的一员。石棋玲于2009年在中央佛罗里达大学获得应用数学博士学位。她目前正在职读美国德拉维尔大学的MBA学位。在 Teradata 之前, 她在美国匹兹堡的 PNC 银行的风险管理部门工作 2 年以上。那段时间,她开发了许多算法来控制风险和打击欺诈和洗钱 ;其中几个算法曾出现在美国货币控制委员会的报告中。她在美国计算机科学公司工作时开发了很多计算机程序并在多个国际SAS 会议上发表。

十四、基因世界之窗

作者:Andrew Cardno & Stephen Brobst

数据可视化

关于洞察

这一数据可视化采用了1000个基因工程的数据,显示出不同人群及地理位置基因的变化(和相似性)。

每个框架都显示出1000个基因工程中一个不同的群体或者地理位置。每个框架都是由纯基因数据构建成。观察者可以清楚地看到不同群体的变化,证明了大规模的基因数据有助于明确地了解全球各个地理位置的群体。

项目的目标在于证明大规模基因分析的价值。大规模基因分析使用高强度超级成像法更好的理解癌症的基因遗传模式,及如何开发出与个体的遗传基因成分匹配的个性化医学治疗法。

分析方法

这一可视化通过VizExplorer 显示了一批量子超级图像的集合,在Teradata相关的数据库之上使用查询叠加进行大规模数据处理。

大规模数据处理最初采用量子树算法,通过使用一种数据库内的递归算法,将1000个基因群体的全部位置信息置于一个常见的分层量子网格中处理。然后,一个数据库查询被用于为每一个相应的群体的总人口构建数据子集。数据子集继而可用以构建一幅热力图,显示在每个框架上。

最后各框架聚集一起组成一幅“小倍数”图像,这样可在1000个基因项目整体中观察出各群体间序列数据的模式。基因数据规模非常巨大:一个包含25000个肿瘤的数据库就意味着超过75兆数量的数据记录。

作者介绍

数据可视化
安德鲁.卡德诺(Andrew Cardno)

安德鲁是VizExplorer公司首席技术官。他拥有奥塔哥大学测量学学士学位,并获取了维多利亚大学计算机科学学位。他通过训练成为一名制图师,在制图、数据可视化、高性能的数据库设计领域创造了超过60项专利和发明。在数据可视化相关的信息技术领域,他和他的团队两度成为史密森学会奖的英雄主义得主。安德鲁还参与合著了一本数学游戏分析方面的书,以及60多篇数据可视化及高级分析领域的文章。安德鲁出身并成长在新西兰南岛。现在,他和他的妻子及4个孩子一起住在美国加州。

宝立明(Stephen Brobst)

宝立明是Teradata公司首席技术官。 他毕业于麻省理工学院计算机科学专业,他的硕士和博士研究集中于高性能并行处理。他还完成了由哈佛大学商学院和麻省理工斯隆管理学院合办的工商管理课程与论文工作。在巴拉克.奥巴马首次任期期间,他还曾被任命为“总统科技顾问委员会”(PCAST)的一员,服务于“网络与信息技术研发”工作小组。近期,由Exec Rank从10000多名美国主要首席技术官里做出的排名中,宝立明名列第4(前3名为亚马逊网CTO、特斯拉汽车CTO,以及英特尔CTO)。

宝立明是数据狂,安德鲁是视觉化狂。他们二人同在“数据仓库研究所”和其他论坛里教学高级数据可视化长达10多年。包含在这个课程的就是针对基因组学超级图像的深度测试。宝立明和安德鲁还同是户外运动的狂热爱好者,他们在新西兰和美国常一起出外背包旅行。

十五、担保圈火花

作者:张玉瑞

数据可视化

关于洞察

‘担保圈火花’ 展现了在某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络.这是担保圈分析的其中一个图形。

制造商和零售商早就认识给客户提供消费贷款来促进销售的好处。汽车行业的竞争越来越激烈,在全球最大的汽车市场中国也不例外。为了更好的争取客户,很多汽车金融公司和4S店为客户申请汽车消费贷款,一些手头拮据的顾客轻松实现购车梦想。

在这个隐去名字的图形中,点代表车贷客户或者车贷担保人,线代表担保人和被担保人的担保关系.不同颜色用来区分相应的担保网络。

从图形中的这些火花绽放,我们可以很容易看到黄色、蓝色和紫色的群体,这其中几个担保人为很多贷款提供担保。这些担保人有些是汽车公司或者是企业法人。在有些情况下,像蓝色和紫色群体,不同的相关实体作为担保人,这样就很难发现总体的风险暴露。

银行可以针对这些风险暴露采取措施。可能不是那么直接,该图只是该系列的其中一幅。银行首先要做的是防止多米诺效应。在很多情况下,这些汽车厂商和4S店是银行的优质客户,银行出于维护客户关系,扩大业务范围,提高客户黏度,为此办理车贷业务,但相应的车贷风险还是要做好监控和管理。
分析方法。

这个图形展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID,担保合同信息,担保金额,企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。分析函数包括:betweenness、degrees、PageRank、modularity、eigenvector、centrality和local clustering coefficient。

十六、担保圈毒刺

作者:张玉瑞

数据可视化

关于洞察

‘担保圈毒刺’ 是一系列银行风险管理分析中的一个结果输出。它揭示了对公客户贷款组合的精心策划的带有迷惑和欺诈的担保行为。这是Teradata在中国开发的一些大数据风险管理技术的一部分。

它是着眼于公司客户担保业务的,某家公司为别的公司提供担保,向银行申请贷款。通常情况下,只凭借被担保公司的资质是无法获得相应贷款的。

问题来了,当公司客户互相担保,比如说,A作为B的担保人申请贷款,然后B做为A的担保人申请贷款。这样,所有的风险就会转嫁给银行。一旦A或者B出现违约,会波及到这两家公司的贷款,风险暴露会成倍增加。一对一的互相担保非常容易发现,但如果这个担保圈比较大,或者如果公司结构比较复杂,贷款就会给到不同的分公司,不同的省公司,甚至不同国家的公司呢?

在这个隐去名字的图形中,我们把互相担保的公司给分开。点代表一个公司,担保人或者被担保人。线代表担保人和被担保人之间的关系,线的粗细代表担保金额的大小。

像致命的水母或者潜藏在大海深处的毒刺,‘担保圈毒刺’ 揭示了错综复杂的互保网络,每个担保网络涉及数百万甚至亿级的贷款金额。贷款审批部门可以开始详尽的拆网计划以降低银行风险,让金融系统更加安全。

分析方法

这个图形展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID,担保合同信息,担保金额,企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。分析函数包括: betweenness、degrees、PageRank、modularity、eigenvector centrality和local clustering coefficient。

十七、担保圈之谜

作者:张玉瑞

数据可视化

关于洞察

‘担保圈之谜’ 揭示了房地产开发行业所产生的潜在风险。首先房地产公司是银行的重要客户,开发住宅需要银行的资金支持,房屋建成后,银行给购房者提供住房抵押贷款,延伸和拓展了银行业务,同时,帮助房地产公司销售产品。

房地产的黄金时代已经过去,未来中国的房地产价格在不同地区会出现分化。一二线城市住宅地产需求旺盛,价格坚挺,三四线城市市场低迷,部分区域价格下滑,销售不畅。为了促进销售,部分开发商为购房者提供担保,降低购房门槛,低首付重现江湖,为的是去库存。中国经济处在转型阶段,有些行业出现一定的风险,而身在淘汰落后产能的购房者出现断供的可能性在增加,另外,如果同时房地产价格出现下滑,不以居住为目的的炒房者,这些房贷的风险也会进一步增加。房地产公司作为担保人,他们未来的风险需要防范。

从银行的角度讲,每个房贷是按照每个购房者的资质来审批。每个人的房贷,如果由房地产公司担保,本身的风险并不大,但如果房地产公司为很多人提供担保,很可能是房子没有卖出去,制造一种虚假销售,套取银行贷款,那这样的风险就要严加防范。

这个隐去名字的图形让银行看清房地产开发商和房贷客户的担保关系。每个点代表房地产开发商或者房贷客户。线是房地产开发商和房贷客户之间的担保贷款。不同颜色可以区分不同担保网络。你会看到一些房地产开发商为大量的客户提供贷款的担保。

‘担保圈之谜’ 让银行展现和监控风险暴露的规模和真实的特性。银行可以对高风险客户采取措施,这些措施包含收紧贷款审批,甚至拒绝贷款。

分析方法

这个图形展示了在Teradata Aster分析探索平台做的Sigma图形,所用的数据源包含担保人企业ID,担保合同信息,担保金额,企业信用评级等。这里用的分析方法是社交媒体分析,以发现有影响力的客户和识别担保模式。分析函数包括: betweenness、degrees、PageRank、modularity、eigenvector centrality和local clustering coefficient。

作者介绍

数据可视化
担保圈火花、担保圈毒刺、担保圈之谜 3副数据可视化图片作品的作者均为 张玉瑞

张玉瑞是大中华区大数据事业部华东区的高级顾问。他是Teradata中国区数据科学家团队的重要成员,帮助客户运用大数据分析手段来解决风险管理和市场营销方面的业务问题。

他毕业于上海交通大学通信与信息系统专业,获工学硕士学位。他在数据分析领域有10多年的工作经验,专注于银行业、保险业和电信业。他热爱数据分析,并为此付出了很多的努力。

刚毕业,他做为咨询顾问加入了SAS中国,在统计分析和传统数据挖掘方面积累了丰富的经验。后来大数据时代来临,他加入Teradata,致力于运用Aster分析探索平台进行大数据分析。他与Teradata中国区的数据科学家其他团队成员一起帮助客户运用新的大数据分析方法来发现业务价值。

他现在上海工作,喜欢旅游的他,先后去过美国、法国、德国、意大利和瑞士,对异国文化充满好奇。他喜欢运动,爱好游泳、羽毛球、网球。

十八、综合数据库(IDW)淘金热

作者:Paul Dancer

数据可视化

关于洞察

欢迎来到“中介大数据”的世界。在这个世界里,讽刺地是,大数据将被用于降低成本和优化大数据本身。

如果你可以看到一个大型的综合数据库(IDW)里面,你会发现那是一个由数百万相互关联的数据元素和对象交织成的巨大网络。在一个综合数据库每天加载数据时,成百上千的对象将在一个微小却精心设计的处理链上相互作用,并将越加相互关联紧密。在此过程中,数据被转化、整合,并生成出最终的用户视图和报告。

那很棒,但是,如果你想要缩减数据库加载时间,优化分析生态系统中的数据存储,或者想转到一个双活性系统时,那该怎么办呢?

首创“元数据科学家”保罗.丹瑟提出了这一无名的可视化方法。在Teradata 数据库一个很大的产品持续近20年的发展历史中,这个可视化第一次显示出数据对象网络的完全复杂性。金点(节点)显示数据库对象,灰线(边缘)显示他们相互的依赖性,因此我们可以看见那些微小而相互关联的过程链。大块密集群体是核心的、整合的数据结构,外侧疏散的岛屿则是集市。

可视化让我们能够看到,所有微小的过程链都是相互依赖,且按顺序排列的。因此,它就是优化IDW最好的工具。其图表可以被用来决定双活性选择,并能在没有依赖风险下,针对数据库对象顺序进行细节设计和部署。该可视化还可以揭露出大量各种各样的非正式遗产“提取转换与加载”模式(ETL),这些模式对优化新的加载和转换程序十分的异常与危险。

分析方法

预定的Java应用曾通过获取图形进行可视化,递归式地从每个对象中提取“数据定义语言”(DDL)。其对象均起始于Teradata数据库层次结构中的一个根。每个定义作为候补参考对象被搜索,并匹配一个模式,然后在内存中依据一个完整的数据库对象进行验证。一旦确定有效,“顶点”或者“节点”与“边缘”关系将会被加入“有向非循环图”对象中。

另外,一个对象列表也会输出指定一个有效的顺序部署。顺序是通过“拓补排序法”在图上决定的。有效的顺序部署有很多种。

Teradata系统配置的加载最小化,利用Java应用在客户端进行文本模型匹配和图形处理。

作者介绍

数据可视化
保罗.丹瑟(Paul Dancer)

保罗是Teradata企业架构咨询师。过去10,他在英国支持Teradata公司客户,最近又转到澳大利亚。他是“元数据科学家”开创小组的一员,现正致力于共同开发新的大数据技术,在复杂巨大的分析生态系统中,促进数据存储和数据处理模式优化。

保罗在英国斯旺西大学取得商业科学学士学位,并曾在英国钢铁公司、通用电气公司和凯捷集团就职。他对通过元数据进行代码生成、正向和逆向工程抱有长久的热情,在Teradata的悉尼专业服务实践中被评价为解决疑难杂症的“百晓生”。在不久的将来,随着新技术的采用和分析生态系统日渐复杂,他将在“中介大数据”方面拥有庞大的潜力。

十九、社会问题的影响

作者:Yasmeen Ahmad

数据可视化

关于洞察

这张可视化图表强调了一些关键的社会问题,这些问题是英国慈善组织巴特尔的社会工作者们指出的,它们导致了问题儿童的产生。这张图片总结了社会问题和孩子们的需要之间的复杂关系。例如,它指出家庭暴力、贫困、和孩子的健康问题并不是单独出现的,而是一些高度关联的话题,它们共同致使英国的家庭陷入困境。

这些圆点(节点)代表了工作人员们提到的社会问题,圆点的大小则代表这些问题使家庭陷入困境的可能性;这些线代表了相关或并发事件;观察者们可以清楚地看到各个家庭间相似的经验。英国巴特尔组织肯定了这种相似性,并且了解这些经历是如何与上述话题联系在一起的。

英国巴特尔慈善组织的目标就是通过与一线机构的合作帮助英国最脆弱和孩子和家庭,该组织通过补助金为孩子、年轻人和他们的家庭提供直接的经济援助。

该计划旨在理解脆弱家庭的需要、特别是孩子和年轻人的需要;该慈善机构希望通过此计划找到一个方法,能为这些人提供更适合他们的服务。同时,该慈善组织也希望通过识别那些会对家庭造成影响的因素,并由此形成对社会需要的更充分的了解。这一目标帮助该组织更好地预测其目标服务人群在当前和未来的需要,从而帮助他们相应地进行计划工作、提供服务。

分析方法

这张可视化图表展示了利用Teradata Aster 发现平台中的Aster滤镜工具制作的西格玛图。巴特尔的工作人员所做的记录被输入Teradata Aster平台后,案例工作人员会利用文本分析技术分析他们的笔记、发现关键词和重要短语。其中所应用的文本分析功能包括:标记化,nGram,词频逆和文档频率分析。

接下来,每个工作人员工作文档里的关键词和短语会通过文件协同过滤的方法被进行分析。这些技术识别的问题通常会在同一文档中反复出现,因此呈现出很高的相似性。

而这幅西格玛图则用于展示各社会问题之间的相似性。图表中的每个节点都代表一种社会问题,节点间的定向链接则用来描述社会问题间的依存关系,并且将相似性的指向数量化。

作者介绍

数据可视化
Yasmeen Ahmad

Yasmeen是Teradata的最有创意和有见地的数据科学家之一。 Yasmeen在苏格兰长大,她喜欢户外活动,尤其是在苏格兰Munros山和在海上划皮艇。

她在许多国家工作过,包括英国、爱尔兰、荷兰土耳其、比利时和丹麦,她涵盖了金融,电信,零售和公用事业等行业。 Yasmeen专精与企业合作以确定他们的挑战,并将其转化为分析背景。她专注于企业如何利用新的或尚未开发的数据来源,沿着新技术以提高自身的竞争能力的独特能力。

Yasmeen已经与许多分析团队工作,提供领导,培训,指导和实践的支持,提供可操作的见解和经营成果。她使用各种分析方法,包括文本分析,预测建模,归属策略和时间序列分析的发展。她坚信可视化的力量使的在企业用户可以容易进行复杂的沟通。

在Teradata之前,Yasmeen在生命科学行业工作作为数据科学家,建设复杂、多维数据分析管线。 Yasmeen还持有数据管理,挖掘和可视化,这是进行在威康信托中心的基因调控和表达的博士学位。她在国际上发表了多篇论文并在国际会议和活动中演讲。此外,她还在MSc教有关科学数据和商业智能硕士课程。

Yasmeen对于数据分析和可视化有敏锐的热情,通过她的研究中一直好奇地问问题并了解更多信息。这些技能已经允许Yasmeen探索多学科的机会,为她提供了新的无尽的挑战!

二十、查询系列


作者:Yasmeen Ahmad



关于洞察


这张可视化图表产生于一个分析过程中,其分析的对象是对Teradata整合数据仓库(IDW)的数据库查询记录(DBQL),而图表中这个仓库的使用者是一家英国的银行。DBQL描述了SQL命令(查询),这些命令是操作者为了能够检索到数据仓库的表格中存放的数据而发出的。这一分析过程的目的是通过查询识别出表格的使用情况,区分出“冷门”和“热门”的数据组,并把较低利用率的数据组和孤立的工作在仓库平台中设定为“将卸载”的。


这些圆点(节点)代表着存在数据仓库中的表格,而这些线则代表在一个SQL命令中同时使用了两个表格,它们共同展示了一项查询工作对于两个相互关联的表格的依赖性。这张可视化图表的中心是一些高度相关的表格,它们中的大部分是查询表(也称做维度),常常与其他数据表联合使用,并为它们提供额外的描述和背景信息。大量用户使用这些查询命令来获取这些查询表格和其他表格,这十分契合于整合数据仓库。


同时,这张可视化图表强调了两组十分紧密联结的表格,每一组都代表服务于一个业务运用的表格组。所以这些表格组经常同时被不同的业务运用查询。

在图表的边缘有众多与其他表格有着少量联系的表格,相对来说它们不怎么经常被用到,而当被查询到时,它们通常以孤立的形式存在。所以这些表格(及它们组成的工作)可以从主要的数据仓库中转移出来,而放到一个相对“冷门”、在高性能磁盘上花费更少、处理能力相对较弱的平台上。


分析方法


这个西格玛可视化图表是用Teradata Aster平台生成的,它展示了对DBQL中的SQL命令的分析。这些分析针对“选择”命令,命令的对象为保存在数据仓库中的查询表格或视图。


数据库中的表格和视图在数据集里以节点的形式存在。如果一个SQL命令中同时调取了两个表格或视图,那么两个节点之间就会建立起链接。这形成了创建图表的基础,描述了表格间的依存性。


在使用协同过滤技术和可视化西格玛图表展示表格中的数据集时,可能会发现被包含于孤立的工作中的表格组,它们相对来说不经常被查询到。所以,这些表格组会被建议归为“将卸载”的,方便负责管理不同平台上数据集的IT人员的工作。


作者介绍:(同第三篇有介绍)


Yasmeen Ahmad


二十二、Stars and Stripes


作者:Christopher Hillman



关于洞察


我们把在美国执行的临床药物试验收集到的结果资料视觉化成图表。药物试验通常非常复杂且牵涉了在长时间累积的资料。


试验通常涉入不止一人,病人会被分成许多队伍。每一队会有不同的特性,比如特别的用药顺序。结果会有大量的资料包含不同的试验药物以及观察到的结果。我们将资料视觉化来寻找试验药物及负面副作用之间的关连性。


图表上的四个星星呈现出同一个药物试验资料利用不同视觉化方式所得的结果。每五个形成星星的点都表示一种药物或药物变种在试验中施用在队伍中每个病人。在中间的点代表病人体验到的一种不希望有的副作用。不同药物及副作用间的连结用线条来表示。


我们现在可以轻易的观察到在星星外围的每一种药物与在中间的副作用之间的连结。这里也呈现四种不同的视觉化变形。每一个在不同物件的过滤器都标记了一个特别的发现。举例来说,某种负面副作用及一种药物之间的连结或在五种药物试验及副作用之间使用颜色来强调连结的强度。


分析方法


这份资料较复杂且在使用图表工具软体之前涉入需多处理步骤。首先,利用网站clinicaltrials.gov 的工具下载其上的报告。下载的档案格式为XML,在分析之前这些XML 档案需要经过Teradata Aster MapReduce 函数作前处理。根据文字探勘(Text Mining) 函数从报告中撷取关于特别药物的副作用名字,使得点跟线的资讯可以在关联式表格中建立。从表格中储存的资讯就可以画出图表以及计算出不同的量测资讯。在处理资料遇到的挑战有异常值(outlier) 及遗漏值(missing value)。


有这四种呈现方式使得我们可以在资料中看到不同的重要的模式。线的颜色跟药物及副作用之间的连结强度有关。这些资料发布在公开网域并且可以从clinicaltrial.gov 及FDA.gov 取得。


作者介绍


Christopher Hillman (连载第二篇有介绍)


二十一、单一麦芽取样员


作者:Kailash Purang



关于洞察


你的分析能彻底地简化错综复杂的事物吗?能根本区分出细微的差别吗?能完全理清苏格兰威士忌长达700多年的历史吗?凯拉什.普让说:可以,只要将苏格兰威士忌大师的专业味觉武装上他的数据集就行。


他的视觉化将86种单一麦芽威士忌品牌按12种风味特征分成了若干风味群组,例如香甜味、烟熏味、蜂蜜味和果仁味。通过简单的图像形式展示,我们都可以了解到在各种各样的单一麦芽威士忌品牌之间有何异同。


每一个点(或节点)代表一个单一麦芽威士忌的品牌。每条线(或边界)代表威士忌间相似性程度,线条越粗越暗,威士忌的风味就越相似。因此相似味道的单一麦芽威士忌的自然集群形式会更加紧密、更高度地相互联系。


这种分析方法可以适用于食品科学研究。它可以与市场份额和市场配置文件数据相匹配,开创新口味风格,旨在吸引高价值部分,或重新定位现有的品牌,引进新的领域。它还能为酒吧或者零售商提供备忘单,当一位客人最喜欢的单一麦芽威士忌品牌没有事,他们能够立即获得专业知识,向顾客推荐新的品牌或替代品牌。


这种分析还能为每天的消费者提供一种有趣的方法,去探索一个非常复杂的话题。如果你喜欢一种品牌的威士忌味道,现在你可以尝试其他味道相似的品牌,或者去探索其他完全不同味道的品牌。不论哪种方式,你都必将拥有一个无与伦比的美好夜晚。


干杯,凯拉什!酒吧见吧?


分析方法


这个Teradata Aster 可视化是Aster Lens生成图像的成像代表。它使用了斯特拉思.克莱德大学的威士忌分类开放数据集,包含了86中单一麦芽威士忌品牌、12个专家评定的风味特征,以及这些威士忌厂家的地理坐标信息。


它使用余弦相似性将不同风味的威士忌进行分组,并配合一些没有固定风味特征的单一麦芽威士忌形成的零散数据。例如,有些单一麦芽威士忌没有香味或没有药味,这就会产生很多零风味的评级。这些零风味评级数据的增加很可能成为影响数据集群的一个决定性因素,而余弦相似性则能很好的处理这些数据。


Aster Lens可视化是利用Teradata Aster 的挖掘算法功能(GraphGen)创造出来的。同等大小的节点代表着同等重量的不同单一麦芽威士忌,其连接程度代表其相似性大小。


作者介绍


Kailash Purang (此系列文章连载第二篇有介绍)


二十三、财富之冠(其一)


作者:Kailash Purang



关于洞察


境外汇款是一项收费的金融服务,这类服务对金融机构来说相当重要,因为它们意味着无风险的收入。


因为有一部分的费用是针对转入/转出活动进行征收的,这就意味着针对“谁将在哪里向什么人汇多少金额的款项”进行预测将成为确定销售和营销活动的关键步骤,有效地吸引交易双方并有效地增加汇款客户数量。


凭借着这个思想,这幅图表阐释了转账时资金的转移过程:某行客户向其它客户转账时,交易过程中要经过往来银行,最终才能到达目标银行,送到收款人的账户中。人气更高的往来银行在图中被标记为较大的绿色圆点,而接收款项的小银行则是较小的白色圆点;白色的线表示资金从机构客户流出,绿色的线则表示资金流回银行客户。


这张图表帮助银行了解并放大观察价值链的关键部分,它突出显示了使用往来银行作为汇款交易参与方的银行客户,并显示出这些客户进行转账的地点和频率。我们的客户是一家跨国银行,在全世界均有业务分布,但主要关注东盟高增长的那些经济体。他们把高价值目标定为他们进行了运营但是没能使整个交易的资金和费用都保持在集团内部的国家。


进一步对图中的白点(客户)进行研究,可以发现交易之间的关系,它们会形成海外支行网络、紧密联系或相关的公司网络、或者是买方和供应商的网络。通过发现这些联系紧密的公司群并研究它们的运营领域,我们的客户可以判断每个客户的重要性,并由此在当地或跨区域地向他们提供恰当并具有战略意义的营销和销售活动。


分析方法


这张Teradata Aster可视化图表是Aster Lens产出图表中Gephi图的范本。这张图表利用了客户的转账数据,转账金额超过25万美元。


Aster的协同过滤功能过去被用来确认交易参与方之间关系的深度和强度,而现在利用Aster Lens的Cfilterviz功能,这一部分功能实现了可视化。


图中圆点的大小代表交易参与方介入类似交易的数量,连线的粗细表示连线双方进行类似交易的数量。所以处于众多交易之中的往来银行成为了较大的节点,而其他的点则比较小。


作者介绍


Kailash Purang(同上)


二十四、财富之冠(其二)


作者:Kailash Purang



关于洞察


境外汇款是一项收费的金融服务,这类服务对金融机构来说相当重要,因为它们意味着无风险的收入。


因为有一部分的费用是针对转入/转出活动进行征收的,这就意味着针对“谁将在哪里向什么人汇多少金额的款项”进行预测将成为确定销售和营销活动的关键步骤,有效地吸引交易双方并有效地增加汇款客户数量。


凭借着这个思想,这幅图表阐释了转账时资金的转移过程:某行客户向其它客户转账时,交易过程中要经过往来银行,最终才能到达目标银行,送到收款人的账户中。人气更高的往来银行在图中被标记为较大的绿色圆点,而接收款项的小银行则是较小的白色圆点;白色的线表示资金从机构客户流出,绿色的线则表示资金流回银行客户。


这张图表帮助银行了解并放大观察价值链的关键部分,它突出显示了使用往来银行作为汇款交易参与方的银行客户,并显示出这些客户进行转账的地点和频率。我们的客户是一家跨国银行,在全世界均有业务分布,但主要关注东盟高增长的那些经济体。他们把高价值目标定为他们进行了运营但是没能使整个交易的资金和费用都保持在集团内部的国家。


进一步对图中的白点(客户)进行研究,可以发现交易之间的关系,它们会形成海外支行网络、紧密联系或相关的公司网络、或者是买方和供应商的网络。通过发现这些联系紧密的公司群并研究它们的运营领域,我们的客户可以判断每个客户的重要性,并由此在当地或跨区域地向他们提供恰当并具有战略意义的营销和销售活动。


分析方法


这张Teradata Aster可视化图表是Aster Lens产出图表中Gephi图的范本。这张图表利用了客户的转账数据,转账金额超过25万美元。


Aster的协同过滤功能过去被用来确认交易参与方之间关系的深度和强度,而现在利用Aster Lens的Cfilterviz功能,这一部分功能实现了可视化。


图中圆点的大小代表交易参与方介入类似交易的数量,连线的粗细表示连线双方进行类似交易的数量。所以处于众多交易之中的往来银行成为了较大的节点,而其他的点则比较小。


作者介绍


Kailash Purang(同上)


二十五、叶子


作者:Alexander Heidl and Kailash Purang



关于洞察


“叶子”融合了现实生活中的图像与数据可视化生动展示了未来的分析方向。随着在图形和速度的技术改进及资料视觉化的方便化,一种新兴形式是使用现实生活中的图像取代传统的图表。


这样的影响是巨大的。这种令人难忘的技术图表并使用真实生活图像使得图表可以很容易地被任何人接受,即使是很小的孩子也可以看懂。营销人员可以运用现实生活经验来陈述产品的好处。例如,通过使用他们的农场的真实生活的图像与不同的作物生长,他们可以具体表达农民肥料和化学防护剂的好处,比起从传统的图表这样的一个销售信息具有显著的效果。


Kailash Purang 在“叶子” 图像使用的“单一麦芽采样”数据集。在该图中,形成了叶片的脊柱的点(节点)是威士忌品牌,类似口味的威士忌会接近在一起。每个品牌链接到其他品牌的线(边缘),它们有一样的口味特征。其结果是这个近乎完美的树叶图像。


因此,“叶子图”就是Kevin Slavin指的是在他在TED谈论由算法运行的世界- 这鼓励我们从现代的观点去思考有关数据和数学。


(如果你对TED演讲有兴趣,您可以通过扫描QR码与您的移动设备观看)


分析方法


数据集是从Teradata Aster Lens环境提取出并且用Gephi处理;一个开放软体的工具,用于可视化数据分析和探索。


“叶子”适用于径向轴线分布,从圆形辐射分布线性轴的节点。对轴线上的节点分组和排序沿着图形(叶)的直线中心产生节点。节点和弯曲的边绘制出叶子,然后由节点到边之间施加一个绿色的颜色渐层。“叶子”就显示在画面的右下角。


由数据可视化产生的叶子会使用Photoshop跟现实世界的植物照片结合。这让我们看到真实叶子的生命在数位叶子旁边出现。


作者介绍




Alexander Heidl


Alexander 是一个分析的艺术(The Art Of Analytics)的前期贡献者。他有一个异常强大的设计眼搭配熟练的技术来操作复杂的分析图像来洞察资料。 Alexander是分析的艺术(The Art Of Analytics)监制并与Teradata的数据科学家共同的工作。他擅长操纵Aster Lens和Gephi产生高品质、高水准的’艺术’的集合。


Alexander目前住苏黎世,在法兰克福、德国附近长大,从伦敦金斯顿大学毕业。


不久后,他开始了他的分析职业生涯,在不同行业和地理区域作为一个商业智能项目经理。在此期间,Alexander发现不同的视觉形象可以具备有效沟通信息的能力。


特别是,当需要和各式各样的客户接触,无论是组织结构,专业知识水平和语言表达能力;他发现,图片和可视化都有助于形成众人的共同理解。因此,Alexander很早就对不同的视觉元素结构及样式的重要性感兴趣。


今天,Alexander正在瑞士的Teradata作为一个跨行业的客户经理,协助各式各样的客户并寻找前景。他对视觉表现的激情发挥在他目前的工作,并与他的客户分享复杂的观念与分析见解。


二十六、星门


作者:Peter Wang



关于洞察


Peter Wang的“星门”是在打击网络欺诈、骇客和网路攻击的持续和复杂的战争中的“分析防卫武器”。


匿名可视化是在台湾完成的一系列用于分析电信客户端阻止恶意网络攻击。

“星门”的目的是发现并阻止黑暗的力量在网络世界滋长- APT攻击。进阶持续威胁(APT)是一组隐身和连续的计算机骇客过程,往往是由人们策划针对特定的实体。 APT通常针对组织和/或国家的商业或政治动机,也用于欺诈和犯罪目的。


可视化使用的2300名员工一年的互联网使用的网络日志。它跟踪每个用户的网络浏览活动然后找出恶意行为的原点的详细用法路径。


每个点(节点)表示由用户访问的网页。每行(或边缘)表示从其他网页到另一网页的路径。线的粗细大小代表访问时的时间,节点的大小代表我们计算网页的128种性质,如类别、信誉评分、访问次数、网页内容和数据包的生存时间(TTL)值。


在“星门”中心的高度连接的节点越大表示那些没有装备安全防御软件或防火墙阻止恶意行为的高风险的网站。我们也可以看到他们连接到其他网站,这可能代表了高风险。周围外侧的节点是低风险的网站。


从此发现我可以提升安全机制使得从根本上减少恶意活动的量。


分析方法


此分析使用Teradata Aster 及 Aster Lens。这个可视化使用了电信客户的安全日志并用Aster 及Gephi生成图表。它涵盖了超过2300位员工的一年时间的安全日志数据。


在此分析工作,我们用nPath,图形,集群和文本分析功能。路径分析是这种模式分析的核心概念,因为它来源于网页,关键是要识别恶意行为的起源联动路径。我们用图来表示,并分析各节点之间的复杂关系,并以图表的形式呈现出来。


作者介绍




Peter Wang


Peter Wang是Teradata的创新中国数据科学家的重要团队成员并为银行和电信开创了新的分析技术。


Peter是一名Teradata的资深大数据顾问于大中国区的大数据COE。他在OSS超过20年的电信行业经验,主要在信号分析和网络安全分析领域。


Peter 住在台湾且在整个大中国区的工作,帮助银行和电信公司从解锁大数据的价值。他在大数据目前的角色之前,他是台湾Teradata 的行业顾问。在更之前他在台湾一家大型电信领导者远传担任OSS经理。


二十七、Trapping Anomalies


作者:Yasmeen Ahmad



关于洞察


这个可视化显示由保险公司发现的异常行为经纪人。透过其中的数据图表凸显了当有图形呈现这些连接后异常变得显而易见。


点(节点)代表的是使用由保险公司提供了一个平台经纪人创建报价。节点之间的联系表明相关联的报价,即券商用以前生成的报价(点)做一些改变后创建一个新的报价(链接的节点)。


典型的经纪行为表明一旦经纪人已经产生了报价,就只会有存取或如果报价寿命结束前决定刷新报价。这两个集群在中心(红色)描绘出异常行为,其中一个经纪人在更新少量的属性后不断改变和改回报价。这表明这个经纪人在测试保险公司的系统,试图了解定价引擎的工作原理,这是不欢迎的行为和滥用保险公司的系统。


这一分析的目的是确定保险公司的经纪人是如何的使用制度和理解积极经纪人的行为提升产品的销售。这样做的目的是了解系统如何改进,以支持券商和提供更好的体验,以及支持保险公司的业务,并且可以教育业绩较不好的经纪人。这个欺诈性的发现是这种分析的副产品。保险公司可以使用这种视觉化作为证据来跟经纪人作后续的谈话。


分析方法


这种西格玛可视化描绘从保险公司为他们的经纪人提供的平台的数据进行分析。这个系统将记录由所述平台上的代理进行的所有操作。


分析的初始部分涉及身份查验工作的平台和匹配经纪人的会话到一个特定的经纪人和客户。在这些会议上该分析侧重于记录由经纪人平台报价相关的行动。这些行动被抓获并建模为节点。


每个节点代表了不同的会话客户所产生的报价。节点之间创建链接如果经纪人读取相同的报价并生成一个刷新的报价。图表分析找出由高度互连节点形成的两个异常大的不正常集群。


作者介绍


Yasmeen Ahmad(本系列文章第三篇有介绍)


二十八、Branch社区之树


作者:Qlik公司Todd Margolis



关于洞察


这张可视化图表被用于帮助开发和分析Qlik的开源程序员社区Branch,这个社区被设计成为一个互动性开放式的探索导航平台,而这个新的应用使得访客得以发现关于网站中用户、项目和它们之间关系的新含义。这张图表可以用来理解这个网络社区的社会动态,也能了解每个个体用户的行为。为了加深理解、获取洞察,关于相似性、类目、浏览量、评论和公司的元数据都被反映在这张图表中。


图中的圆点代表不同的项目,其大小代表浏览量的多少,这使得我们可以方便快速地发现那些最受欢迎的项目。节点还反映了项目的参与者及评论的多少,使我们能够直观地看到不同项目中合作程度的高低。图中的圆点按照产品类目进行聚合并着色;圆点之间的连线则代表项目之间就相似程度和用户群的联系。


图中最大的两个点集标识了Qlik社区对于可视化拓展的关注;此外还有七个中等大小、五个小型的点集,向我们展示了这个社区的发展空间。浅蓝色的线条连接着每个类目中的相似项目以及Qlik的两个主要可视化类目;绿色的连线给出了一个令人惊讶的信息:大多数贡献者倾向于跨越整个产品谱系开发项目,这也印证了Qlik分析平台的威力。


分析方法


这张网络可视图利用Qlik Sense生成。图中数据利用Kimono APIs从Qlik Branch网站中收集,并被存到Sense的储存器中。图中的分析主要关注哪些是已经公开的信息,之后也许会整合其他的网络分析技术。


这张可视化图表利用到了HTML, Javascript, CSS和高人气的D3.js数据驱动可视化库。最初的图层基于把相似项目拉到一起的力导向图;为了按类目进行项目分类,之后又增强了聚合力图层;最后再利用Danny Holten的分层边缘捆绑算法画出连线。我们将来计划开始利用Teradata Aster的K最近邻聚类、朴素贝叶斯分类器等功能,创造更多关于这个数据集的洞察。这张图表依然保持着与新用户活动的互动,并每天进行更新。



0 0
原创粉丝点击