阿里巴巴在线技术峰会--会上总结

来源:互联网 发布:程序员外包 编辑:程序博客网 时间:2024/04/25 04:40

先挖坑,看完再填!

7月24日编辑如下:

阿里巴巴在线技术峰会7月19日开始,持续三天。每天晚上八点,大致需要一个半小时左右的时间。每天的三场会议室同时开始的,因此用户需要自己做好决定应该看哪场。

在第一天,我选择的是  Blink计算引擎  。就整体而言,个人认为这场会议的干货并不多。感觉阿里是想通过峰会宣传自己开发的产品Blink。Blink是一款适合于流式数据处理的计算引擎,是阿里自己团队对开源项目Flink的改进。会议开头普及了一下流式处理的相关的基本知识,对于没有接触过流式数据的,听过流式数据但一直似懂非懂得小白来说还是挺有意义的。基本的知识点讲完以后,就主要在分析Flink和Blink的区别,Blink有做了哪些改进,优化的效果如何等等。基本就是在围绕着介绍产品的思路,但是对流式处理框架的内涵并没有提到太多,所以个人觉得后面讲得东西属于听完了就听完了,没什么太大意义。

在第二天,我选择的是 云数据库十大经典案例总结和反思 。说是十大经典案例,其实具体来说就五个案例。本来这天我是报名了两个会议,还有个是基于大数据的全球电商系统架构性能优化。在两个初步听完以后,觉得后面这个老师讲得不怎么样,然后就选择听前面这个。该会议就主要讲了在搭建云数据库的时候,可能遇到的经典问题。前面五个就是讲问题,后面五个是根据现实情况,分析问题。分析的结果基本上就包含在前面所讲的五个问题里面。这五个问题分别是:索引案例;子查询优化案例;表级锁案例;延迟案例和参数优化案例。第一个索引案例讲的是在云数据库中添加合适的索引可以大大提高访问的效率;第二个子查询优化案例讲的是就mysql而言,mysql是先全查询主查询中的数据然后与子查询中的结果一 一比对,所以如果写需要写子查询的话,最好才主查询中确定好某个属性的值,不要直接使用“ select * ”。第三个表级锁案例讲的是在对某一张表的访问中,每个进程都会产生一个表锁,用于该进程访问数据表期间防止其他进程修改数据表,从而出现不一致性的问题。因此对于大型数据库事务来说,往往会产生大量的表锁,而且持续很长的时间,使得其他进程无法访问数据,导致进程堵塞。因此在数据库的事务中,应该避免大事务,把大事务拆分为多个小事务,从而能有效防止进程堵塞的问题。第四个延迟案例主要讲的是访问云数据库延迟的可能原因。一方面可能是因为metadata lock导致的延迟,一方面可能是硬件的原因,CPU负荷过高。第五个参数优化案例讲的是建立云数据库时,运行的快慢很可能与建立数据库时的设定参数有关。举了个例子,就是一台配置很好的电脑跑查询语句的时间竟然比一台配置普通的电脑还要慢,经过仔细分析,发现就是参数设置的问题,参数一改效率马上提升了一倍以上。

在第三天,我选择的是 企业大数据平台仓库架构建设思路 。就感受而言,这个老师我觉得是准备得更加认真,因为讲得很详实,还超了规定时间。整个讲解分为了四个部分:总体思路;模型设计;数加架构;数据治理。总体思路里面就讲了大数据平台特征和仓库实例设计原则。个人觉得可能就后者有意义一点。模型设计里面就讲了建模的两种方式:实体关系建模和维度建模。以及讨论了雪花模型和星型模型、数据分层和结构化数据的采集等。其中数据分层,我觉得挺有意义。把数据分为基础数据层、中间层和集市层。其中流式数据是贯穿这三层。这三层的数据分别具有不同的意义。基础数据层就是对基础数据的收集以及进行一些数据清洗的操作;中间层就是把同一实体不同系统下的数据打通,发现数据中的关系,比如兴趣、爱好;集市层就是直接面对数据挖掘的,在集市层深度挖掘数据价值。数加架构中主要讲了结构化数据采集、日志结构化、非结构化特征提取、数据服务化。这一部分主要就是讲在架构设计中一些需要用到的方法。最后一块数据治理主要讲了数据质量管理,数据生命周期管理。个人觉得数据生命周期还挺有意思,阿里把在180天访问过的数据定义为热度数据,属于比较活跃的数据,超过180天,低于一年的定义为冷数据,超过一年的定义为冻数据。其实现实中也确实如此,如果有个东西超过一年没有访问,那么以后有极大的可能再也不会有访问了。


综上,就是我自己的个人一些体会。希望阿里还能多举办类似的活动~

欢迎大家提出批评和建议。


0 0
原创粉丝点击