关于认知计算的一点浏览和摘录

来源:互联网 发布:医疗教育软件开发 编辑:程序博客网 时间:2024/06/07 04:43

主要摘录 两院院士 李德毅 的相关论述 主要是会议发言


【走近院士】李德毅:大数据是连接虚拟和现实世界的桥梁

http://www.csdn.net/article/2014-04-03/2819123-Cloud-BigData   

摘录:

1. 智能驾驶是云计算、物联网、智慧城市这三个战略性新兴产业中的重要一点。

JSMLAY:从小智能到大智能,refer智能穿戴式设备refer智能汽车,逐层构建终极理想。

2. 在大数据问题上,李德毅院士表示对于结构化数据和半结构话化数据,现有的技术基本能够对付,而对于主要由非结构化数据构成的大数据,怎么实现非结构化数据的价值发现呢?李院士认为可以用这句话“网络交互和群体智能”。我们要把低价值的大数据中的部分东西变成半结构化,进而结构化。

JSMLAY:院士剑指众包,众包却是有待于实践丰富化的东西。

3. 李院士不认为大数据像一般学者讲的从数据到信息、从信息到知识、从知识到智能那么冷、那么理性他认为大数据重要的是体现价值、发现价值,大数据已经成为连接虚拟世界和现实世界之间的桥梁。

JSMLAY:不管黑猫白猫,抓住耗子就是好猫的论断,还是对探索框架步骤的未知?  数据是可重复利用的,数据利用可以拿来即用,用完就扔(放回)。

4. 有一个智能眼镜解决照相问题,解决看的问题,有一个智能耳机解决听的问题,有一个智能笔解决写的问题,还有智能手表,解决你身体测试,以及通讯的需求等等。这样一来,以人为本,构成穿戴式设备,这样就可以干成很多事情了。这样真正可以提高我们移动生活的品质,实现智慧生活。


李德毅:大数据时代的位置服务

http://blog.csdn.net/goodnew/article/details/18266683

摘录

1.位置衍生服务就是摇一摇、扫一扫、照一照,摇一摇附近我的朋友们在不在、附近有没有商店和吃饭的地方……

JSMLAY:这是位置衍生服务,不是位置服务?

2.SoLoMo,综合了社交、位置、和移动

3.于是又出来了一个新的概念,众包地图,软件的开发不仅仅是在一个公司里,而是在一个开放的社区里,不是在一个单位里面,而是在共同感兴趣的人在网上进行共同兴趣的开发。……我们需要的是跨越界限、柔性重组、共享价值……以前我们是粗放式的服务,叫做大河有水小河满,现在我们是精细的服务,叫做小河有水大河满。

4.大家知道天上有北斗,有GPS,地上有基准站,还有移动通信的基站,还有好多的车,各式各样的电器、房屋等等。如果我们建立一个定位精度校正服务中心,当我们一个个体的手机,有GPS接收机,从GPS收到一个精度、纬度和高度的信息,这个误差是25米,25米是什么误差?是军方误差,最大的误差是多少?30zachman,也就是75米。实际上我们拿着手机的GPS,如果没有校正的话,通常在100米左右,这就是为什么我们有的时候在主路上,他说在辅路上,我们在辅路上,他就说在沟里一样。那么怎么办呢?如果有一个定位精度校正服务,手机就可以把得到的位置服务,精度、纬度、高度发到服务中心,一个短信一毛钱,定位精度校正服务中心根据它的基准站,例如北京,北京有15个基准站,每个基准站上都有他已经知道的精度、纬度和高度,于是进行一个差分计算,把计算结果还给手机用户,又是一个短信息,一毛钱,两毛钱的结果就使得手机得到了在所在位置的精度、纬度、高度,从原来的100米提高到1米。这是一个什么情景?两毛钱就可以知道1米精度的误差服务,这个世界真的变样了。假如我们跟老年人做一个手机环,他们是接收机,自动接发,就可以在任何地方知道老人现在在什么精度、纬度、高度,误差不超过1米,这解决了多少问题啊?我们现在有很多老年人得了老年痴呆,记性不好,走散了。我们曾经出动很多人找一个干部的老太太,现在把这个环套上,我们叫做黄环运动,老人就不用那样痛苦,找不到家。如果把这个给小孩子带上,那么家长就会知道小孩子是不是在马路上乱跑。

5.复杂的计算能力、海量的存储能力和丰富的交互能力,如果不放在网上做这件事,而放在手机上,放在端设备,那么手机端设备要多大呀?这就是为什么要搞云计算。

JSMLAY:这句话别跑偏,存储这样说也就罢了。难道家用高端电脑就不用云计算了?云计算的目的是应用剩余计算能力和剩余存储能力。

6.没有车联网哪来智能交通?没有智能交通哪来智慧城市?所以我说我们要实干性,从一点一点干起,把车子联网,把电机联网,把消防水龙头联上网,一个一个的去做。

JSMLAY: That's the point! 世界接下来的五年十年都会在在做这么一件事。

7.智能驾驶这件事情宏观上可以分三步走,第一个结构化的道路智能驾驶,第二个半结构化道路智能驾驶,第三步非结构化道路智能驾驶。

JSMLAY:呵呵,院士把这件事说的这么通俗易懂,我真的无言以对。大部分研究者肯定在想把前两者省了,还是院士做事扎实。

8.当前,我们正在做第二步。智能驾驶并不是很新鲜的事,我们的车上已经有不少智能驾驶的东西,比如说自动巡航,当我们在高速公路上转到自动巡航,脚不动弹手动弹,手不动弹脚动弹,或者从事故预警开始,当我们自动倒车的时候,超声雷达发出一个声音,不能再倒了,也叫智能驾驶,只不过没有跟刹车直接联系在一起而已。我们希望今后的汽车应该是一个云式机器会记忆、会对话,你开了十遍、二十遍、一百遍从家到单位,第101遍汽车说我会开了,会学习、会记忆。

JSMLAY:这句话是说,现在的自动驾驶的重要一部分是增量式学习,可见这也是必须,不能把自动驾驶搞成一出厂就会所有的东西

9.这是通用车,我现在在北京改装它的性能,这个汽车有10m雷达,前面装了一个SICK雷达,后面装了毫米波雷达前后有摄像头,大概就可以构成一个智能车,再加上GPS。目前我们所有都装上了需要100万,我们还要把这个价格压下来。现在全国的高校、研究院、研究所都在做这样的智能车,再加上移动测量车,全部搭配一千辆的智能车,各种各样。

JSMLAY:做自动驾驶,也就是这么简单。

10.智能驾驶技术可以分为三大技术,一块叫做自主驾驶,一块叫做组合导航,一块叫做人工干预。我们让乘员手上拿着iPad,触摸一下就可以表达自己的目的地意图,把道路要走哪些车线交给云计算位置服务。那么我们规定的人工干预应选最高,自主驾驶次之,组合导航更次之。城市驾驶实验主要在城际高速道路上,相对来说比较规范,我们已经在北京到天津跑了18次,进行了一万多公里的实验。

11.目前我们认为我们要做半结构化的智能驾驶,所以我们要了解市区的智能驾驶难在哪里,这样一个道路条件是比较理想的。这就比较惨了,因为车道被汽车挡住了,咱们的摄像头就失去了功能,而且这一挡住的汽车是不断移动变化的,尤其在立交桥下面,GPS又不能工作。市区道路是半结构化的道路,红绿灯、人行道、立交桥路口复杂多样,交通和道路标识有新有旧,机动车和非机动车、行人与车流混杂。因此我们提出了一个组合导航战略,GPS在智能驾驶中究竟能力做到什么?云计算中的位置服务做到什么?都是目前的难点。

JSMLAY:Say,这才到点上,现在的情况(2013末),能做的都做了,剩下的是不能做的。基础都搭建好了,现在入手都不晚,但是比较糟糕的是,BAT都开始部署自动汽车了(2015初),包括与汽车公司合作,剩下的时间不多了。

12.大家知道在道内行使的时候,比如说首都机场到天安门,大量的时间是在道内行使,这个时候就要雷达导航,并且靠GPS识别前方路口。快到路口的时候大家知道,这个路口如果一个稍微大一点的路口,往往有一个节,叫做路口过渡区,会把原来的四条道扩大成六条道或者七条道,从路口过渡区就必须走到正规的车道里面,然后你就会看到一个停止线或者是人行横道线等等,这就是路口导航。路口导航拐弯之后又到了车道里面,又有了道内导航又有路口过渡区导航,然后又经过过渡区,就这样的循环,从而从首都机场到达天安门。

JSMLAY:这比2000年美国的自动驾驶研究成果没有差别,只不过是重新实现罢了。

13.前两天搞了一个路口的通用模式,后来发现不行,路口是地区演变的过程。因此我们要进行精细的路测试,我们向北京市测绘数据院寻找万寿路口有没有最细的地图,1比1000的,1比500的,甚至有1比200的,这就是数据量增加的根本原因。我们要做这样的右拐、直行、左拐,要进行精细的路径规划。这就是我一个研究生目前正在做的,万寿路拐弯的路感形态,规划的路径很复杂,博士论文题目是智能驾驶系统中的不确定表达与计算。

JSMLAY:通用路口不行,嗯,好吧……问测绘局寻找数据,万一是穷山僻壤呢?好吧,先不管,也是个解决办法……这位博士,好幸运,能做我想做的东西……

14.物联网的更高境界一定是机器人联网,人互相之间、机器之间都可以进行交互。自发地理信息可以利用工具组装和上传个人资源提供的位置数据。万寿路左转这件事,如果有一个人做到了别人就可以跟随,这就是对感兴趣位置和区域的共享,形成群体智能。

JSMLAY:想一块去了……

12.大家知道关于数据库,如果数据库到了几比几的话,一个操作大约要5个小时,这就是说结构化数据已经走到头了。现在不是再由结构化的工具把这个数据放在一起,再放到大库里头去,不是这样的

JSMLAY:这句话是我想要的……

13.想在北京的街道里开一家门脸超过5米的商店,而不被高德公司记录在案,绝非易事;想在北京开车出门吃一顿饭,不被摄像头记录也不是一件容易的事情。在基于位置服务的社交网络上,人们也许会发现今天你先进入“为民刻字部”,然后去了“俞式削面馆”。大数据的作用,首先在体验价值,而不是像很多教授讲的,要从数字里面发现信息,从信息里面发现知识,从知识里面发现智能,未必如此我们希望那样理性,但是实际生活非常感性。我从天安门要到首都机场,我问你哪条路最快,哪条路最短,最省钱,你告诉我,我给你一毛钱,这就叫做大数据架构,这就叫做软件做服务的事情,而不是要发展什么知识。

JSMLAY:如此大数据架构,说的不无道理,也是挺长知识的。但是这是架构,具体到应用,还是不能抛弃发现信息发现知识的老路。

14.这个表就告诉我们一个真理,科学可以作为技术的先导,但是反过来技术也可以作为科学的先导。……因此我们更加的提倡实践中的研究,用数据表示世界众多层面,这个世界是导致大众的根本原因我们可以从不同的测度上描写地球、描写资源,包括描述我们生命科学本身,甚至我们的情感都可以造成情感的技术,数据支配世界,充满了不确定性。……为什么、怎么做分别代表了科学和技术,我们通过数据产生价值,就是解决怎么做的问题,满足服务需求,而不是像科学一样解决为什么,也未必发现知识更多的从相关性而不是从因果性做出理解和决策,数据关联,多人乃至多群体关联形成群体智能,通过交互和挖掘,发现普世价值。……我认为实践中的研究,也许胜过研究中的实践,如果我们不去研究智能驾驶车,我不会感受到万寿路口的大数据。……而且告诉我们另外一个理念,由下而上也许胜过由上而下,我们智慧城市每一个城市都非常想要做一个顶层设计的方案,现在我给你泼一点点冷水,由下而上也许是更好的。……智慧城市是一个长期积累演化的结果,我们不妨从智慧的人、智慧的家庭、智慧的社区做起,由下而上。我们需要看到智慧的家庭是什么样的,各个城市不宜把智慧城市作为一届或者几届政府的建设目标,可以提出实现智慧城市行动纲领。

JSMLAY:这段话我是认同的,主张价值导向。就如人的大脑,知道怎么用勺子吃饭,但是真要是问你如何正确的握勺子,你可能不知道。最终整个地球会成为一个大脑?不得而知……大数据时代的大跃进,先完成再优化,将是接下来几十年的主旋律。

JSMLAY:院士的讲话,还是很靠谱的。希望在这涌起的人工智能的浪潮中,自己不只是一只蚍蜉。


云计算智能交通行业论坛:李德毅院士谈智能车 多家知名企业分享应用实践

http://www.csdn.net/article/2014-05-26/2819933-intelligent-transportation
此文一般
1. 人工驾驶过程中,地面施加给轮胎的力会通过连杆和方向盘传递到驾驶员的手上形成反馈控制,这类反馈在油门和制动上也有。采用电控转向,控制器将控制角的电信号传送到控制轮胎角度的马达,但没有反馈,轮胎实际发生的转向如何感知呢?油门和制动同样存在此类问题;
JSMLAY:实践中存在的问题都有那些?算是一瞥……

2. 田密的演讲主题是《LBS大数据:从理论到实践》。他认为,LBS服务已经成为整个移动互联网的标配,最基础是三项服务,分别是定位、搜索和导航,它解决人们最朴素三个需求,一个是我在哪,想去哪和怎么去。LBS服务背后肯定是大数据和云计算

3.在LBS中大数据有这样的特点,首先是海量数据规模,LBS是把整个物理世界映射到现实世界。第二个是用户贡献数据,在用LBS服务的时候自动或者被动回传数据,优化服务质量。第三大数据挖掘。第四是个性化数据存储和服务需求。

4.而交通行业大数据具有明显的特点,例如数据类型多,有文本数据、RFID数据、GIS数据、图片数据、视频数据;时效性强,需要对违法车辆实时不空、实时交通交流统计;数据量大,中等城市每天机动车行驶文本记录接近500万条,采集的视频数据上百T;挖掘难度大,省级数百亿条记录内进行套牌车对比分析,还需要在连续24小时视频监控数据中发现有用的视频片段。
JSMLAY:说白了三个问题都还是数据量大的问题。


5. 姚宏宇以某省智能交通管控系统举例,对后台海量数据存储系统可能会有以下需求:(1)可线性延展的图片与相应元数据存储能力;(2)支持Multi-PB级存储容量;(3)大于10Gbps的数据采集写入能力;(4)针对数百亿条纪录秒级时延的数据查询能力;(5)报警测速等实时数据分析支持 。而智能交通从技术解决方案来看有两个核心点,一个是多中心架构。另外一个是大数据处理架构。

JSMLAY:又是数据量大的问题。偏硬件……

6.中航信的大数据产品架构包括两大块,分为内部和外部。内部的大数据应用包括产品预研、算法优化、可视化提升、新业务场景,平台类日志、业务类日志、客户分群、产品KPI报告。外部大数据应用包括航信报告、黄金周指数、航信指数,产品验证、EDM推荐、B2C推荐、渠道推荐,产品KPI、渠道分析、ROI评估等。

JSMLAY:这个在点,每个公司都需要搞。

7.中航信采用低成本的数据平台,基于Greenplum构建,支撑灵活多变的业务。在具体大数据应用上,李洋举例基于统计的复杂Shopping,通过优化算法,提高计算能力,分析旅客现有行程,提升联程结果的丰富度和可用度,统计历史价格,有针对性的重点搜索,低价命中率提升7个百分点。此外,航空公司还通过大数据应用改善传统的收益管理流程建立基于热点、历史和实时数据优化的收益管理

JSMLAY:中航的实践应用,nice~

JSMLAY:[摘文start]Greenplum和EMC承认了杰夫·哈梅巴赫和Facebook多年前得到的结论:Hadoop非常适合的现代企业所面临的海量数据存储和处理。[摘文end]然后跑去搞Hadoop.


上面这篇文章的摘录结束,这里有必要承接引入另一篇文章,关于Hadoop和Greenplum

Greenplum转身:Hadoop是数据库的未来

http://storage.ctocio.com.cn/305/12559305.shtml

1.Greenplum(jsmlay:基于Hadoop对Greenplum的改造)的改造,使得Hadoop的操作更像是一个关系型数据库,让你快速地使用结构化查询语言(SQL) (jsmlay:像Hive?)……这是令人兴奋的是,如果你可以将大规模并行查询处理技术带到数据库系统中(像Greenplum),并基本上与Hadoop平台融合。”

2.Pivotal HD是明显比Impala及许多其他同类工具要快。Yara声称,Pivotal HD至少比Impala快100倍。

JSMLAY: see link :EMC发布Hadoop发行版:Pivotal HD   http://www.searchdatabase.com.cn/showcontent_70824.htm

JSMLAY:Greenplum已经被EMC收购。

3.需要注意的是,Waas表示,当Pivotal HD正在运行查询时,如果一台服务器崩溃,你将不得不重新启动查询。……我们认为这是几个数量级的性能提升的一个小代价,在这个过程中我们没有加工任何结果。”

4.Hadoop将继续重塑企业处理他们的数据的模式。不仅仅是网络巨头,而是所有的企业。

JSMLAY: Yes,it's true...


李德毅院士:大数据挖掘带动的变迁

http://www.csdn.net/article/2014-05-21/2819881

1.大数据时代技术的有效性要比科学的完整性更为重要

2.水不转,人在转。移动互联网时代的大数据挖掘主要是网络化环境下的非结构化数据挖掘,这些数据形态反映的是带毛的、鲜活的、碎片化了的、异构的、有情感的原生态数据。
3.这种非结构化数据有什么特点呢?它常常是低价值、强噪声、异构、冗余冰冷的数据,有很多数据放在存储器里一辈子没再用过。数据的形式化约束越来越宽松,越来越接近互联网文化、窗口文化和社区文化,我们现在的青年人不要学什么东西,只要会玩手机,越玩越熟悉,因为他已经进入这个文化之中。

4.关注的对象也发生很大改变,挖掘关注的首先是小众,只有满足小众挖掘需求,才谈得上满足更多小众组成的大众的需求,因此一个重要思想,就是由下而上胜过由上而下的顶层设计,强调挖掘数据的真实性、及时性,要发现关联、发现异常、发现趋势,总之要发现价值,但是它未必注重因果、未必注重主次、未必注重时序,更未必发现普遍的知识。

5.移动互联网时代的大数据挖掘过程当中,数据的简约具有自适应性,不必具有固定特征或者层次。许多年来,我的课题组提出一个方法,叫认知物理化方法,对128×128的象素组成的人脸,如果他们的数据场是等价的话,我们可以用28个特征点数据来等价这个流媒体数据。对另外一张人脸,它可以变成254个数据、59个数据,这是非常不同于结构化、半结构化的。……当前,深度学习也是一种数据自适应简约,百度人工智能建设院的吴教授他们就开展了这方面的研究,如果我们在百度上用深度学习搜索一个人脸象素搜索,这么多人脸谁是谁?是他吗?数据量急剧增加,各种媒体形态可随意碎片化,组织结构和挖掘程序要围着数据转程序要碎片化并可以随时虚拟重组,挖掘常常是人机交互环境下不同社区的发现以及社区中形成的群体智能,在非结构化数据挖掘中会自然进行数据清洗和逐步强形式化自然形成半结构化数据和结构化数据,以提高数据使用效率。  

JSMLAY:截止到现在,我做的还比较一致。

6.因此我们用网络化的大数据挖掘方法,首先要是在这个复杂的人人都连网的情况之下找到一个特定问题的社区,因此由社区发现成为大数据发展的首要问题,要研究社区成员,就必须要研究他们之间的相连关系,要研究他们的交互形态,显现的形态有评论、心情、收藏、购买、评分、顶踩、分享、转载、加为好友、邀请等等,这些统计数据都成为我们挖掘的基础。隐形形态有跳转、浏览、翻页、收听、观看、聊天、点击、取消、会话中断、黑名单等等。……交互的特点可以从频繁性、增量性、主动性、广泛性、多样性、持久性去研究社区成员的连接强度。我们利用拓扑势方法挖掘社区,我们还要发现在一个社区中,谁是一个领头羊,谁是第二个领头羊,成员的角色和重要性,成员之间的关系等等。……在现实生活中,人类的某个概念,或者世界的认知经过一段时间的反复交互、汇聚、修正、演化,群体形成趋于相对稳定的共识。合作编辑下的维基条目,社会化标注等都是这种过程中的生动再现。……群体智能是一个最近说得越来越多的词,大家知道我们曾经在计算机上做一个图灵测试,让计算机区分哪些码是人产生的,哪些是机器产生的,这是卡内基美隆大学提出来的,在网络购物、登录网站、申请网站时都会碰到适配码被使用。这里我要提到第三个代表人物,他叫路易斯,他提出用这个适配码应用方式。……路易斯提出能不能把129年的报纸扫描,把图片碎片化,变成检验码,让大家去识别,这样一来,如果每天有两亿个检验码,从而一下子就把129年的纽约时报实现数字化,这就是群体智能。有些事情计算机做得很好,人做不好,有些事情人做得很好,很简单,计算机做不好,怎样把这两个优势加在一起呢?于是就有了群体智能。……所以云计算支撑大数据挖掘要发现价值的话,我们认为云计算本来就是基于互联网的大众参与计算模式,其计算资源是动态的,可收缩的,被虚拟化的,而且以服务的方式提供。 产生摆脱了传统的胖配置带来的系统升级开柙,更加简洁、更加灵活多样、个性化,手机、游戏机、数码相机、电视机差别细微,出现更多iCloud产品,界面人性化个性化,可成为大数据挖掘的终端。……挖掘员支撑各种各样的大数据应用,如果我们有数据收集中心、存储中心、计算中心、服务中心,一定还有数据挖掘中心,这样一来,我们就可以实现支撑大数据的及时应用和价值的及时发现。……云计算产生的众包思想已经被大家接受,无论是电影行业,还是搜狗的输入方法,还是摄影照片共享,还是T恤衫的设计购买,说明众包是怎么样完成生产购买的。因此我们可以设想,在互联网环境下,利用人的认知和大众间的交互,融合计算机存储对大数据挖掘,形成群体智能,这样一来,我们提出一个新的概念,叫众挖,大家来挖。……用户无需关心数据的形态,无需关心数据的获取位置、结构模式、存储方式以及分析过程,得到的就是及时的足够满意的挖掘结果,MaaS,谁是挖掘时代的谷歌呢?

JSMLAY:内容没啥,知识很相关……

7.我们可以看一看从三四十年前的计算时代到二三十年前的搜索时代,到今天开启的交互时代,我们依然会想起那英唱的那首歌,山不转水转,水不转云转,云不转心转,再深的巷子也能走出那个天,再大的数据也能绕过那道弯,谢谢大家!

JSMLAY: 我们所有人都生活在这么一个时代,我们要根据时代的要求改变应变的/科学的方法,早晚我们都会搞懂大数据时代的……

0 0