图像识别(0)——终于进入“正轨”

来源：互联网发布：盯盯是什么软件编辑：程序博客网时间：2024/05/22 12:02

博主QQ：1356438802

我的工作终于进入了“正轨”，开始全面深入的图像识别研究。前面花了半年的时间入门OpenCV（开源计算机视觉库），看看我的博客，OpenCV这个专题文章都写了17篇了。

我始终觉得“懒惰是人类之光”，人类文明的发展都是为了让自己偷懒，让自己不那么累的情况下，视觉、听觉、触觉都可以延伸到其他地方。

那么离开鼠标，离开键盘，解放双手，是我们当前最迫切的需要。简单的操作能不能用手势完成，复杂的输入能不能语音输入？

想想几乎所有的科幻片里面都有这样的场景，主人公在任意一个桌面或者玻璃窗户上，甚至悬空，操作文档、图片、视频，跟机器语音交流，让它完成一系列事情，看起来很装逼，很帅！特别是《钢铁侠》里面，体现的淋漓尽致。

语音交互这一块，其实包含两层：语音识别，语义识别及其反馈。语音识别还稍微简单（其实也很复杂，只是相对简单），科大讯飞的语音识别已经做得很好，但是语义识别、反馈怎么做，其中涉及到神经网络、机器学习、人工智能，相当有门槛。看看苹果的Siri，微软的小冰、小娜，她们也还没有达到非常智能的程度。用过小冰的童鞋都知道，要经常跟她对话、聊天，让她了解、熟悉你的习性，她才会更懂你，更流利的跟你交流，其实这就是人工智能的训练过程。哦，对了，别忘了还有“百度大脑”。

图像识别呢，是一个非常依赖算法的功能，三岁小孩要从一幅图片中识别出另外一个人很容易，可是这让机器做却非常难。路漫漫其修远兮，吾将上下而求索！

其实OpenCV的例程中已经提供人脸识别和微笑识别的例程，这两个比较有特征，识别起来比较简单。如果要识别某个手势动作呢，比如手掌左划、右划，握拳，我现在也不是很清楚，呵呵。

既然图像识别这么难，那我就挑软的柿子捏，先来个简单的，我就识别图片里面的一个点，取出点的坐标，绘制点的运动轨迹。这个应该不难吧。具体请听下回分解！^_^

========================分割线====================

我是罗辑思维的粉丝，今天罗辑思维《得到》APP上《王煜全.前哨》栏目更新了一篇文章，有这样一则新闻，《ImageNet大规模视觉识别挑战赛》：

看来中国人在图像识别领域中，越来越厉害了。

不多说了，我先去了解下这个比赛，看能不能获取到一些图像识别方面的信息资料。

0 0