Fintech前沿技术周报【2017-1-17】

来源：互联网发布：windows找不到regedit 编辑：程序博客网时间：2024/05/16 09:24

本文为关于过去两周 人工智能 和 机器学习 领域的最新动态回顾

Master 事件
CES 2017
[论文分享] Segmental Recurrent Neural Networks
开源 | LightGBM：三天内收获GitHub 1000+ 星
业界 | 日本保险公司引入IBM Watson，这次人工智能代替了34名白领
学界 | MIT将生物学机制引入神经网络，新模型或揭开抑制神经元功能

以下为一些总结和看法，如有建议或意见欢迎指点～

Google 旗下 DeepMind 组织声称对 Master 60连胜事件负责

近日，各大围棋在线对战平台常有玩家“举报”有人用“作弊器”谋取对各大围棋高手对决的胜率，并且气焰嚣张。直到1月4日晚，被举报玩家 Master 已经豪取60连胜，此时Google 旗下 DeepMind 组织终于声称对 Master 60 连胜事件负责。

在对战中韩围棋世界冠军中，Master取得了以下成绩：

姓名国籍 Master对战/取胜次数古力中国 3 柯洁中国 3 陈耀烨中国 3 范廷钰中国 2 常昊中国 1 时越中国 1 芈昱廷中国 1 唐韦星中国 1 江维杰中国 1 柁嘉熹中国 1 周睿羊中国 1 朴廷桓韩国 5 元晟溱韩国 1 姜东润韩国 1 金志锡韩国 1 朴永训韩国 1

当然你看到这里时，Master 已经退隐，它的不败记录也定格在 60 场。Master 即 2016 年掀起一波AI巨浪的 AlphaGo 的强化版，Google 收购的 DeepMind 团队也宣布对此事负责。在2017 CES 即将召开之际，Master 如此“嚣张”地在各大围棋平台上“兴风作浪”无非是想搞个大新闻，在对比之下显得其它科技公司太年轻太简单，有时甚至幼稚。

但是不得不承认的是2017年、甚至接下来的若干年，人工智能将不会像其他热点那么快冷却下来，而是不断自我完善升级，像许多输给 Master 的棋手所说，Master 的一些方法在人类看来完全是不合理的，如果在学习围棋阶段这样下，是会被老师打手心的，但现在机器证明了人类数千年的经验累积并不完全是对的，我们人类以后会开始考虑从机器那里学习知识，而这也会让我们更快的成长。

最后，希望李世石不是唯一赢过 AlphaGo 的人类。

CES 2017

CES（Consumer Electronics Show），是一个知名国际性电子产品和科技的贸易展览会，今年 CES 的五大看点，即

人工智能思维

过去的 2016 年人工智能在多个方面如井喷式爆发，而在接下来的一年中人工智能将更加全面的渗透到生活消费中，提高人类生活水平，智能化推动商业模式转换，通过提供更有效的人机交互方式增强机器处理数据的能力。

智能助理

苹果的 Siri，Amazon 的 Echo， Google Home 助理，扎克伯格也正在亲自“打造”自己的 Jarvis，当年《钢铁侠》中 Tony Stark 看似遥不可及的个人助理 Jarvis 现在看来正在一步步逼近我们的生活。数字助理销售的增长可以帮助加速物联网市场的成长，创造更有用的服务。

物联网安全问题

物联网设备之所以容易被入侵是因为它们自带的硬编码密码很容易被攻陷，而这些设备一旦被攻陷将被黑客控制成为网关，进一步攻击整个网络架构。

虚拟现实

虚拟现实技术目前大多被应用于游戏和 3D电影 中，但其发展并不会止于此，它还可以用于培训等场景，不仅降低了成本，所带来的安全性也是引人关注的。

从消费电子产品到消费服务

自 云服务 出现以来，卖服务开始悄无声息的兴起，原本需要购置的物理服务器只需在云上进行申请，个人存储设备也可以直接挂接在云上。新设备的亮点不断吸引着消费着购买，如何更好的体现出设备的价值，服务消费观念也不断的被大多数消费者所接受。

这次 CES 2017 上， Amazon 的语音助手 Alexa 可谓是出尽了风头，Amazon 副总裁 Mike George 称 Alexa 语音平台接入的语音技能已突破7000，在下一次人机交互革命的爆发点 语音交互 上，Amazon 终于是力压包括 Google 在内的其他科技公司搞了一次大新闻。

在 CES 官方评出的36项最佳创新产品中，有可以帮助糖尿病患者监测血糖的 K’Track G

像戒指一样的小玩意能够跟踪你的活动、心跳和睡眠的 Motiv Ring

集合了生物指纹信息、语音识别等安全要素用作个人身份的安全识别的 uBolt 身份验证手环

当然也有配备定位系统的 Link AKC 智能狗圈

此外，还有利用手机识别物体帮助视力障碍者获取周围信息的 Aipoly Vision

智能高性能助听器 ReSound ENZO2

帮助身体障碍用眼睛控制计算机的 Tobii Dynavox PCEye Mini

这些 惠人科技 无处不体现着人性化的设计。

更多详情请移步 http://tech.sina.com.cn/2017-01-07/doc-ifxzkfuk2769427.shtml

论文分享 | Segmental Recurrent Neural Networks

本周和大家分享的papar是 2016 年 ICLR 的一篇文章 Segmental Recurrent Neural Networks https://arxiv.org/abs/1511.06018。

在解决序列问题上，segmentation 和 segment-labeling 是非常常见且棘手的问题，准确高效的 segmentation 算法对命名实体识别、关键词抽取等上层任务起到极为关键的作用。

Segmental RNN 结合了 表征学习（representation learning） 和 结构化预测（structural predication） 两种机器学习方法，输入为句子序列 x⃗ =<x1,x2,...,x|x|>，输出为每个segment的长度向量 z⃗ =<z1,z2,...,zi> 以及每个 segmentation 的标签 y⃗ =<y1,y2,...,yi>，保证∑izi=|x|。
SRNN
该模型主要按以下两个步骤操作：
1. Encoding：使用双向 RNN 对输入序列 x⃗ =<x1,x2,...,x|x|> 进行 Encoding ，并将正向和反向的 Encoding 结果进行 concatenate，得到 c⃗ =<c1,c2,...,c|x|>。
2. Segmentation/Labeling：将第一步得到的 c⃗ 输入到另外一个双向 RNN 中，注意此时不是将整个 c⃗ 输入，而是采用类似 Viterbi 的思想进行动态规划，然后用 forward RNN 的输出和 backward RNN 的输出预测 z⃗ 和 y⃗ 。

此外，这篇论文考虑了 监督学习 和 半监督学习 两个目标，监督学习中分段向量 z⃗ 和分段标签 y⃗ 都是被观察的，而半监督学习中只有分段标签 y⃗ 是被观察的。

最后该模型在在线手写识别数据集 Kassel (1995)、中文分词数据集 SIGHAN 2005 dataset 上都有不错的表现：

Hand-writing Recognition Task

Joint Chinese Word Segmentation and POS Tagging

Chinese Word Segmentation Results on SIGHAN 2005 dataset

开源|LightGBM：三天内收获GitHub 1000+ 星

微软研究院AI头条

目前已有的 GBDT(Gradient Boosting Decision Tree) 工具基本都是基于预排序（pre-sorted）的方法的决策树算法(如 xgboost)，这种构建决策树的算法基本思想是：
1. 对所有特征都按照特征的数值进行预排序。
2. 在遍历分割点的时候用O(#data)的代价找到一个特征上的最好分割点。
3. 找到一个特征的分割点后，将数据分裂成左右子节点。

这样的预排序算法的优点是能精确地找到分割点，但不论在时间还是空间上都有较大的开销，很难在业界大数据下得到高效应用。

LightGBM(Light Gradient Boosting Machine) 对已有的算法进行改进优化，具有

更快的训练速度
更低的内存消耗
更好的准确率
分布式支持，可以快速处理海量数据

主要进行了如下改进：

基于 Histogram 的决策树算法
带深度限制的Leaf-wise的叶子生长策略
直方图做差加速
直接支持类别特征(Categorical Feature)
Cache命中率优化
基于直方图的稀疏特征优化
多线程优化

业界 | 日本保险公司引入IBM Watson，这次人工智能代替了34名白领

机器之心

日本富国生命保险（Fukoku Mutual Life Insurance）将要斥资 170 万美元（约合 2 亿日元）引入 IBM 公司的人工智能系统，随后每年的维持费用约为 12.8 万美元。
“受伤定性、患者病史和治疗形式都将纳入理赔金额的考量。人工智能系统将自动搜索数据，完成数据计算任务，帮助该公司剩余的员工更快地处理理赔事宜”。

有人认为这样能够使得员工更加专注于技术细节的工作，而有人则担心人工智能所带来的就业危机。

此外，一些美国公司也在使用情绪分析软件来为顾客提供服务，通过获知顾客的情绪，当顾客对自助服务系统不满意，系统将自动转接到人工服务上去。

学界 | MIT将生物学机制引入神经网络，新模型或揭开抑制神经元功能

机器之心

目前的神经网络大多为前馈神经网络，即神经元的信息逐层向前传递并且为正向激活效应，通过大量的训练数据来调整神经网络中的激活阈值和神经元之间的传递权值。

MIT CSAIL 提出了一种新型模拟大脑神经回路的计算模型，在神经元之间的激活效应之外加入了抑制神经元放电机制。这种抑制机制被研究员们称为 赢家通吃（winner-take-all）策略，神经系统以这样一种简单的竞争机制保证了使用频率较高、输入较强的环路联接被保留下来并加以强化，而使用频率低、输入较弱的联接被去除，从而使系统资源得到最优化的分配，神经环路的联接更加精确。
Basic WTA Network structure
由于在生物学中一些神经元只会起到抑制作用，所以不加限制的让每个神经元自我训练学习权重是不合理的，MIT 研究员在神经网络中加入了两种抑制神经元，并且将它们的权值始终设为负数：

收敛神经元：当不止一个输出神经元放电时会发出强烈的抑制信号，驱使回路挑选一个单独的输出神经元在该点停止放电。
稳定神经元：当收敛神经元被关闭时，它会防止第二个神经元被激活，只要任意输出神经元在放电，它会发出较弱的信号。

附论文链接：Computational tradeoffs in biological neural networks: Self-stabilizing winner-take-all networks https://arxiv.org/pdf/1610.02084v1.pdf

0 0