机器学习未来预测

来源:互联网 发布:python绘图 编辑:程序博客网 时间:2024/05/16 11:35

**源自:

前途光明的机器学习将走向何方?这里有 5 个关于它的未来预测


1. 量子计算

相关开源项目推荐:

OpenFermion — 谷歌与量子计算机创企 Rigetti 合作开发的开源量子软件。这是一个用于编译和分析量子算法来模拟费米子系统,包括量子化学,其他功能方面,当前版本的特征是用数据结构和工具获取和操纵费米子和量子位哈密顿算子的表示。这款软件内包含了一个算法库,可以在量子计算机上模拟电子相互作用,非常适于化学、材料学方面的研究。


OpenFermion库能够模拟相互作用的电子(费米子)构成的系统,物质的性质就由此决定。它可以被视为一种工具,用来生成和编译物理方程式,来将化学和材料学系统描述成量子计算机可以理解的表示方式

OpenFermion的用法:
1. 研究者按以下说明初始化一个OpenFermion计算:

    1.  一份标明了分子中原子核坐标的输入文件;    2. 用来离散分子的基组(例如cc-pVTZ);    3. 系统的电荷和自旋多重性。

2. 研究者用OpenFermion-Psi4OpenFermion-PySCF插件来执行可扩展的经典计算,为量子计算提供最佳基础。比如说,可以执行Hartree-Fock计算,来为量子模拟选择一个好的初始态。
3. 之后,研究者可以在量子计算机上指定最想研究哪些电子,然后让OpenFermion将这些电子的方程式映射到适用于量子计算的表示方式。OpenFermion中有能完成这类任务的程序,比如Bravyi-Kitaev transformation。
4. 研究者选择一种量子算法来研究自己感兴趣的性质,再用OpenFermion-ProjectQ等量子编译框架,以汇编语言输出能在量子计算机上运行的量子电路。如果研究者有量子计算机可用,就可以完成自己的实验了。

相关链接:

  1. OpenFermion
  2. OpenFermion论文:OpenFermion: The Electronic Structure Package for Quantum Computers
  3. OpenFermion-Psi4
  4. Psi4
  5. OpenFermion-PySCF
  6. PySCF
  7. OpenFermion-ProjectQ
  8. ProjectQ
  9. Forest-OpenFermion
  10. Forest

2. 更好的无监督学习算法

当给学习算法输入的数据没有赋予标签时,就可以认为是无监督学习,它自己会在输入的数据中找到结构。事实上,无监督学习本身就是一个目标,比如发现数据中隐藏的模式,或者实现目的的手段,通常也会把无监督学习称为特征学习。构建更智能的无监督学习算法的进步,将会带来更快、更准确的结果。

相关开源项目推荐:

CycleGAN — 生成对抗网络图像处理工具

生成对抗网络(GAN)可以实现能解决无监督学习问题的模型,GAN 的网络结构是具有颠覆性的,Yann LeCun 在一次关于这个研究的演讲中如此评论:「GAN 是机器学习过去的 20 年里最重要的思想之一。」
CycleGAN 这个项目与其它人工智能绘画不同,CycleGAN 的研究团队试图建立一个可双向转化不丢失信息的双向算法。研究团队必须以机器可以理解的方式去描述每种风格之间的关系,并给机器 “吃下” 大量来自 Flicker 的照片进行训练。


1. CycleGAN的原理

我们之前已经说过,CycleGAN的原理可以概述为: 将一类图片转换成另一类图片 。也就是说,现在有两个样本空间,X和Y,我们希望把X空间中的样本转换成Y空间中的样本。
因此,实际的目标就是学习从X到Y的映射。我们设这个映射为F。它就对应着GAN中的生成器,F可以将X中的图片x转换为Y中的图片F(x)。对于生成的图片,我们还需要GAN中的判别器来判别它是否为真实图片,由此构成对抗生成网络。设这个判别器为 D_{Y} 。这样的话,根据这里的 生成器 和 判别器 ,我们就可以构造一个GAN损失,表达式为:

这里写图片描述

这个损失实际上和原始的GAN损失是一模一样的。
但单纯的使用这一个损失是无法进行训练的。原因在于,“映射F完全可以将所有x都映射为Y空间中的同一张图片,使损失无效化”。对此,作者又提出了所谓的“循环一致性损失”(cycle consistency loss)
我们再假设一个映射G,它可以将Y空间中的图片y转换为X中的图片G(y)。CycleGAN同时学习F和G两个映射,并要求这里写图片描述以及这里写图片描述也就是说,将X的图片转换到Y空间后,应该还可以转换回来。这样就杜绝模型把所有X的图片都转换为Y空间中的同一张图片了。根据这里写图片描述这里写图片描述 循环一致性损失就定义为:

这里写图片描述

同时,我们为G也引入一个判别器这里写图片描述由此可以同样定义一个GAN的损失 这里写图片描述最终的损失就由三部分组成:

这里写图片描述


2. CycleGAN与DCGAN的对比

为了进一步搞清楚CycleGAN的原理,我们可以拿它和其他几个GAN模型,如DCGAN、pix2pix模型进行对比。
先来看下DCGAN,它的整体框架和最原始的那篇GAN是一模一样的,在这个框架下,输入是一个噪声z,输出是一张图片(如下图), 因此,我们实际只能随机生成图片,没有办法控制输出图片的样子 ,更不用说像CycleGAN一样做图片变换了
这里写图片描述
CycleGAN与pix2pix模型的对比
pix2pix也可以做图像变换,它和CycleGAN的区别在于,pix2pix模型必须要求成对数据(paired data),而CycleGAN利用非成对数据也能进行训练(unpaired data)。
比如,我们希望训练一个将白天的照片转换为夜晚的模型。如果使用pix2pix模型,那么我们必须在搜集大量地点在白天和夜晚的两张对应图片,而使用CycleGAN只需同时搜集白天的图片和夜晚的图片,不必满足对应关系。 因此CycleGAN的用途要比pix2pix更广泛,利用CycleGAN就可以做出更多有趣的应用。


3. 在TensorFlow中实验CycleGAN

代码: vanhuyz/CycleGAN-TensorFlow
利用这个代码,可以训练一个从男性和女性图片互换的模型

步骤:
  • * 下载项目代码**

    git clone https://github.com/vanhuyz/CycleGAN-TensorFlow.git
  • 将图片转换成tfrecords格式
    这个项目中提供了一个build_data脚本,用于将图片转换成tfrecords形式。假设我们的图片存放在~/datasets/man2woman/a_resized/和 ~/datasets/man2woman/b_resized目录下,对应的命令就是:

    python build_data.py \    --X_input_dir ~/datasets/man2woman/a_resized/ \    --Y_input_dir ~/datasets/man2woman/b_resized/ \    --X_output_file ~/datasets/man2woman/man.tfrecords \    --Y_output_file ~/datasets/man2woman/woman.tfrecords
  • 训练
    训练的命令为:

    python train.py \    --X ~/datasets/man2woman/man.tfrecords \    --Y ~/datasets/man2woman/woman.tfrecords \    --image_size 256

训练的过程比较漫长,此时可以打开TensorBoard来观察训练情况(运行这个命令时需要将“20170715-1622”改成机器中对应的文件夹,下同):

tensorboard --logdir checkpoints/20170715-1622
  • 导出模型并执行单张图片
    导出模型的方法为:
    python export_graph.py \    --checkpoint_dir checkpoints/20170715-1622 \    --XtoY_model man2woman.pb \    --YtoX_model woman2man.pb  \    --image_size 256

对单张图片进行转换(将data/test.jpg替换为对应的输入图片地址):

python inference.py \--model pretrained/man2woman.pb  \--input data/test.jpg  \--output data/output.jpg \--image_size 256

参考文章:
1. CycleGAN的原理与实验详解
2. 用GAN去除(爱情)动作片中的马赛克和衣服
3. 比CycleGAN更强的非监督GAN—-DistanceGAN

3. 协同学习(Collaborative Learning)

协同学习简单来说就是利用不同的计算实体,使它们共同协作,以产生比自己所取得的更好的学习成果。一个典型的例子就是利用物联网传感器网络的节点进行分析,或称为边缘分析。随着物联网的发展,将会有越来越多单独的实体被用来以多种方式进行协同学习。

4. 深度个性化推荐(Deeper Personalization)

个性化推荐既是伟大的,但它同样也会令用户感到厌烦。我们经常会收到一些没有什么价值的建议,而那些个性化推荐似乎与我们实际上可能感兴趣的任何东西没有任何实际的关系。但将来,凭着机器学习技术的发展,相信用户将会收到更精确的建议,推送的广告也变得更有效,准确性也更高。用户体验也将大大提升。

相关开源项目推荐:

Apache PredictionIO — 面向开发者和数据科学家的开源机器学习服务器

PredictionIO 不久前从 Apache 孵化项目中脱胎而出,宣布成为 Apache 顶级项目。

PredictionIO 是面向开发者和数据科学家的开源机器学习服务器。它支持事件采集、算法调度、评估,以及经由 REST APIs 的预测结果查询。使用者可以通过 PredictionIO 做一些预测,比如个性化推荐、发现内容等。PredictionIO 提供 20 个预设算法,开发者可以直接将它们运行于自己的数据上。几乎任何应用与 PredictionIO 集成都可以变得更“聪明”。其主要特点如下所示:

  • 基于已有数据可预测用户行为
  • 使用者可选择自己的机器学习算法
  • 无需担心可扩展性,扩展性好
  • 提供个性化视频、新闻、交易、广告或职位信息
  • 帮助用户发现有趣的事、文件、App 和资源等

PredictionIO 基于 REST API(应用程序接口)标准,不过它还包含 Ruby、Python、Scala、Java 等编程语言的 SDK(软件开发工具包)。其开发语言是Scala语言,数据库方面使用的是MongoDB数据库,计算系统采用 Hadoop 系统架构。

5. 认知服务(Cognitive Service)

这项技术包括类似 API 和服务的工具包,开发者可以通过这些工具创建更多可发现而且是智能的应用程序。机器学习 API 将允许开发者引入智能功能,如情感检测分析;声音、面部和视觉识别;并将语言和声音理解融入其应用程序中。这个领域的未来将是为所有人推出深度个性化的计算体验。

简单来说,认知服务可向应用、网站和机器人注入智能算法,以自然的沟通方式来观察、倾听、谈话、了解和解释用户需求。

关于认知服务的一些假设:
当我们谈及人工智能时不可回避的一个问题是,人工智能究竟是天使还是魔鬼。而认知服务的主要任务是让机器理解人类世界,并能按照人类的思维方式或者超出普通人的思考能力去替代人类完成某些的判断或决策,以替代人类大脑。一旦人工智能拥有“思考能力”之后,人类很难预测她的行为究竟是善意的行为,还是恶意的陷阱。目前的认知服务是否开启了人工智能的潘多拉魔盒我们还未尝可知,未来的一切还有待我们来探索。

附: 28款GitHub最流行的开源机器学习项目

原创粉丝点击