开源机器学习项目的简单介绍

来源:互联网 发布:微信授权回调域名 编辑:程序博客网 时间:2024/05/16 14:41

机器学习开源项目的简单介绍

摘要: 2016 和 2017 年对机器学习来说都是令人兴奋的,机器学习领域在 2016 年取得了重大的进展,2017 年,热度继续上升......

可能是2017最全的机器学习开源项目列表

2016 年,似乎所有巨头公司都在做机器学习,如果没有,也是在赶来的路上。所以 2016 或许会因为 “机器学习大热” 而被载入史册。2017,这个热潮并没有消退的迹象,前阵子 AlphaGo 的升级版以横扫千军的姿态战胜几乎所有中国的围棋大师,如入无人之境,最后更是以 60 连胜完美收官。人们对于机器学习的热情再度被点燃起来。

机器学习的热度如此高,大家也许会需要查找相关资源进行学习和研究。本文整理了一份优秀的开源的有关机器学习的框架 、平台、系统、库和工具包的列表。

平台和系统

  • TensorFlow — TensorFlow 是谷歌的第二代机器学习系统,内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用 TensorFlow
  • PaddlePaddle — 百度研发的深度学习平台,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持
  • Apache SINGA — SINGA 是基于大型数据集训练,大型深度学习模块的常规分布式学习平台。SINGA 支持各种流行的深度学习模块
  • Scikit Flow — TensorFlow 的简化接口,模仿 Scikit 学习,用户可在预测分析和数据挖掘中使用
  • VELES — 分布式深度学习应用系统,用户只需要提供参数,剩下的都可以交给 VELES。VELES 是三星开发的另一个 TensorFlow
  • SpeeDO — 为通用硬件设计的并行深度学习系统。SpeeDO 不需要特殊的 I/O 硬件,支持 CPU/GPU 集群,可以很方便地在各种云端环境上部署,如 AWS、Google GCE、Microsoft Azure 等等

框架

  • Torchnet — Facebook 为加快 A.I 研究而开源的深度学习框架
  • LightGBM — 微软开源的一个实现 GBDT 算法的框架,支持高效率的并行训练。旨在解决 GBDT 在海量数据遇到的问题,让 GBDT 可以更好更快地用于工业实践
  • Guagua — Hadoop 迭代式计算框架 Guagua 是 PayPal 的一个开源机器学习框架 Shifu 的子项目,主要解决模型训练的分布式问题
  • Chainer — Chainer 在深度学习的理论算法和实际应用之间架起一座桥梁,深度学习的灵活框架
  • Shifu — 基于 Hadoop 的快速和可伸缩的机器学习框架
  • KeystoneML — 用 Scala 编写的框架,旨在简化构造大规模、端到端的机器学习管道,基于 Apache Spark 构建
  • LightNet — 轻量级,多功能,完全基于 Matlab 的深度学习框架。目的是为深度学习研究提供一个易于理解、易于使用和高效的计算平台
  • DeepLearningKit — 针对 iOS、OS X 和 tvOS 的开源深度学习框架
  • GoLearn — GoLearn 是一款 Go 语言实现的机器学习框架
  • YCML — 使用 Objective-C 编写的机器学习框架,也支持 Swift

工具包和库

  • DMTK — 微软开源的分布式机器学习工具包,包括 DMTK 分布式机器学习框架、用于训练主题模型的 LightLDA以及分布式词向量
  • CNTK — 微软开源的用于语音识别的深度学习工具包,借助 GPU 的能力,该工具包的效率相当高
  • DSSTNE — 亚马逊开源的深度学习工具,能同时支持两个图形处理器(GPU)参与运算,主要用作智能搜索和推荐
  • Scikit-learn — Python 的机器学习项目,简洁、高效的算法库,提供一系列的监督学习和无监督学习的算法,用于数据挖掘和数据分析。SciKit-learn 几乎覆盖了机器学习的所有主流算法
  • Deeplearning4j — 为 Java 和 Scala 编写的首个商业级开源分布式深度学习库,为商业环境所设计,以即插即用为目标,通过更多预设的使用,避免太多配置,让非研究人员也能够进行快速的原型制作
  • MXNet — 轻量级且灵活高效的深度学习库,允许使用混合符号编程和命令式编程
  • CaffeOnSpark — 雅虎开源的基于 Hadoop/Spark 的分布式深度学习包
  • BigDL — 英特尔开源的基于 Apache Spark 的分布式深度学习库,支持高性能大数据分析
  • Swift AI — 高性能的人工智能和机器学习库,完全用 Swift 编写,目前支持 iOS 和 OS X,包括一组人工智能和机器学习的通用工具
  • Gorgonia — Go 机器学习库,用于撰写和评估多维数组的数学公式。与 Theano 和 TensorFlow 理念相似,支持 GPU/CUDA,支持分布式计算
  • Shark C++ — 快速、模块化、功能丰富的开源 C++ 机器学习库,提供了各种机器学习相关技术,比如线性/非线性优化、基于内核学习算法、神经网络等
  • MLPACK — C++ 的机器学习库,亮点在于其扩展性、高速性和易用性。旨在让新用户通过简单、一致的 API 使用机器学习,同时为专业用户提供 C++ 的高性能和最大灵活性
  • smile — 包含各种现有的机器学习算法的 Java 库。例如邻接表和矩阵图算法、基于 Swing 的可视化库等
  • PredictionIO — 开源的机器学习服务器,开发工程师和数据分析师可以使用它构建智能应用程序,还可以做一些预测功能,比如个性化推荐、发现内容等
  • Aerosolve — 支撑 Airbnb 定价建议系统的机器学习引擎
  • Vowpal Wabbit — 机器学习系统,它利用诸如在线,散列,减少,缩减,学习,搜索,主动和交互式学习等技术推动机器学习技术的前沿发展
  • Apache SystemML — SystemML 是灵活的、可伸缩机器学习 (ML) 语言,使用 Java 编写。它提供自动优化功能,通过数据和集群特性保证高效和可伸缩。SystemML 可在 MapReduce 或者 Spark 环境中运行
百度 PaddlePaddle & DuerOS
在和几款最常用的深度学习框架TensorFlow、Torch、Caffe比较之前,我们先重点介绍新出现的PaddlePaddle。 
Paddle其实已经有多年历史了。早在 2013年,百度就察觉到传统的基于单GPU的训练平台,已经无法满足深度神经网络在搜索、广告、文本、语音、图像等领域的训练需求,于是在徐伟的带领下开始搭建Paddle——一个多机并行的CPU/GPU混布的异构计算平台。Paddle从最早的开发到如今的开源,就一直以大规模数据处理和工业化的要求不断改进。我们可以看PaddlePaddle有很多优异的特性。 
Github上介绍,PaddlePaddle有以下特点: 
· 灵活 
PaddlePaddle支持大量的神经网络架构和优化算法,支持任意复杂RNNs结构,高效处理batch,无需数据填充。简单书写配置文件即可实现复杂模型,比如拥有注意力(Attention)机制、外围记忆层(External 
Memory)或者用于神经机器翻译模型的深度时序快进网络。 
· 高效 
为了利用异构计算资源的能力,PaddlePaddle中的每一级都会进行优化,其中包括计算、内存、架构和通信。以下是几个例子: 
1.使用SSE/AVX内联函数、BLAS数据库(例如MKL、ATLAS、cuBLAS)和定制化的CPU/GPU Kernal来优化数学运算。 
2.高度优化RNNs网络,在没有Padding的情况下,也能处理不同长度的序列。 
3.优化的本地和分布式训练,同时支持高纬稀疏模型。 
· 可扩展 
有了PaddlePaddle,使用多个CPU和GPU以及机器来加速训练可以变得很轻松。 PaddlePaddle能通过优化通信,获得高吞吐量和性能。 
· 与产品的连接 PaddlePaddle的部署也很简单。在百度,PaddlePaddle已经被用于产品和服务中,拥有大量用户。应用场景包括预估外卖的出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等等。 在PaddlePaddle简单、可扩展的逻辑下,徐伟评价说:“这将使工程师们能够快速、轻松地将深度学习技术应用到他们的产品当中,我们想让更多的人使用人工智能,人工智能对于我们的未来生活是非常重要的。”
附:百度开源深度学习框架PaddlePaddle安装配置(单机CPU版) -  http://blog.csdn.net/huludan/article/details/52661685

学习机器学习有哪些好工具推荐

Matlab的statistics Toolbox+众多扩展包,opencv,Octave,Python的Scipy库也不错,Weka,R。

其实工具都是其次,关键还是思想。

深度盘点国内四大机器学习开源平台:PaddlePaddle,Angel

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  2015-2016 的机器学习平台开源大潮中,美国是当之无愧的引领者:无论是谷歌、亚马逊、微软、IBM 等互联网巨头,还是美国各大科研院所,为开源世界贡献了品类繁多的机器学习工具。这其中不乏华人的身影,比如开发出 Caffe 的贾杨清。

  但在大陆这边,无论是 BAT 还是学界,在开源机器学习项目上始终慢了一拍,令人十分遗憾。这与我国世界最大 AI 研究者社区、占据 AI 科研领域半壁江山的江湖地位*颇为不符。让人欣喜的是,2016 下半年,百度和腾讯先后发布了它们的开源平台战略。虽然姗姗来迟,但作为下半场入场的选手,它们的开源平台各自有什么意义?本文中,作为机器学习开源项目盘点的第三弹,雷锋网将与你一起看看包括百度腾讯平台在内的国内四大开源项目。

  *注:据创新工场人工智能工程院王咏刚副院长统计,我国 AI 发文数与引用文章数居世界第一,占世界总数一半以上。

  1. 百度:希望获得开发者青睐的 “PaddlePaddle”

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  2016 年 9 月 1 日的百度世界大会上,百度首席科学家吴恩达宣布,该公司开发的异构分布式深度学习系统 PaddlePaddle 将对外开放。这标志着国内第一个机器学习开源平台的诞生。

  其实,PaddlePaddle 的开发与应用已经有段时日:它源自于 2013 年百度深度学习实验室创建的 “Paddle”。当时的深度学习框架大多只支持单 GPU 运算,对于百度这样需要对大规模数据进行处理的机构,这显然远远不够,极大拖慢了研究速度。百度急需一种能够支持多 GPU、多台机器并行计算的深度学习平台。而这就导致了 Paddle 的诞生。自 2013 年以来,Paddle 一直被百度内部的研发工程师们所使用。

  而 Paddle 的核心创始人,当年的百度深度学习实验室研究员徐伟,现在已是 PaddlePaddle 项目的负责人。

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

徐伟

  对了,从 “Paddle” 到 “PaddlePaddle” 的命名还有一个小插曲:Paddle 是“Parallel Distributed Deep Learning”的缩写,意为“并行分布式深度学习”。而去年 9 月发布时,吴恩达认为 “PaddlePaddle” (英语意为划船——“让我们荡起双~昂~桨,小船儿推开波浪。。。”)其实更郎朗上口、更好记,于是就有了这么个可爱的名字。

  那么,PaddlePaddle 有什么特点?

  • 支持多种深度学习模型 DNN(深度神经网络)、CNN(卷积神经网络)、 RNN(递归神经网络),以及 NTM 这样的复杂记忆模型。

  • 基于 Spark,与它的整合程度很高。

  • 支持 Python 和 C++ 语言。

  • 支持分布式计算。作为它的设计初衷,这使得 PaddlePaddle 能在多 GPU,多台机器上进行并行计算。

  相比现有深度学习框架,PaddlePaddle 对开发者来说有什么优势?

  首先,是易用性。

  相比偏底层的谷歌 TensorFlow,PaddlePaddle 的特点非常明显:它能让开发者聚焦于构建深度学习模型的高层部分。项目负责人徐伟介绍:

“在 PaddlePaddle 的帮助下,深度学习模型的设计如同编写伪代码一样容易,设计师只需关注模型的高层结构,而无需担心任何琐碎的底层问题。未来,程序员可以快速应用深度学习模型来解决医疗、金融等实际问题,让人工智能发挥出最大作用。”

  抛开底层编码,使得 TensorFlow 里需要数行代码来实现的功能,可能在 PaddlePaddle 里只需要一两行。徐伟表示,用 PaddlePaddle 编写的机器翻译程序只需要“其他”深度学习工具四分之一的代码。这显然考虑到该领域广大的初入门新手,为他们降低开发机器学习模型的门槛。这带来的直接好处是,开发者使用 PaddlePaddle 更容易上手。

  其次,是更快的速度。

  如上所说,PaddlePaddle 上的代码更简洁,用它来开发模型显然能为开发者省去一些时间。这使得 PaddlePaddle 很适合于工业应用,尤其是需要快速开发的场景。

  另外,自诞生之日起,它就专注于充分利用 GPU 集群的性能,为分布式环境的并行计算进行加速。这使得在 PebblePebble 上,用大规模数据进行 AI 训练和推理可能要比 TensorFlow 这样的平台要快很多。

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  说到这里,业内对  PaddlePaddle 怎么看?

  首先不得不提的是 Caffe,许多资深开发者认为 PaddlePaddle 的设计理念与 Caffe 十分相似,怀疑是百度对标 Caffe 开发出的替代品。这有点类似于谷歌 TensorFlow 与 Thano 之间的替代关系。

  知乎上,Caffe 的创始人贾杨清对 PaddlePaddle 评价道:

  1. "很高质量的 GPU 代码"

  2. "非常好的 RNN 设计"

  3. "设计很干净,没有太多的 abstraction,这一点比 TensorFlow 好很多"

  4. "设计思路有点老"

  5. "整体的设计感觉和 Caffe ‘心有灵犀’,同时解决了 Caffe 早期设计当中的一些问题”

  最后,贾表示 PaddlePaddle 的整体架构功底很深,是下了功夫的。这方面,倒是赢得了开发者的普遍认同。

  总结起来,业内对 PaddlePaddle 的总体评价是“设计干净、简洁,稳定,速度较快,显存占用较小”。

  但是,具有这些优点,不保证 PaddlePaddle 就一定能在群雄割据的机器学习开源世界占有一席之地。有国外开发者表示, PaddlePaddle 的最大优点是快。但是,比 TensorFlow 快的开源框架其实有很多:比如 MXNet,Nervana System 的 Neon,以及三星的 Veles,它们也都对分布式计算都很好的支持,但都不如 TensorFlow 普及程度高。这其中有 TensorFlow 庞大用户基础的原因,也得益于谷歌自家 AI 系统的加持。

  百度的 AI 产品能够对普及 PaddlePaddle 产生多大的帮助,尚需观察。雷锋网获知,它已经应用于百度旗下的多项业务。百度表示:

“PaddlePaddle 已在百度 30 多项主要产品和服务之中发挥着巨大的作用,如外卖的预估出餐时间、预判网盘故障时间点、精准推荐用户所需信息、海量图像识别分类、字符识别(OCR)、病毒和垃圾信息检测、机器翻译和自动驾驶等领域。”

  最后,我们来看看对于自家推出的 PaddlePaddle,李彦宏怎么说:

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

“经过了五六年的积累,PaddlePaddle 实际上是百度深度学习算法的引擎,把源代码开放出来,让同学们、让社会上所有的年轻人能够学习,在它的基础上进行改进,我相信他们会发挥出来他们的创造力,去做到很多我们连想都没有想过的东西。”

  2. 腾讯:面向企业的 “Angel”

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  2016,鹅厂在 AI 领域展开一系列大动作:

  • 9 月,成立 AI 实验室。

  • 11 月,获得 Sort Benchmark 大赛的冠军

  • 12 月 18 日,在腾讯大数据技术峰会暨 KDD China 技术峰会上对外公开 “Angel” 的存在,并透漏它就是拿下 Sort Benchmark 冠军背后的天使。

  • (即将)在 2017 年一季度,开放 Angel 源代码。

  Angel 将成为 PaddlePaddle 之后、BAT 发布的第二个重磅开源平台。那么,它到底是什么?

  简单来说,Angel 是面向机器学习的分布式计算框架,由鹅厂与香港科技大学、北京大学联合研发。腾讯表示,它为企业级大规模机器学习任务提供解决方案,可与 Caffe、TensorFlow 和 Torch 等业界主流深度学习框架很好地兼容。但就雷锋网所知,它本身并不算是机器学习框架,而侧重于数据运算。

  上个月 18 日的发布会上,腾讯首席数据专家蒋杰表示:

“面对腾讯快速增长的数据挖掘需求,我们希望开发一个面向机器学习的、能应对超大规模数据集的、高性能的计算框架,并且它要对用户足够友好,具有很低的使用门槛,就这样,Angel 平台应运而生。”

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  这其中的关键词,一个是“大”规模数据,另一个是“低”使用门槛。

  “大”方面,企鹅表示 Angel 支持十亿级别维度的模型训练:

  “Angel 采用多种业界最新技术和腾讯自主研发技术,包括 SSP(Stale synchronous Parallel)、异步分布式 SGD、多线程参数共享模式 HogWild、网络带宽流量调度算法、计算和网络请求流水化、参数更新索引和训练数据预处理方案等。这些技术使 Angel 性能大幅提高,达到 Spark 的数倍到数十倍,能在千万到十亿级的特征维度条件下运行。”

  “低”方面,Angel 并没有采用机器学习领域标配的 Python,而使用企业界程序猿最熟悉的 Java,以及 Scala 。企鹅声明:“在系统易用性上,Angel 提供丰富的机器学习算法库及高度抽象的编程接口、数据计算和模型划分的自动方案及参数自适应配置。同时,用户能像使用 MR、Spark 一样在 Angel 上编程,我们还建设了拖拽式的一体化的开发运营门户,屏蔽底层系统细节,降低用户使用门槛。”

  总的来讲,Angel 的定位是对标 Spark 。蒋杰宣称,它融合了 Spark 和 Petuum 的优点。“以前 Spark 能跑的,现在 Angel 快几十倍;以前 Spark 跑不了的,Angel 也能轻松跑出来。”

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  其实,Angel 已经是鹅厂的第三代大数据计算平台。

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  1. 第一代是基于 Hadoop 的深度定制版本“TDW”,它的重点是“规模化”(扩展集群规模)。

  2. 第二代集成了 Spark 和 Storm,重点是提高速度,“实时化”。

  3. 第三代自研平台 Angel,能处理超大规模数据,重点是“智能化”,专门对机器学习进行了优化。

  这三代平台的演进,从使用第三方开源平台过渡到自主研发,涵盖了从数据分析到数据挖掘、从数据并行到模型并行的发展。现在 Angel 已支持 GPU 运算,以及文本、语音、图像等非结构化数据。自今年初在鹅厂内部上线以来,Angel 已应用于腾讯视频、腾讯社交广告及用户画像挖掘等精准推荐业务。另外,国内互联网行业开口闭口就要打造“平台”、“生态”的风气,鹅厂也完美继承:“Angel 不仅仅是一个只做并行计算的平台,更是一个生态”——这种话虽然不耐听,但腾讯的大数据野心可见一斑。

12 月 18 日晚,马化腾在微信朋友圈写道:“AI 与大数据将成为未来各领域的标配,期待更多业界同行一起开源携手互助。”

  但对于机器学习社区,Angel 开源的意义是否如同鹅厂宣称的那样大?

  对此,机器学习界的“网红”、微软研究员彭河森说道:

“对于小一点的公司和组织,Spark 甚至 MySQL 都已经够了(为了政治正确我提一下 PostgresQL);而对于大一点真的用得上 Angel 的企业,如阿里巴巴等,早就自主开发了自己的大数据处理平台。”

  因此,他总结 Angel 的发布是一个“很尴尬的时间和市场定位”。

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

彭河森

  与百度 PaddlePaddle 相比,Angel 有一个很大的不同:它的服务对象是有大数据处理需求的企业,而不是个人开发者。可惜的是,由于 Angel 尚未正式开源,大数据、机器学习同行们无法对其进行一番评头论足。目前所有的信息都来自于鹅厂的官方宣传。关于 Angel 开放源代码后能在业界引发多大反响,请关注雷锋网后续报道。  

  最后,我们来看看蒋杰对 Angel 开源意义的官方总结:

“机器学习作为人工智能的一个重要类别,正处于发展初期,开源 Angel,就是开放腾讯 18 年来的海量大数据处理经验和先进技术。我们连接一切连接的资源,激发更多创意,让这个好平台逐步转化成有价值的生态系统,让企业运营更有效、产品更智能、用户体验更好。”

  更多信息请看雷锋网整理的腾讯 Angel 发布会实录:腾讯大数据宣布开源第三代高性能计算平台 Angel 。

  3. 阿里巴巴: 犹抱琵牌半遮面的 DTPAI

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  但凡说到平台,就不能不提阿里。

  与百度比起来,阿里的 AI 战略布局看上去更“务实”:主要是依托阿里云计算、贴近淘宝生态圈的一系列 AI 工具与服务,比如阿里小蜜。而基础研究起步较晚,相对百度和鹅厂也更低调。 2016 年阿里 AI 战略的大事件是 8 月 9 日的云栖大会,马云亲自站台发布了人工智能 ET,而它的前身是阿里“小 Ai ”。综合目前信息,阿里想要把 ET 打造成一个多用途 AI 平台:应用于语音、图像识别,城市计算(交通),企业云计算,“新制造”,医疗健康等等领域,让人不禁联想起 IBM Watson。用阿里的话来说,ET 将成为“全局智能”。

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  但是,在开源项目方面,阿里有什么布局(马云最喜欢用这样的词)?

  答案有惊喜也有失望。

  好消息是,阿里早在 2015 年就宣布了数据挖据平台 DTPAI (全称:Data technology,the Platform of AI,即数据技术—人工智能平台)。

  坏消息是,那之后就没动静了。

  当时,也就是 2015 年的八月,阿里宣布将为阿里云客户提供付费数据挖掘服务 DTPAI。当然,对它的发布免不了大谈特谈一通“生态”、“平台”——宣称 DTPAI 是“中国第一个人工智能平台”。格调定得相当高。

  它有什么特点?

  首先, DTPAI 将集成阿里巴巴核心算法库,包括特征工程、大规模机器学习、深度学习等等。其次,与百度、腾讯一样,阿里也很重视旗下产品的易用性。阿里 ODPS 和 iDST 产品经理韦啸表示,DTPAI 支持鼠标拖拽的编程可视化,也支持模型可视化;并且广泛与 MapReduce、Spark、DMLC、R 等开源技术对接。

  若仅仅如此,一个阿里云的付费数据挖据工具还不会出现在这篇文章中。雷锋网真正感兴趣的是:阿里表示 DTPAI “未来会提供通用的深度学习框架,它的算法库将在后期向社会开放”。

  嗯,有关 DTPAI 的信息到此为止。Seriously,2015 年之后它就再也没消息了。阿里云是耍猴还是在憋大招? 我们只有走着瞧。

  4. 山世光:大陆学界硕果仅存的 SeetaFace

BAT 在下一盘大棋?深度盘点国内四大机器学习开源平台

  盘点了 BAT 的开源平台规划,再来看一个始于学界的项目。与国外 AI 学界百花齐放的现状不同,大多数人从未听说过始于国内学界的机器学习开源项目,这方面几乎是空白一片——说是“几乎”,因为有中科院计算所山世光老师带领开发的人脸识别引擎  SeetaFace 。

  山老师是我国 AI 界的学术大牛之一,2016 年下半年已经下海创业,创业后不久就公开了 SeetaFace。山老师的研究团队表示,开源 SeetaFace 是因为“该领域迄今尚无一套包括所有技术模块的、完全开源的基准人脸识别系统”。而 SeetaFace 将供学界和工业界免费使用,有望填补这一空白。

  SeetaFace 基于 C++,不依赖于任何第三方的库函数。作为一套全自动人脸识别系统,它集成了三个核心模块,即:人脸检测模块(SeetaFace Detection)、面部特征点定位模块(SeetaFace Alignment)以及人脸特征提取与比对模块 (SeetaFace Identification)。

  该系统用单个英特尔 i7 CPU 就可运行,成功降低了人脸识别的硬件门槛。它的开源,有望帮助大量有人脸识别任务需求的公司与实验室,在它们的产品服务中接入 SeetaFace,大幅减少开发成本。

【扩展阅读】28款GitHub最流行的开源机器学习项目_ http://www.linuxidc.com/Linux/2016-04/130424.htm