GitHub机器学习项目,你了解多少?

来源:互联网 发布:淘宝助理教程 编辑:程序博客网 时间:2024/06/06 13:02

GitHub十大机器学习项目

原文发表于 http://wenda.chinahadoop.cn/question/2744
未经本人允许请勿转载!

在Github上排名前10位的机器学习项目包括许多库,框架和教育资源。看看别人都在用的工具,和学习的资源。

作者Matthew Mayo, KDnuggets.

开源工具在数据科学工作流程中越来越重要.

最近KDnuggets软件民意调查结果显示,73%的数据科学家使用前12个月免费的数据科学工具.这是容易理解的,因为Python和R的生态系统,是数据科学家使用的最突出最重要的工具.

以下是在Github上排名前十的机器学习项目概述

Github已经成为事实上的开源软件交流中心,托管所有你能想到的项目.鉴于学术,科研和爱好越来越多的人采用机器学习,以及其在数据科学越来越重要,我们正在探索GitHub可用的深度学习项目.

1.Scikit-learn

Python的机器学习

★ 8641, 5125


这个排名是毋庸置疑的,对于全世界的Pythonistas来说关键的机器学习库,从工业到学术. Scikit-learn利用Python的科学计算堆栈,建立于NumPy, SciPy和matplotlib.作为通用的工具包,Scikit-learn包括分类,回归和聚类算法以及数据预处理和模型评估工具.

2. Awesome Machine Learning

一个神奇的机器学习框架,库和软件集合.

★ 8404 1885

该列表按语言分类,并用机器学习的类别(通用,计算机视觉,自然语言处理等等).他还包括数据可视化工具,在某种意义上这是一件好事,将成为更广义的数据科学列表.

3. PredictionIO

PredictionIO一个开发和ML工程师的机器学习服务.构建与Spark,HBase和Spray.
★ 8145 1002

PredictionIO是一个通用的框架.包含一些知名任务引擎的模板,例如分类和推荐,可以定制,用REST API或SDK连接到已有应用,同时支持Spark MLib.因为他构建与Spark之上,并利用其生态系统,PredictionIO 主要由Scala开发并不惊奇.

4. Dive Into Machine Learning

★ 4326 342

这是对于scikit-learn IPython notebook tutorials的集合,以及一些指向相关Python特定或通用机器学习主题,以及更一般的数据科学信息.repo没有任何软件,如果你是刚用Python学机器学习,可或许值得一试.

5. Pattern

★ 3799 598

Pattern是出自安特卫普大学的计算机语言学和心理语言学研究中心基于Python的Web挖掘工具包.在这种情况下,它能用于处理scraping,机器学习,自然语言处理,网络分析和可视化任务的工具。Pattern也可以轻松地从几个知名的Web服务挖掘数据。该项目声称有详细文档,并包括许多例子和单元测试。

6. NuPIC (Numenta Platform for Intelligent Computing)

★ 3647 987

NUPIC实现了分层时间记忆(HTM)的机器学习算法。 HTM是大脑皮层的计算模型的尝试,并侧重于存储和调用空间和时间模式。 NUPIC非常适合模式相关的异常检测。

7. Vowpal Wabbit

★ 2949 827

Vowpal Wabbit的目的是为大规模数据集的快速建模,以及支持并行学习。该项目是在雅虎开始,目前在微软研究院开发的。 Vowpal Wabbit驾驭还来学习,并已用于学习跨1000个计算节点学习tera级别数据集。

8. aerosolve

★ 2538 245

aerosolve试图与其他库不同,注重人性化的调试工具,Scala代码训练,以便于图像排名的图像内容分析引擎,以及功能转换语言给予了用户灵活性和控制的功能。 aerosolve基于特征表示实现thrift,其中特征是逻辑分组的,在整个特征组之间以施加变换,或促进相互作用为目的。

9.GoLearn

★ 2334 215

GoLearn是用Go开发的一个机器学习库。它的目标是为开发者去提供一个全功能,简单易用,可定制的软件包。 GoLearn实现了熟悉的(许多)拟合/预测Scikit-learn的界面,很容易得出估计,并实现了“辅助功能”像交叉验证和训练集/测试集分裂。

10. Code for Machine Learning for Hackers

此repo包含来自O’Reilly出版的机器学习黑客攻击的代码。所有repo代码是在R,依靠众多的R程序包,以及涉及的主题包括分类,排名和回归和常见的统计方法,如主成分分析和多维尺度分析。

0 0
原创粉丝点击