Husky简介及如何利用PyHusky进行数据分析计划

来源：互联网发布：淘宝不给退款怎么投诉编辑：程序博客网时间：2024/05/16 06:24

介绍

Husky项目旨在建立一个更具有表达能力和更高效的分布式数据分析系统。

Husky设计并实现了一个高度优化的执行引擎，以求在有限计算资源之上取得更好的性能。

Husky的计算模型支持快速并高效地实现各类算法。如下图所示，经测试Husky在下面两种情况下计算时间都远远小于Spark或者Hadoop组合，可见Husky拥有超强的计算性能。

Husky支持广泛的应用，其中包括MapReduce的ETL，文本数据挖掘，图数据分析，同步和异步的机器学习。

Husky具有良好的兼容性，支持连接不同的系统并能很好地与Hadoop生态系统共同协作。

Husky实现了各类简易的编程接口，有效地降低应用的开发复杂度，从而缩短开发周期。

Husky的Python和Scala前端支持现有的各类存储系统，并提供高级的编程接口，方便各类数据科学家们简单快速地使用Husky。

Husky以C++语言开发，其提供了友好并且高度优化的C++ APIs。利用这些APIs，你可以开发高效的分布式应用，包括机器学习，图分析等等。

另外，为了方便数据科学家使用极少的代码快速进行数据分析, 我们便有了能提供高级的Python前端的PyHusky。PyHusky在提供简易编程接口的同时，由C++的执行引擎保证高效的性能。要了解PyHusky，可以参考下面几点。

接下来，将分步介绍如何使用PyHusky实现数据分析全流程的计划介绍：

在这里将陆续推出博文对以上计划进行具体介绍，通过提供各步解决方案让你对数据分析全流程有个清晰的思路，同时也感受PyHusky在处理各类问题时的优秀性能。

3 0