Hadoop和Spark学习日记1
来源:互联网 发布:打开文件的软件 编辑:程序博客网 时间:2024/06/05 01:06
1. Mahout
解析:
(1)Collaborative Filtering
(2)Classification
(3)Clustering
(4)Dimensionality Reduction
(5)Topic Models
2. k-Means
解析:
bin/mahout kmeans \ -i <input vectors directory> \ -c <input clusters directory> \ -o <output working directory> \ -k <optional number of initial clusters to sample from input vectors> \ -dm <DistanceMeasure> \ -x <maximum number of iterations> \ -cd <optional convergence delta. Default is 0.5> \ -ow <overwrite output directory if present> -cl <run input vector clustering after computing Canopies> -xm <execution method: sequential or mapreduce>
3. Mahout math(向量)
解析:
(1)public interface Vector extends Cloneable:The basic interface including numerous convenience functions.
(2)public class DenseVector extends AbstractVector:Implements vector as an array of doubles.
(3)public class SequentialAccessSparseVector extends AbstractVector:Implements vector that only stores non-
zero doubles as a pair of parallel arrays (OrderedIntDoubleMapping), one int[], one double[].
(4)public class RandomAccessSparseVector extends AbstractVector:Implements vector that only stores non-
zero doubles.
4. Mahout math(矩阵)
解析:
(1)public interface Matrix extends Cloneable, VectorIterable:The basic interface including numerous
convenience functions.
(2)public class DenseMatrix extends AbstractMatrix:Matrix of doubles implemented using a 2-d array.
(3)public class SparseMatrix extends AbstractMatrix:Doubly sparse matrix. Implemented as a Map of
RandomAccessSparseVector rows.
(4)public class SparseRowMatrix extends AbstractMatrix:sparse matrix with general element values whose
rows are accessible quickly. Implemented as a row array of either SequentialAccessSparseVectors or
RandomAccessSparseVectors.
(5)public class SparseColumnMatrix extends AbstractMatrix:sparse matrix with general element values whose
columns are accessible quickly. Implemented as a column array of SparseVectors.
5. Mahout math(序列化)
解析:Mahout math中的Vector和Matrix没有扩展Writable,但在Mahout核心模块中,VectorWritable和MatrixWritable
分别实现了Vector和Matrix的Writable接口。
6. MaxCompute提供的SDK包
解析:
(1)odps-sdk-core:MaxCompute的基础功能,例如对表,Project的操作,以及Tunnel均在此包中。
(2)odps-sdk-commons:一些Util封装。
(3)odps-sdk-udf:UDF功能的主体接口。
(4)odps-sdk-mapred:MapReduce功能。
(5)odps-sdk-graph:Graph Java SDK。
7. 项目空间(Projects)
解析:项目空间(Project)是MaxCompute的基本组织单元,它类似于传统数据库的Database或Schema的概念,是
进行多用户隔离和访问控制的主要边界。一个用户可以同时拥有多个项目空间的权限。通过安全授权,可以在一个项
目空间中访问另一个项目空间中的对象,例如:表(Table),资源(Resource),函数(Function),实例
(Instance)。
8. 表(Tables)
解析:表是MaxCompute的数据存储单元,它在逻辑上也是由行和列组成的二维结构,每行代表一条记录,每列表示
相同数据类型的一个字段,一条记录可以包含一个或多个列,各个列的名称和类型构成这张表的Schema。阿里云数
加平台的数据管理模块可以对MaxCompute表进行新建、收藏、修改数据生命周期管理、修改表结构和数据表/资源/
函数权限管理审批等操作。
9. 资源(Resources)
解析:资源(Resource)是MaxCompute的特有概念。用户如果想使用MaxCompute的自定义函数(UDF)或
MapReduce功能需要依赖资源来完成。MaxCompute资源的类型包括:File类型;Table类型,即MaxCompute中的
表;Jar类型,即编译好的Java Jar包;Archive类型,即通过资源名称中的后缀识别压缩类型,支持的压缩文件类型
包括.zip/.tgz/.tar.gz/.tar/jar。
10. 函数(Functions)
解析:MaxCompute为用户提供了SQL计算功能,用户可以在MaxCompute SQL中使用系统的内建函数完成一定的计
算和计数功能。但当内建函数无法满足要求时,用户可以使用MaxCompute提供的Java编程接口开发自定义函数
(User Defined Function,简称UDF)。自定义函数(UDF)又可以进一步分为标量值函数(UDF),自定义聚合函
数(UDAF)和自定义表值函数(UDTF)三种。用户在开发完成UDF代码后,需要将代码编译成jar包,并将此jar包
以jar资源的形式上传到MaxCompute,最后在MaxCompute中注册此UDF。在使用UDF时,只需要在SQL中指明UDF
的函数名及输入参数即可,使用方式与MaxCompute提供的内建函数相同。
11. 任务实例(Instances)
解析:在MaxCompute中,部分任务(Task)在执行时会被实例化,以MaxCompute实例(下文简称实例或
Instance)的形式存在。实例会经历运行(Running)及结束(Terminated)两个阶段。运行阶段的状态为
Running(运行中),而结束阶段的状态将会是Success(成功),Failed(失败)或Canceled(被取消)。用户可
以根据运行任务时MaxCompute给出的实例ID查询、改变任务的状态。
12. MaxCompute Studio [3]
解析:MaxCompute Studio是一套基于流行的集成开发平台IntelliJ IDEA的开发插件,让用户在集成开发环境(IDE)
中更方便地进行数据开发。它支持MaxCompute项目浏览、SQL脚本、用户自定义函数(UDF)、MapReduce程序
的开发和智能提示、作业执行状态展示等功能。
13. PyODPS [4][5]
解析:PyODPS支持用Python来对MaxCompute对象进行操作,它提供了DataFrame API来用类似pandas的接口进行
大规模数据分析以及预处理,并且可以用ML模块来执行机器学习算法。
14. DataX
解析:DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统
(RDBMS/Hdfs/Local filesystem)之间的数据交换。
15. Logview
解析:Logview是一个在ODPS Job提交后查看和Debug任务的工具。可看到的内容有:任务的运行状态;任务的运行
结果;任务的细节和每个步骤的进度。在用odpscmd提交任务时,会自动生成Logview的链接。生成的链接中的最后
一部分是token,这是用户打开该页面并查看job信息的钥匙,Logview页面的有效期为一周。
16. Caused by: java.net.NoRouteToHostException: No route to host
解析:
(1)systemctl stop firewalld.service #停止firewall
(2)systemctl disable firewalld.service #禁止firewall开机启动
(3)firewall-cmd --state #查看默认防火墙状态
17. HDFS和ResourceManager的Web接口
解析:
(1)HDFS的Web接口:http://Master:50070
(2)ResourceManager的Web接口:http://Master:8088
说明:Mahout只需要在Hadoop的NameNode节点安装即可,不需要在DataNode节点安装。
参考文献:
[1] Mahout:http://mahout.apache.org/
[2] aliyun-odps-console:https://github.com/aliyun/aliyun-odps-console
[3] 使用MaxCompute Studio开发大数据应用:https://yq.aliyun.com/articles/61561?spm=5176.100239.blogcont61558.30.E3iQQN
[4] PyODPS:ODPS Python SDK and data analysis framework:https://pyodps.readthedocs.io/zh_CN/latest/
[5] aliyun-odps-python-sdk:https://github.com/aliyun/aliyun-odps-python-sdk?spm=5176.100239.blogcont138752.20.1ZKfbD
[6] MaxCompute文章索引:https://yq.aliyun.com/articles/61808?spm=5176.100244.teamhomeleft.203.6ioi12
[7] MaxCompute:https://help.aliyun.com/product/27797.html?spm=5176.750001.2.13.eYqrzo
- Hadoop和Spark学习日记1
- Hadoop和Spark学习日记2
- Hadoop和Spark学习日记3
- Spark学习日记1
- Spark学习日记2
- Spark学习日记3
- Hadoop+Spark学习
- hadoop 和spark的基准测试(1)
- spark-2.2.0安装和部署——Spark集群学习日记
- spark-2.2.0安装和部署——Spark集群学习日记
- 编译hadoop和spark
- Hadoop、Spark和Storm
- Hadoop,Spark和Storm
- Hadoop,Spark和Storm
- Hadoop和Spark部署
- Hadoop 和 Spark 简介
- 概述Hadoop和Spark
- hadoop和spark比较
- CW3005|USB智能识别方案|赛微一级代理|中文规格书
- event loop js事件循环 microtask macrotask
- HDU 6033(Add More Zero) 简单数学题 Java
- 2017杭电多校联赛 1001 Add More Zero(取对数)HDU 6033
- 47. Permutations II
- Hadoop和Spark学习日记1
- 大型网站架构之分布式消息队列
- Linux配置好公钥后无法登陆
- make menuconfig异常
- UGUI 图集打包工具Sprite Packer
- bzoj2199 [Usaco2011 Jan]奶牛议会
- 是否是数组
- 硬盘分区与配额管理【Ubuntu-shell】
- mysql优化