Mapr使用数据(一)——使用NFS访问数据

来源:互联网 发布:linux touch cat 命令 编辑:程序博客网 时间:2024/04/28 13:00

不像其他的Hadoop发行版,只允许集群数据导入或导入作为批处理作业,MAPR让您安装群集本身通过NFS,使您的应用程序可以直接读取和写入数据。MAPR允许直接修改文件和多个并发读取,并通过POSIX语义写道。与NFS挂载的集群,可以直接读取和使用标准工具,应用程序和脚本写入数据。例如,您可以运行它输出到CSV文件中的MapReduce作业,然后通过NFS CSV文件直接导入到SQL。

 观看此视频为NFS安装模型和数据流的解释...

MAPR出口每个集群的目录  / MAPR / <cluster NAME>  (例如,  / MAPR / my.cluster.com)。如果你创建一个挂载点的本地路径  / MAPR,然后Hadoop的FS路径和NFS路径到集群将是相同的。这使得它很容易在工作通过NFS和Hadoop相同的文件。在多集群环境中,集群共享一个单一命名空间,你可以看到他们所有安装的顶层  / MAPR  目录。

图标

MAPR使用NFS协议版本3。NFS版本4绕过端口映射器,并尝试连接到唯一的默认端口。如果你是一个非标准的端口上运行NFS,从挂载NFS版本4的客户端超时。使用邻nfsvers = 3选项指定NFS版本3。

此页面包含以下部分:

  • 安装群集
    • 在群集节点安装NFS来MAPR-FS
    • 在Linux客户端挂载NFS
    • 在Mac客户端挂载NFS
    • 在Windows客户端挂载NFS
      • 安装集群
        • 要安装在群集上的Windows 7旗舰版或Windows 7企业版
        • 要安装在其他Windows版本的集群
      • 映射网络驱动器
        • 要映射网络驱动器的映射网络驱动器的工具
      • 配置UID和GID为NFS访问
        • 要访问NFS共享时,系统是Active Directory域的一部分
        • 若要从一个独立的系统访问NFS共享
  • 设置压缩和传输块大小

请参阅  设置MAPR NFS  设置NFS非标准端口上。

安装群集

在开始之前,请确保您知道在NFS的主机名和目录分享您计划安装。
示例:

  • USA-node01上:/ MAPR -用于命令行安装
  • NFS :/ / usa-node01/mapr -从Mac Finder上安装

在群集节点安装NFS来MAPR-FS

自动挂载NFS来MAPR-FS的群集上my.cluster.com/ MAPR挂载点,添加下面一行到/选择/ MAPR / conf /中mapr_fstab

<HOSTNAME> :/ MAPR / MAPR硬,NOLOCK
图标

更改为/选择/ MAPR / conf /中mapr_fstab将不会生效,直到监狱长重新启动。

每次系统重新启动时,挂载点自动根据重建mapr_fstab配置文件。

手动挂载NFS来MAPR-FS在/ MAPR挂载点:

  1. 建立一个挂载点NFS共享。例如:sudo的MKDIR / MAPR
  2. 通过NFS挂载的集群。例如:sudo的安装邻NOLOCK USA-node01上:/ MAPR / MAPR
图标

当你在命令行中手动挂载,挂载点并没有重新启动后仍然存在。

在Linux客户端挂载NFS

要安装自动在系统启动时,添加NFS mount到/ etc / fstab中。例如:

#设备的挂载点fs类型选项转储fsckorder
...
USA-node01上:/ MAPR / MAPR NFS RW               0
...

要挂载的NFS Linux客户机上手动

  1. 确保已安装NFS客户端。示例: 
    • 须藤yum的安装NFS-utils的(Red Hat或CentOS的)
    • 命令和apt-get安装nfs-common来(Ubuntu的)
    • 须藤的zypper安装NFS客户端(SUSE)
  2. 列出NFS共享导出的服务器上。例如:showmount显示-E USA-node01上
  3. 建立一个挂载点NFS共享。例如:sudo的MKDIR / MAPR
  4. 通过NFS挂载的集群。例如:sudo的安装邻NOLOCK USA-node01上:/ MAPR / MAPR
图标

重启后,当你在命令行中手动挂载的挂载点不存在。

在Mac客户端挂载NFS

要从命令行手动安装群集:

  1. 打开一个终端(单程是点击快速启动>打开终端)。
  2. 在命令行中输入下面的命令成为root用户:sudo的庆典
  3. 列出NFS共享导出的服务器上。例如:showmount显示-E USA-node01上
  4. 建立一个挂载点NFS共享。例如:sudo的MKDIR / MAPR
  5. 通过NFS挂载的集群。例如:sudo的安装邻NOLOCK USA-node01上:/ MAPR / MAPR
  6. 列出所有安装的文件系统来验证集群安装。安装

在Windows客户端挂载NFS

设置Windows NFS客户端需要你安装群集并正确配置的用户ID(UID)和组ID(GID),如下面的章节中描述。在所有情况下,Windows的客户端必须使用有效的UID和GID从Linux域访问NFS。不匹配的UID或GID会导致权限问题时,MapReduce作业尝试访问是从Windows复制过来的NFS共享文件。

图标

由于Windows目录的缓存,有可能似乎没有。快照目录中的每个卷的根目录下。要解决这个问题,强制Windows重新加载该卷的根目录通过更新它的修改时间(例如,通过创建的卷的根目录的空文件或目录)。

图标

与Windows NFS客户端,使用邻NOLOCK在NFS服务器上的选项,以防止Linux的NLM从端口映射进行注册,
与MAPR NFS服务器的本地Linux NLM冲突。

安装集群

要安装在群集上的Windows 7旗舰版或Windows 7企业版

  1. 打开开始>控 ​​制面板>程序
  2. 选择Windows功能打开或关闭
  3. 选择NFS服务
  4. 单击OK(确定)
  5. 安装群集,并使用它映射到一个驱动器映射网络驱动器的工具或命令行。例如:安装邻NOLOCK USA-node01上:/ MAPR Z:

要安装在其他Windows版本的集群

  1. 下载并安装微软的Windows服务的Unix(SFU)。你只需要安装NFS客户端和用户名映射。
  2. 在SFU配置用户身份验证,以配合所使用的簇(LDAP或操作系统用户)的认证。你可以映射本地Windows用户集群Linux用户,如果需要的话。
  3. 一旦SFU安装和配置,安装群集,并使用它映射到一个驱动器映射网络驱动器的工具或命令行。例如:安装邻NOLOCK USA-node01上:/ MAPR Z:

映射网络驱动器

要映射网络驱动器的映射网络驱动器的工具

  

  1. 打开开始>我的电脑
  2. 选择工具>映射网络驱动器
  3. 在映射网络驱动器窗口中,选择从一个未使用的驱动器盘符驱动器下拉列表中。
  4. 指定文件夹通过浏览MAPR集群,或者通过输入主机名和目录到文本字段中。
  5. 浏览MAPR集群或键入映射的文件夹的名称。此名称必须遵循联合国军司令部。或者,单击Browse ...按钮通过浏览可用的网络股,以找到正确的文件夹中。
  6. 选择登录时重新连接,每当你登录到计算机自动重新连接到MAPR集群。
  7. 单击Finish(完成)。

配置UID和GID为NFS访问

要访问NFS共享时,系统是Active Directory域的一部分

你必须指示NFS客户端访问AD服务器获得  uidNumber  和  gidNumber。在一个较高的水平,该方法如下所示:

  1. 确保AD用户架构具有辅助类  的posixAccount
  2. 填充公元  uidNumber  和  gidNumber  领域相匹配  的uid  和  gid的  从Linux。
  3. 配置NFS客户端查找  的uid  和  gid的  在AD DS存储。

参见细节在这里:  。http://technet.microsoft.com/en-us/library/hh509016(V = WS.10)ASPX。

若要从一个独立的系统访问NFS共享

对于一个独立的Windows 7或Vista的机器(不使用Active Directory),Windows总是使用其配置的匿名UID和GID为NFS访问,默认情况下是-2。但是,您可以将Windows配置为使用特定的值,从而导致能够使用这些值来访问NFS。

UID和GID值设置在Windows注册表中,并是全球性的在Windows NFS客户端对话框。此解决方案可能无法正常工作,如果你的Windows中有每个谁需要访问NFS与他们自己的权限多用户,但是没有明显的方法来避免此限制。

这些值存储在注册表中路径  HKEY_LOCAL_MACHINE \ SOFTWARE \ MICROSOFT \ ClientForNFS \ CURRENTVERSION \默认。这两个DWORD值  AnonymousUid  和 AnonymousGid。如果它们不存在,则必须创建它们。

请参阅详细资料 

设置压缩和传输块大小

在MAPR存储每个目录包 ​​含一个名为的隐藏文件。dfs_attributes来控制压缩和块大小。要改变这些属性,更改文件中的相应值。

例如:

#以#开头的行被视为注释
压缩= LZ4
CHUNKSIZE = 268435456

有效值:

  • 压缩:LZ4LZFzlib的,或
  • 块大小(以字节为单位):65535(64 K)或零(无块)的倍数。例如:131072

您也可以使用设置压缩和块大小的Hadoop MFS命令。

 

默认情况下,MAPR不压缩文件,其文件扩展名表示他们已经压缩。是文件扩展名的默认列表如下:

  • BZ2
  • GZ
  • LZO
  • 瞬间
  • TGZ
  • tbz2的
  • 拉链
  • Ž
  • Ž
  • MP3
  • JPG
  • JPEG
  • MPG
  • MPEG
  • AVI
  • GIF
  • PNG

文件扩展名不压缩的列表存储为逗号分隔值mapr.fs.nocompression配置参数,并能与被修改的配置保存命令。例如:

maprcli配置保存

该列表可以与被视为配置负载指令。例如:

maprcli配置负载键mapr.fs.nocompression

0 0
原创粉丝点击