hadoop学习
来源:互联网 发布:宁波洞桥淘宝运营招聘 编辑:程序博客网 时间:2024/05/28 15:48
Hbase 测试工程:
http://192.168.3.221:5000/test/data?webId=10017406
hbase 表结构分为 : rowkey、列簇、时间戳、列名、列值
其中 列簇与列名 组合在一起,才是一个hbase中 完整的列名
(1)
table =(HTable) conn.getTable(TableName.valueOf(tableName));
// 按rowkey查找
Get get = newGet(Bytes.toBytes(rowkey));
// 按列族查找
get.addFamily(Bytes.toBytes(columnFamily));
// 查找所有版本
get.setMaxVersions(3);
Result dbResult = table.get(get);
(2)
table =(HTable) conn.getTable(TableName.valueOf(tableName));
Scan scan = new Scan();
RowFilter filter = newRowFilter(CompareFilter.CompareOp.EQUAL,
newBinaryComparator(Bytes.toBytes(rowkey)));
// 按rowkey查找
scan.setFilter(filter);
// 按列族查找
scan.addFamily(Bytes.toBytes(columnFamily));
scan.addColumn(Bytes.toBytes(columnFamily),Bytes.toBytes("request"));
// 查找所有版本
scan.setMaxVersions();
ResultScannerresultScanner = table.getScanner(scan);
杨玉伟(杨玉伟) 10-26 12:52:50
* [SpringData](http://projects.spring.io/spring-data/)
* [Spring for ApacheHadoop](http://projects.spring.io/spring-hadoop/)
* [Spring HadoopSamples](https://github.com/spring-projects/spring-hadoop-samples)
*[java 获取hbase数据springdatahadoop --hbasetemplate](http://blog.csdn.net/linlinv3/article/details/42737113)
Hbase 是 列存储:
行式数据库与列式数据库的对比
http://www.cnblogs.com/sunShineJing/p/5512932.html
http://blog.fens.me/series-hadoop-family/
http://blog.fens.me/hadoop-mapreduce-log-kpi/
http://www.cnblogs.com/nexiyi/p/hbase_shell.html
http://blog.csdn.net/wulantian/article/details/41011297
http://www.cnblogs.com/nexiyi/p/hbase_shell.html
http://www.css88.com/archives/4643
http://blog.csdn.net/codestinity/article/details/6981278
http://baike.baidu.com/link?url=IABCH3iOqOyMgHdGU3Bl6m-C7i8nAFxhfSNDO8V6qb55FzNOefqj06I7czr_vNunuuUNMEj3_5yTt-m5fXcneK
https://my.oschina.net/firstBlooded/blog/596197
http://blog.chinaunix.net/uid-25723371-id-4976190.html
http://blog.csdn.net/hugengyong/article/details/38148373
http://www.cnblogs.com/zhenjing/p/hbase_example.html
http://blog.csdn.net/moxiaomomo/article/details/13434091
http://blog.csdn.net/wulantian/article/details/41011297
http://blog.csdn.net/u010967382/article/details/37653177
http://blog.csdn.net/zwx19921215/article/details/19896519
http://www.linuxidc.com/Linux/2014-12/111061.htm
http://www.cnblogs.com/justinzhang/p/4261851.html
http://blog.csdn.net/lanwenbing/article/details/40783335
http://www.zhihu.com/question/21226255
http://zhidao.baidu.com/link?url=wZexV6H5s2NWBoMjulIvVf4_XTZTaG0dijztdBc0dIy_9f_nSFIpH1m8gewSwumRiug1Ylgq3MsTliSpQpu9g6GBrqdC8rFD0g_UL6sr1RK
http://www.jdon.com/dl/best/spring4new.html
http://www.tuicool.com/articles/7bamYrB
http://blog.jobbole.com/53736/
• Hadoop历史
雏形开始于2002年的Apache的Nutch,Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
随后在2003年Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File System,google公司为了存储海量搜索数据而设计的专用文件系统。
2004年Nutch创始人Doug Cutting基于Google的GFS论文实现了分布式文件存储系统名为NDFS。
2004年Google又发表了一篇技术学术论文MapReduce。MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。
2005年Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
2006年,Yahoo雇用了Doug Cutting,Doug Cutting将NDFS和MapReduce升级命名为Hadoop,Yahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop。
不得不说Google和Yahoo对Hadoop的贡献功不可没。
• Hadoop核心
Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。
• HDFS
HDFS(Hadoop Distributed File System,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。
HDFS的设计特点是:
1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。
2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。
3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。
4、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。
5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。
HDFS的关键元素:
Block:将一个文件进行分块,通常是64M。
NameNode:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----如果主NameNode失效,启动备用主机运行NameNode。
DataNode:分布在廉价的计算机上,用于存储Block块文件。
- 【hadoop学习】Hadoop配置
- Hadoop学习-hadoop常用命令
- hadoop正式学习---hadoop
- hadoop 学习
- Hadoop学习
- hadoop学习
- Hadoop学习
- hadoop学习
- Hadoop学习
- hadoop学习
- hadoop学习
- hadoop学习
- hadoop学习
- hadoop学习
- Hadoop学习
- hadoop学习
- Hadoop学习
- Hadoop学习
- git与GitHub网站之间本地文件仓库
- android.view.InflateException: Binary XML file line #7: Binary XML file line #7
- 【Scikit-Learn 中文文档】最近邻
- URL的getFile()和getPath()方法的区别
- java.lang.ClassCastException: oracle.sql.TIMESTAMP cannot be cast to java.sql.Timestamp 翻译 2017年08月2
- hadoop学习
- Android进阶-View系列(三)-Android绘图机制与处理技巧(上)
- 青山不改,绿水长流
- js获取文件大小
- Android工厂模式学习笔记
- 推荐给没有机器的小伙伴------深度学习云平台Floydhub
- Hogan
- 当我说要做大数据工程师时他们都笑我,直到三个月后……
- Eclipse插件TestNG下载及安装