hadoop学习

来源:互联网 发布:宁波洞桥淘宝运营招聘 编辑:程序博客网 时间:2024/05/28 15:48

Hbase  测试工程:

http://192.168.3.221:5000/test/data?webId=10017406

 

 

hbase  表结构分为 : rowkey、列簇、时间戳、列名、列值

其中 列簇与列名 组合在一起,才是一个hbase中 完整的列名

 

 

(1)

table =(HTable) conn.getTable(TableName.valueOf(tableName));

 

// rowkey查找

Get get = newGet(Bytes.toBytes(rowkey));

// 按列族查找

get.addFamily(Bytes.toBytes(columnFamily));

// 查找所有版本

get.setMaxVersions(3);

 

Result dbResult = table.get(get);

 

 

 

(2)

table =(HTable) conn.getTable(TableName.valueOf(tableName));

 

Scan scan = new Scan();

                    

RowFilter filter = newRowFilter(CompareFilter.CompareOp.EQUAL,

              newBinaryComparator(Bytes.toBytes(rowkey)));

          

// rowkey查找

scan.setFilter(filter);

// 按列族查找

scan.addFamily(Bytes.toBytes(columnFamily));

scan.addColumn(Bytes.toBytes(columnFamily),Bytes.toBytes("request"));

// 查找所有版本

scan.setMaxVersions();

 

ResultScannerresultScanner = table.getScanner(scan);

 

杨玉伟(杨玉伟) 10-26 12:52:50

* [SpringData](http://projects.spring.io/spring-data/)

* [Spring for ApacheHadoop](http://projects.spring.io/spring-hadoop/)

* [Spring HadoopSamples](https://github.com/spring-projects/spring-hadoop-samples)

*[java 获取hbase数据springdatahadoop --hbasetemplate](http://blog.csdn.net/linlinv3/article/details/42737113)

 

 

 

Hbase 是 列存储:

行式数据库与列式数据库的对比

http://www.cnblogs.com/sunShineJing/p/5512932.html

 

 

 

http://blog.fens.me/series-hadoop-family/

 

http://blog.fens.me/hadoop-mapreduce-log-kpi/

 

http://www.cnblogs.com/nexiyi/p/hbase_shell.html

 

http://blog.csdn.net/wulantian/article/details/41011297

 

http://www.cnblogs.com/nexiyi/p/hbase_shell.html

 

http://www.css88.com/archives/4643

 

 

http://blog.csdn.net/codestinity/article/details/6981278

 

http://baike.baidu.com/link?url=IABCH3iOqOyMgHdGU3Bl6m-C7i8nAFxhfSNDO8V6qb55FzNOefqj06I7czr_vNunuuUNMEj3_5yTt-m5fXcneK

 

 

https://my.oschina.net/firstBlooded/blog/596197

 

http://blog.chinaunix.net/uid-25723371-id-4976190.html

 

http://blog.csdn.net/hugengyong/article/details/38148373

 

http://www.cnblogs.com/zhenjing/p/hbase_example.html

 

http://blog.csdn.net/moxiaomomo/article/details/13434091

 

http://blog.csdn.net/wulantian/article/details/41011297

 

http://blog.csdn.net/u010967382/article/details/37653177

 

http://blog.csdn.net/zwx19921215/article/details/19896519

 

http://www.linuxidc.com/Linux/2014-12/111061.htm

 

http://www.cnblogs.com/justinzhang/p/4261851.html

 

http://blog.csdn.net/lanwenbing/article/details/40783335

 

http://www.zhihu.com/question/21226255

 

http://zhidao.baidu.com/link?url=wZexV6H5s2NWBoMjulIvVf4_XTZTaG0dijztdBc0dIy_9f_nSFIpH1m8gewSwumRiug1Ylgq3MsTliSpQpu9g6GBrqdC8rFD0g_UL6sr1RK

 

http://www.jdon.com/dl/best/spring4new.html

 

http://www.tuicool.com/articles/7bamYrB

 

http://blog.jobbole.com/53736/

 


• Hadoop历史
雏形开始于2002年的ApacheNutchNutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。
随后在2003Google发表了一篇技术学术论文谷歌文件系统(GFS)。GFS也就是google File Systemgoogle公司为了存储海量搜索数据而设计的专用文件系统。
2004
Nutch创始人Doug Cutting基于GoogleGFS论文实现了分布式文件存储系统名为NDFS
2004
Google又发表了一篇技术学术论文MapReduceMapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行分析运算。
2005
Doug Cutting又基于MapReduce,在Nutch搜索引擎实现了该功能。
2006
年,Yahoo雇用了Doug CuttingDoug CuttingNDFSMapReduce升级命名为HadoopYahoo开建了一个独立的团队给Goug Cutting专门研究发展Hadoop
不得不说GoogleYahooHadoop的贡献功不可没。

• Hadoop
核心
Hadoop
的核心就是HDFSMapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBaseHive等,这些都是基于HDFSMapReduce发展出来的。要想了解Hadoop,就必须知道HDFSMapReduce是什么。

• HDFS
HDFS
Hadoop Distributed File SystemHadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,适合那些有着超大数据集(large data set)的应用程序。

HDFS
的设计特点是:
1
、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没啥意思了。
2
、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高得多得都。
3
、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。
4
、廉价硬件,HDFS可以应用在普通PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。
5
、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。

HDFS
的关键元素:
Block
:将一个文件进行分块,通常是64M
NameNode
:保存整个文件系统的目录信息、文件信息及分块信息,这是由唯一一台主机专门保存,当然这台主机如果出错,NameNode就失效了。在Hadoop2.*开始支持activity-standy模式----如果主NameNode失效,启动备用主机运行NameNode
DataNode
:分布在廉价的计算机上,用于存储Block块文件。