igQuery是Google于2011年底正式推出的一项Web服务

来源:互联网 发布:淘宝代卖软件 编辑:程序博客网 时间:2024/05/17 03:11
igQuery是Google于2011年底正式推出的一项Web服务,通过该服务,开发者可以使用Google的架构来运行SQL语句对超大型的数据库进行操作。即BigQuery可以对开发者上传的超大型数据进行直接交互式分析,开发者无需投资建立自己的数据中心。 

今天,谷歌升级了BigQuery,带来了更强大的功能,比如更大的查询范围、新的数据类型、更灵活的表结构、更好的分析工具等。具体如下。 


1.  Big JOIN 和 Big Group Aggregations 

从多个庞大的数据集中提取信息是非常具有挑战性且非常耗时,如果你的数据过大(TB级别),往往需要复杂的MapReduce工作流、并需要为基础设施投入大量的资金和时间。 

新版本BigQuery中带来了一个新的功能,使得分析师和开发者可以在数据库中更快地运行类似SQL的连接和聚合查询,而无需分批次处理。Big JOIN功能可以通过公共key合并两个大型数据表,并产生一个结果集,大大简化了数据分析工作。 

对于分组查询,可以使用新的Big Group Aggregations功能,允许开发者在结果集分组中包含更多的值。 

要使用这些新功能,只需在JOIN或GROUP BY字句中加上EACH修饰符。更多信息:BigQuery query reference 

Sql代码 
  1. /* JOIN EACH example   
  2. * Selects the top 10 most edited Wikipedia pages  
  3. of words that appear in works of Shakespeare.  
  4. */  
  5.   
  6. SELECT  
  7.  TOP(wiki.title, 10), COUNT(*)  
  8. FROM  
  9.  [publicdata:samples.wikipedia] AS wiki  
  10. JOIN EACH  
  11.  [publicdata:samples.shakespeare] AS shakespeare  
  12. ON  
  13.  shakespeare.word = wiki.title;   

2.  对TIMESTAMP数据类型的原生支持 

新版本中增加了TIMESTAMP数据类型,该类型允许开发者导入日期和时间值的同时保留时区偏移信息。此外,还增加了一些函数,用于将TIMESTAMP字段转换为其他格式、计算间隔、提取部分值(小时、星期、时刻等)。更多信息:query reference#timestamp 

Sql代码 
  1. /* TIMESTAMP example  
  2. * Which hours in the day are the most popular for GitHub actions?  
  3. * This query converts github_timeline "created_at" date time     
  4. * strings to BigQuery TIMESTAMPand extracts the hour from each.  
  5. */  
  6.   
  7. SELECT  
  8.  HOUR(TIMESTAMP(created_at)) AS event_create_hour,  
  9.  COUNT(*) AS event_count  
  10. FROM  
  11.  [publicdata:samples.github_timeline]  
  12. GROUP BY  
  13.  event_create_hour  
  14. ORDER BY  
  15.  event_count DESC;   

3.  添加列到现有BigQuery表格 

要使用此功能,只需提供一个新的模式和列数据,并使用BigQuery API方法“Tables: update”或“Tables: patch”即可。更多信息:BigQuery API reference 

4.  BigQuery Web UI:数据集链接和数据集共享通知 

这提供了一个便捷的方式,使得授权用户可以快速访问数据集,并允许标记和共享。此外,还增加了电子邮件通知,以告知用户他们已经获得了数据集的访问权限。 



详细信息:BigQuery gets big new features to make data analysis even easier