程序博客网 > c语言counter

Spark SQL中防止数据倾斜sqlContext.sql中添加distribute by rand()

来源：互联网发布：c语言counter 编辑：程序博客网时间：2024/05/22 09:05

一、在 Spark SQL中有时会因为数据倾斜影响节点间数据处理速度，可在SQL中添加distribute by rand()来防止数据倾斜

val dataRDD = sqlContext.sql(        "select A ,B from table your_table distribute by rand() "    )

二、在数据量过大时，若在Spark SQL中使用sort排序等自定义函数会出现内存不足错误

如Total size of serialized results of 20 tasks (1058.2 MB) is bigger than spark.driver.maxResultSize (1024.0 MB)

解决办法可在hive中单独建立一张表将数据排序，避免该步骤在spark内存中执行

0 0

c语言counter

c语言counter

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子边坡锚杆支护边坡锚杆施工边坡工程规范边坡防护规范城市道路边坡设计边坡锚杆支护施工方案边坡支护技术边城边城浪子边城读后感边城沈从文新边城浪子边城简介沈从文边城边城全文边城作者边城观后感边城教案边城阅读边城景区喋血边城大明边城边城结局边城ppt 边城赏析边城概括边城摘抄边城txt下载沈从文边城边城在哪边城在哪里边城txt 边城边城边城价格边城沈从文边城预习边城度假边城全集边城旅游边城学校边城正版