[Spark--版本更新]----2.2.1发行说明
来源:互联网 发布:网络教育专业选择 编辑:程序博客网 时间:2024/05/20 02:54
2017年12月01日,Spark官方进行了一次大版本升级。相关的发行说明如下:
子任务
- [ SPARK-21083 ] - 分析空表后存储零大小和行数
- [ SPARK-21489 ] - 更新发布文档指出Python 2.6的支持已被删除。
- [ SPARK-21720 ] - 用很多条件筛选谓词抛出stackoverflow错误
- [ SPARK-22494 ] - 合并和AtLeastNNonNulls可能导致64KB JVM字节码限制异常
- [ SPARK-22498 ] - 64KB JVM字节码限制与concat的问题
- [ SPARK-22499 ] - 最小和最大的64KB JVM字节码限制问题
- [ SPARK-22500 ] - 64KB JVM字节码限制问题
- [ SPARK-22501 ] - 64KB JVM字节码限制问题
- [ SPARK-22508 ] - 64KB JVM字节码限制与GenerateUnsafeRowJoiner.create()
- [ SPARK-22549 ] - concat_ws有 64KB JVM字节码限制问题
- [ SPARK-22550 ] - elt的64KB JVM字节码限制问题
修复的Bug
- [ SPARK- 12717] - 使用多个线程时,pyspark广播失败
- [ SPARK-14387 ] - 启用Hive-1.x ORC与spark.sql.hive.convertMetastoreOrc的兼容性
- [ SPARK-15757 ] - 在配置单元文件“插入覆盖tb1 select * from sourcTb”之后,在orc文件上使用Spark sql“select”
- [ SPARK-16605 ] - Spark2.0不能从存储为配置单元或spark1.6支持的配置单元文件存储的表中选择数据
- [ SPARK-16628 ] - 如果Metastore模式与ORC文件中存储的模式不匹配,则OrcConversions不应将MetastoreRelation表示的ORC表转换为HadoopFsRelation
- [ SPARK-17902 ] - collect()忽略stringsAsFactors
- [ SPARK-17920 ] - HiveWriterContainer将空配置传递给serde.initialize,在使用avro.schema.url时在AvroSerde中导致NullPointerException
- [ SPARK-18355 ] - Spark SQL无法从添加了新列的ORC配置表格中读取数据
- [ SPARK-18608 ] - Spark ML算法,用于检查内部缓存双缓存数据的RDD缓存级别
- [ SPARK-19106 ] - 配置文档的样式已损坏
- [ SPARK-19580 ] - 在写入配置单元表时支持avro.schema.url
- [ SPARK-19644 ] - Spark Streaming中的内存泄漏(编码器/ Scala反射)
- [ SPARK-20098 ] - 在StructField的情况下,DataType的typeName方法返回'StructF'
- [ SPARK-20256 ] - 当用户不具有对Hive Metastore仓库的读/写权限时,启动Hive支持时无法启动SparkContext / SparkSession
- [ SPARK-20342 ] - DAGScheduler在更新任务的累加器之前发送SparkListenerTaskEnd
- [ SPARK-20466 ] - HadoopRDD#addLocalConfiguration引发NPE
- [ SPARK-20904 ] - 关机期间的任务失败导致抢先执行程序出现问题
- [ SPARK-21170 ] - Utils.tryWithSafeFinallyAndFailureCallbacks抛出IllegalArgumentException:不允许自我抑制
- [ SPARK-21219 ] - 由于与黑名单的竞争条件,任务重试发生在同一执行器上
- [ SPARK-21228 ] - InSet处理不正确的结构
- [ SPARK-21254 ] - 历史界面:初始页面显示花费 1分钟
- [ SPARK-21272 ] - SortMergeJoin LeftAnti不更新numOutputRows
- [ SPARK-21300 ] - 在转换为内部值之前,ExternalMapToCatalyst应该空映射密钥。
- [ SPARK-21306 ] - OneVsRest隐藏可能与分类器相关的列
- [ SPARK-21312 ] - UnsafeRow writeToStream具有不正确的offsetInByteArray计算非零偏移量
- [ SPARK-21330 ] - 分区错误不允许在分区列上读取极端值的JDBC表
- [ SPARK-21332 ] - 针对某些小数表达式推断的结果类型错误
- [ SPARK-21333 ] - joinWith文档和分析允许无效的连接类型
- [ SPARK-21339 ] - spark-shell --packages选项不会将jar添加到Windows上的classpath
- [ SPARK-21342 ] - 修复DownloadCallback与RetryingBlockFetcher配合使用
- [ SPARK-21343 ] - 优化文档spark.reducer.maxReqSizeShuffleToMem
- [ SPARK-21344 ] - BinaryType比较有签名的字节数组比较
- [ SPARK-21345 ] - SparkSessionBuilderSuite应该清理停止的会话
- [ SPARK-21369 ] - 不要在外部洗牌服务中使用Scala类
- [ SPARK-21374 ] - 如果文件系统缓存被禁用,则从S3读入全局路径到DF不起作用
- [ SPARK-21376 ] - 在群集模式下,不会在纱线客户端进程中更新令牌
- [ SPARK-21383 ] - YARN可以分配太多的执行者
- [ SPARK-21384 ] - 不带spark.yarn.jars的Spark 2.2 + YARN / spark.yarn.archive失败
- [ SPARK-21414 ] - 虽然窗口很小,但SlidingWindowFunctionFrame中的缓冲区可能很大
- [ SPARK-21418 ] - 使用sun.io.serialization.extendedDebugInfo = true的DataSourceScanExec中的NoSuchElementException:None.get
- [ SPARK-21441 ] - 在某些情况下,SortMergeJoinExec中的Codegen不正确导致失败
- [ SPARK-21445 ] - 由UTF8String.IntWrapper抛出的NotSerializableException异常
- [ SPARK-21446 ] - [SQL] JDBC Postgres fetchsize参数再次被忽略
- [ SPARK-21447 ] - 在某些情况下,Spark历史记录服务器无法呈现压缩的正在进行的历史记录文件。
- [ SPARK-21457 ] - ExternalCatalog.listPartitions应该正确处理带有点的分区值
- [ SPARK-21494 ] - Spark 2.2.0 AES加密不适用于外部shuffle
- [ SPARK-21503 ] - Spark UI显示死亡的Executor进程不正确的任务状态
- [ SPARK-21508 ] - 关于“Spark Streaming Custom Receivers”的文档在示例代码中有错误
- [ SPARK-21522 ] - 片状测试:LauncherServerSuite.testStreamFiltering
- [ SPARK-21523 ] - 修复强大的wolfe linesearch`init`参数失效的问题
- [ SPARK-21546 ] - dropDuplicates与水印产生由于绑定失败的RuntimeException
- [ SPARK-21549 ] - 如果OutputFormat不能写入hdfs,则Spark无法正确完成作业
- [ SPARK-21551 ] - getaddrinfo太慢时,pyspark的收集失败
- [ SPARK-21555 ] - GROUP BY不适用于带有NVL和嵌套对象的表达式
- [ SPARK-21563 ] - 序列化TaskDescriptions和添加jar时的竞态条件
- [ SPARK-21565 ] - 聚合查询在eventTime上失败并带有水印,但在由current_timestamp生成的时间戳列上使用水印
- [ SPARK-21580 ] - “按组排序”有一个错误
- [ SPARK-21588 ] - SQLContext.getConf(key,null)应该返回null,但它会抛出NPE
- [ SPARK-21593 ] - 修复损坏的配置页面
- [ SPARK-21595 ] - 在spark 2.2中引入spark.sql.windowExec.buffer.spill.threshold,打破了现有的工作流程
- [ SPARK-21596 ] - 审核调用HDFSMetadataLog.get的地方
- [ SPARK-21597 ] - 正在计算的平均事件时间可能是错误的
- [ SPARK-21617 ] - 在Hive 2.1中为AL表修改TABLE ... ADD COLUMNS
- [ SPARK-21621 ] - 在DiskBlockObjectWriter.commitAndGet调用后重置numRecordsWritten
- [ SPARK-21647 ] - 使用CROSS时SortMergeJoin失败
- [ SPARK-21648 ] - 当用户拼写选项`partitionColumn`时,混淆JDBC源中的断言失败
- [ SPARK-21656 ] - 当有足够的任务运行时,spark动态分配不应该使超时执行程序空闲
- [ SPARK-21681 ] - 当featureStd包含零时,MLOR无法正常工作
- [ SPARK-21696 ] - State Store无法处理损坏的快照
- [ SPARK-21714 ] - Yarn客户端模式下的SparkSubmit下载远程文件,然后重新上传它们
- [ SPARK-21721 ] - org.apache.spark.sql.hive.execution.InsertIntoHiveTable中的内存泄漏
- [ SPARK-21723 ] - 无法编写LibSVM - 未找到密钥:numFeatures
- [ SPARK-21739 ] - 时间戳分区将在v2.2.0中失败
- [ SPARK-21793 ] - 修正GaussianMixture和AFTSurvivalRegression中的validateAndTransformSchema
- [ SPARK-21798 ] - 没有配置来替换已弃用的SPARK_CLASSPATH配置来启动守护程序,如历史记录服务器
- [ SPARK-21805 ] - 在Windows上禁用R短片代码
- [ SPARK-21818 ] - 多元线上Summarizer.variance产生负面结果
- [ SPARK-21826 ] - 外部广播散列连接不应该抛出NPE
- [ SPARK-21834 ] - 动态分配的执行程序请求不正确
- [ SPARK-21890 ] - 获取Credentials不会传递信誉到addDelegationToken
- [ SPARK-21907 ] - UnsafeExternalSorter.spill()中的NullPointerException
- [ SPARK-21915 ] - Model 1和Model 2 ParamMaps丢失
- [ SPARK-21924 ] - 结构化流媒体文档中的错误
- [ SPARK-21928 ] - netty线程中serde过程中自定义Kryo注册器类的ClassNotFoundException
- [ SPARK-21946 ] - 片状测试:InMemoryCatalogedDDLSuite.alter表:重命名缓存表
- [ SPARK-21950 ] - pyspark.sql.tests.SQLTests2应该停止SparkContext。
- [ SPARK-21953 ] - 显示存在的内存和磁盘字节
- [ SPARK-21954 ] - JacksonUtils应该验证MapType的值类型而不是密钥类型
- [ SPARK-21980 ] - 分组函数中的参考应该用解析器进行索引
- [ SPARK-21985 ] - PySpark PairDeserializer针对双压缩RDD而打破
- [ SPARK-21991 ] - [LAUNCHER]如果机器负载非常高,LauncherServer acceptConnections线程有时会死掉
- [ SPARK-22052 ] - 在MetricsReporter.scala中分配的不正确的度量标准
- [ SPARK-22071 ] - 改进发布版本脚本来检查正在使用的正版 JAVA版本
- [ SPARK-22076 ] - Expand.projections不应该是Stream
- [ SPARK-22083 ] - 将多个块放入磁盘时,Spark应该在发生故障时释放所有的锁
- [ SPARK-22092 ] - 在OffHeapColumnVector.reserveInternal中重新分配破坏数组数据
- [ SPARK-22094 ] - 当查询停止时,processAllAvailable不应永久封锁
- [ SPARK-22107 ] - “as”应该是python快速入门文档中的“别名”
- [ SPARK-22109 ] - 按看起来像时间戳的列分区的阅读表具有不一致的模式推断
- [ SPARK-22129 ] - Spark释放脚本忽略GPG_KEY,并始终使用默认密钥进行签名
- [ SPARK-22135 ] - spark-dispatcher中的度量标准未正确注册
- [ SPARK-22141 ] - 在检查Cartesian产品之前传播空关系
- [ SPARK-22143 ] - OffHeapColumnVector可能会泄漏内存
- [ SPARK-22146 ] - 读取包含'%'的ORC文件时的FileNotFoundException
- [ SPARK-22158 ] - convertMetastore不应该忽略表格属性
- [ SPARK-22167 ] - Spark包装W / R发行版问题
- [ SPARK-22178 ] - 刷新表不刷新持久化视图的基础表
- [ SPARK-22206 ] - R中的gapply无法在空分组列上工作
- [ SPARK-22211 ] - FullOuterJoin的LimitPushDown优化会生成错误的结果
- [ SPARK-22218 ] - 火花洗牌服务无法更新应用程序重新尝试的秘密
- [ SPARK-22223 ] - ObjectHashAggregate引入了不必要的洗牌
- [ SPARK-22227 ] - 在shuffle中调用DiskBlockManager.getAllBlocks可能会失败
- [ SPARK-22243 ] - 流式作业无法从检查点重新启动
- [ SPARK-22249 ] - UnsupportedOperationException:在缓存数据框时为空empty.reduceLeft
- [ SPARK-22252 ] - FileFormatWriter应该尊重输入的查询模式
- [ SPARK-22271 ] - 描述数值变量的“mean”值的结果为“null”
- [ SPARK-22273 ] - 修复HashMapGenerators中的键/值模式字段名称。
- [ SPARK-22281 ] - 处理R方法破坏签名的变化
- [ SPARK-22284 ] - 类“org.apache.spark.sql.catalyst.expressions.GeneratedClass $ SpecificUnsafeProjection \”的代码增长超过64 KB
- [ SPARK-22287 ] - SPARK_DAEMON_MEMORY不被MesosClusterDispatcher
- [ SPARK-22291 ] - Cassandra的Postgresql UUID []:转换错误
- [ SPARK-22306 ] - INFER_AND_SAVE覆盖Parquet Metastore表中的重要元数据
- [ SPARK-22319 ] - SparkSubmit在调用loginUserFromKeytab之前调用getFileStatus
- [ SPARK-22327 ] - R CRAN检查在非最新的分支上失败
- [ SPARK-22328 ] - ClosureCleaner错过引用的超类字段,给它们为空值
- [ SPARK- 22332] - NaiveBayes单元测试偶尔失败
- [ SPARK-22333 ] - ColumnReference的优先级应高于timeFunctionCall(CURRENT_DATE,CURRENT_TIMESTAMP)
- [ SPARK-22344 ] - 防止使用/ tmp进行R CMD检查
- [ SPARK-22355 ] - Dataset.collect不是线程安全的
- [ SPARK-22356 ] - 数据源表应支持数据和分区模式之间的重叠列
- [ SPARK-22377 ] - Maven夜间快照jenkins工作由于lsof而在多名工作人员中被打破
- [ SPARK-22403 ] - 在YARN集群模式下,StructuredKafkaWordCount示例失败
- [ SPARK-22417 ] - 来自pandas.DataFrame的createDataFrame将datetime64值读取为long
- [ SPARK-22429 ] - 由于NullPointerException,流检查点代码在失败后不会重试
- [ SPARK-22442 ] - 使用非标准字符时,产品编码器生成的模式与大小写字段名称不匹配
- [ SPARK-22464 ] - <=>不受Hive Metastore分区谓词下推支持
- [ SPARK-22469 ] - 与字符串和数字相比的准确性问题
- [ SPARK- 22471] - SQLListener消耗大量内存,导致OutOfMemoryError
- [ SPARK-22472 ] - 数据集为空基元类型生成随机值
- [ SPARK-22479 ] - SaveIntoDataSourceCommand记录jdbc凭据
- [ SPARK-22488 ] - SparkSession内部表()API中的视图分辨率
- [ SPARK-22495 ] - 修复在Windows上设置SPARK_HOME变量
- [ SPARK-22511 ] - 更新maven中央回购地址
- [ SPARK-22535 ] - PythonRunner.MonitorThread应该在杀死Python工作者之前花一点时间完成任务
- [ SPARK-22538 ] - SQLTransformer.transform(inputDataFrame)uncaches inputDataFrame
- [ SPARK-22540 ] - HighlyCompressedMapStatus的avgSize不正确
- [ SPARK-22544 ] - FileStreamSource应该使用自己的hadoop conf来调用globPathIfNecessary
- [ SPARK-22548 ] - 将不正确的嵌套AND表达式推送到JDBC数据源
- [ SPARK-22591 ] - GenerateOrdering不应该改变ctx.INPUT_ROW
- (SPARK-22755) - 表达式(946-885)* 1.0 / 946 <0.1和(946-885)* 1.000 / 946 <0.1返回不同的结果
修改的文档
- [ SPARK-21069 ] - 将节目源添加到节目指南
- [ SPARK-21925 ] - 更新Spark 2.2中行为更改的文档中的触发器间隔文档
- [ SPARK-21976 ] - 修正关于平均绝对误差的错误文档
- [ SPARK-22490 ] - PySpark文档对SparkSession.builder有误导性的字符串
- [ SPARK-22627 ] - 修复configuration.html页面中标题的格式
改进
- [ SPARK-18136 ] - 使PySpark pip安装在Windows上工作
- [ SPARK-19878 ] - 在InsertIntoHiveTable.scala中初始化配置单元serde时添加配置单元配置
- [ SPARK-21243 ] - 限制一次洗牌提取中的地图数量
- [ SPARK-21267 ] - 对结构化流媒体节目指南的改进
- [ SPARK-21321 ] - 关机时Spark非常详细,让用户感到困惑
- [ SPARK-21434 ] - 添加PySpark pip文档
- [ SPARK-21477 ] - 标记LocalTableScanExec的输入数据瞬态
- [ SPARK-21538 ] - 数据集API中的属性解析不一致
- [ SPARK-21667 ] - ConsoleSink不应该使用checkpointLocation选项失败流式查询
- [ SPARK-21901 ] - 为StateOperatorProgress定义toString
- [ SPARK-22043 ] - Python配置文件show_profiles()和dump_profiles()应该抛出一个更好的消息
- [ SPARK-22072 ] - 允许相同的shell参数用于发布版本的所有不同步骤
- [ SPARK-22120 ] - TestHiveSparkSession.reset()应该清理Hive仓库目录
- [ SPARK-22138 ] - 允许在发布 - 构建期间重试
- [ SPARK-22217 ] - ParquetFileFormat来支持任意的OutputCommitters
- [ SPARK-22294 ] - 在启动检查点时重置spark.driver.bindAddress
- [ SPARK-22315 ] - 检查R软件包和JVM之间的版本匹配
新功能
- [ SPARK-19606 ] - 火花分派器支持约束
任务
- [ SPARK-21366 ] - 为窗口函数添加sql测试
- [ SPARK-21699 ] - 删除ExternalCatalog中未使用的getTableOption
测试
- [ SPARK-21128 ] - 由于预先退出“spark-warehouse”/“metastore_db”,多次运行R测试失败
- [ SPARK-21464 ] - 最小化由ProcessingTime类引起的弃用警告
- [ SPARK-21663 ] - MapOutputTrackerSuite案例测试(“远程获取最大RPC消息大小”)应该调用停止
- [ SPARK-21693 ] - AppVeyor测试达到了1.5小时的时间限制,有时在SparkR测试中
- [ SPARK-21936 ] - HiveExternalCatalog的向后兼容性测试框架
- [ SPARK-22140 ] - 为TPCDS查询添加测试套件
- [ SPARK-22161 ] - 添加Impala修改的TPC-DS查询
- [ SPARK-22595 ] - 片状测试:CastSuite.SPARK-22500:铸造结构不应该生成超过64KB的代码
参考:
1、发行说明:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12340470
2、Spark github:https://github.com/apache/spark
3、Spark官方网站:http://spark.apache.org/
阅读全文
0 0
- [Spark--版本更新]----2.2.1发行说明
- [Spark--版本更新]-----2.1.2发行说明
- spark-2.2.0发行说明
- Spark版本说明
- Microsoft .NET Framework发行版本说明
- F#版本更新说明
- 发行说明
- MySQL发行版本的命名机制及解释说明
- 4.ZooKeeper 3.0.0发行说明及版本升级
- Android Studio 3.0 正式版本 发行说明 (翻译)
- 5个Linux发行版本更新,Linux世界多精彩
- UNITY 5.0.1 发行说明 中文版
- UNITY 5.1.1发行说明 中文版
- UNITY 5.2.1 发行说明 中文版
- UNITY 5.3.1 发行说明 中文版
- Unity NGUI——3.8.1版本更新说明
- 更新 Debian 6.0: 6.0.1 发行
- Odoo9发行说明
- [BZOJ]4872 [SHOI2017] 分手是祝愿 期望DP
- I can 前端-09 数据验证与ASP.NET验证控件
- Qt 门户网站
- 笔记-cs224n(基于深度学习的自然语言处理)
- 剑指offer 编程题(15):链表合并
- [Spark--版本更新]----2.2.1发行说明
- 独家 | 盘点BAT顶级人才变动,窥探各家AI战略
- 5-2 派生类的构造函数
- 工信部印发通知:促进AI产业发展,部署三年行动计划(附全文)
- java泛型
- Hibernate回顾1---配置文件
- 阿里云---阿里云服务器ECS开放8080端口
- QTableWidget与QTableView的区别
- 微软游戏X文件的定义