[Spark--版本更新]-----2.1.2发行说明

来源：互联网发布：国家工商总局网络培训编辑：程序博客网时间：2024/06/06 06:49

2017年10月09日，Spark官方进行了一次小版本升级。相关的发行说明如下：

一、子任务

[ SPARK-21083 ] - 分析空表后存储零大小和行数

二、修复的Bug

[ SPARK- 12717] - 使用多个线程时，pyspark广播失败
[ SPARK-16251 ] - LocalCheckpointSuite的丢失的检查点块失败，信息消息是片状的。
[ SPARK-16625 ] - Oracle JDBC表创建失败，ORA-00902：无效的数据类型
[ SPARK-17424 ] - ScalaReflect中的数据集作业失败
[ SPARK-17685 ] - WholeStageCodegenExec抛出IndexOutOfBoundsException
[ SPARK-18406 ] - 任务结束和完成迭代器读取锁定版本之间的比赛
[ SPARK-18535 ] - 从Spark日志和UI中修正敏感信息
[ SPARK-18971 ] - 网络问题可能导致洗牌客户端挂起
[ SPARK-19104 ] - 在Spark 2.1.0中使用Map和Case类的CompileException
[ SPARK-19318 ] - Docker测试用例故障：`SPARK-16625：要映射到Oracle的一般数据类型
[ SPARK-19688 ] - 将纱线凭证文件设置为不同的应用程序目录
[ SPARK-20042 ] - 执行器日志页面上的按钮不适用于spark.ui.reverseProxy = true
[ SPARK-20164 ] - AnalysisException不容忍null查询计划
[ SPARK-20191 ] - RackResolver在YARN测试中未正确覆盖
[ SPARK-20200 ] - 片状测试：org.apache.spark.rdd.LocalCheckpointSuite
[ SPARK-20211 ] - `1> 0.0001` throws小数刻度（0）不能大于精度（-2）异常
[ SPARK-20223 ] - 打印在tpcds q77.sql中
[ SPARK-20239 ] - 改进HistoryServer ACL机制
[ SPARK-20246 ] - 当通过聚合推送谓词时，应该检查确定性
[ SPARK-20250 ] - 当任务在泄漏数据时被杀死时错误的OOM错误
[ SPARK-20256 ] - 当用户没有读/写权限Hive转移仓库目录时，启用启用了Hive支持的SparkContext / SparkSession失败
[ SPARK-20260 ] - MLUtils parseLibSVMRecord对错误消息有不正确的字符串插补
[ SPARK-20262 ] - AssertNotNull应该抛出NullPointerException
[ SPARK-20264 ] - asm应该是sql / core中的非测试依赖关系
[ SPARK-20275 ] - HistoryServer页面显示不正确的进度应用程序的完整日期
[ SPARK-20393 ] - 加强Spark以防止XSS漏洞
[ SPARK-20496 ] - KafkaWriter使用未分析的逻辑计划
[ SPARK-20517 ] - 历史记录服务器UI中的下载链接不正确
[ SPARK-20540 ] - 动态分配不断请求并杀死执行者
[ SPARK-20546 ] - spark-class在posix模式下获取语法错误
[ SPARK-20555 ] - 通过JDBC处理Oracle的十进制类型不正确
[ SPARK-20558 ] - 在停止它时，在SparkContext中清除InheritableThreadLocal变量
[ SPARK-20613 ] - Windows批处理脚本中的双引号
[ SPARK-20615 ] - 当稀疏向量的大小大于零但没有定义元素时，SparseVector.argmax会抛出IndexOutOfBoundsException异常。
[ SPARK-20616 ] - RuleExecutor logDebug的批处理结果应该显示diff到批次的开始
[ SPARK-20631 ] - LogisticRegression._checkThresholdConsistency应该使用不是Params的值
[ SPARK-20665 ] - Spark-sql，“Bround”和“Round”函数返回NULL
[ SPARK-20685 ] - 对于具有重复参数的单个UDF的情况，BatchPythonEvaluation UDF评估程序失败
[ SPARK-20686 ] - PropagateEmptyRelation错误地处理聚合而不分组表达式
[ SPARK-20687 ] - 从Breeze稀疏矩阵转换时，mreeib.Matrices.fromBreeze可能会崩溃
[ SPARK-20688 ] - 正确检查标量子查询的分析
[ SPARK-20705 ] - 当您使用Firefox或Google Chrome时，排序功能无法在母版页中使用。
[ SPARK-20735 ] - 在TPCDSQueryBenchmark中启用交叉连接
[ SPARK-20756 ] - 纱线洗牌瓶具有无遮盖的番石榴，含有Scala类
[ SPARK-20769 ] - 使用Jupyter笔记本的文档不正确
[ SPARK-20773 ] - ParquetWriteSupport.writeFields是字段数的二次方
[ SPARK-20781 ] - Dockerfile在docker.properties.template中的位置是错误的
[ SPARK-20798 ] - GenerateUnsafeProjection应该在调用getter之前检查值是否为null
[ SPARK-20843 ] - 不能优雅地杀死超过10秒钟的死亡司机
[ SPARK-20848 ] - 在本地模式下阅读镶木地板文件时悬挂线程
[ SPARK-20862 ] - LogisticRegressionModel引发TypeError
[ SPARK-20874 ] - “示例”项目不依赖于结构化流式卡夫卡源
[ SPARK-20914 ] - Javadoc包含无效的代码
[ SPARK-20920 ] - 在编写具有多个分区的蜂巢表时，ForkJoinPool池泄漏
[ SPARK-20922 ] - Spark LauncherConnection中的不安全的反序列化
[ SPARK-20940 ] - AccumulatorV2不应该抛出IllegalAccessError
[ SPARK-20974 ] - 如果SQL核心有代码更改，我们应该运行REPL测试
[ SPARK-21064 ] - 修复NettyBlockTransferServiceSuite中的默认值错误
[ SPARK-21138 ] - 当“spark.yarn.stagingDir”和“spark.hadoop.fs.defaultFS”的集群不同时，无法删除分段目录
[ SPARK-21159 ] - SparkLauncher提交的群集模式，驱动程序抛出连接拒绝异常
[ SPARK-21167 ] - 读取FileSink的输出时路径未正确解码
[ SPARK-21176 ] - 如果主节点具有多个CPU，则主UI将与spark.ui.reverseProxy = true挂起
[ SPARK-21181 ] - 抑制netty报告的内存泄漏错误
[ SPARK-21203 ] - Array的Array插入结果错误
[ SPARK-21306 ] - OneVsRest隐藏可能与底层分类器相关的列
[ SPARK-21312 ] - UnsafeRow writeToStream对于非零偏移量具有不正确的偏移量InByteArray计算
[ SPARK-21330 ] - 坏分区不允许在分区列上读取极端值的JDBC表
[ SPARK-21332 ] - 对某些十进制表达式推断的结果类型不正确
[ SPARK-21344 ] - BinaryType比较确实有符号字节数组比较
[ SPARK-21345 ] - SparkSessionBuilderSuite应该清理停止的会话
[ SPARK-21441 ] - 在某些情况下，SortMergeJoinExec中的代码不正确导致失败
[ SPARK-21446 ] - [SQL] JDBC Postgres fetchsize参数再次忽略
[ SPARK-21522 ] - Flaky测试：LauncherServerSuite.testStreamFiltering
[ SPARK-21555 ] - GROUP BY不适用于具有NVL和嵌套对象的表达式
[ SPARK-21588 ] - SQLContext.getConf（key，null）应该返回null，但是它会抛出NPE
[ SPARK-21721 ] - org.apache.spark.sql.hive.execution.InsertIntoHiveTable中的内存泄漏
[ SPARK-21793 ] - 正确的validateAndTransformSchema在高斯混合和AFTSurvival回归
[ SPARK-21834 ] - 在动态分配的情况下执行者请求不正确
[ SPARK-21928 ] - ClassNotFoundException在线程中的自定义Kryo注册器类
[ SPARK-21950 ] - pyspark.sql.tests.SQLTests2应该停止SparkContext。
[ SPARK-21953 ] - 如果存在，则显示溢出的内存和磁盘字节
[ SPARK-21985 ] - 对于双压缩RDD，PySpark PairDeserializer已损坏
[ SPARK-22041 ] - Docker测试用例故障：`SPARK-16625：要映射到Oracle的一般数据类型
[ SPARK-22052 ] - MetricsReporter.scala中分配的指标不正确
[ SPARK-22071 ] - 改进版本构建脚本，以检查正在使用的JAVA版本是否用于构建
[ SPARK-22083 ] - 当将多个块拖放到磁盘时，Spark应该在发生故障时释放所有锁
[ SPARK-22129 ] - Spark版本脚本忽略GPG_KEY，并始终使用默认密钥进行签名
[ SPARK-22167 ] - 火花包装w / R发行版问题

三、修改的文档

[ SPARK-20296 ] - 不同集合的UnsupportedOperationChecker文本与文档不同
[ SPARK-20455 ] - 在运行基于Docker的集成测试套件的文档中缺少测试目标
[ SPARK-21123 ] - 文件流源的选项位于错误的表中
[ SPARK-21976 ] - 修正关于平均绝对误差的错误文档

四、改进

[ SPARK-20084 ] - 从历史文件中删除internal.metrics.updatedBlockStatuses累加器
[ SPARK-20218 ] - REST API中的'/ applications / [app-id] / stages'，添加说明。
[ SPARK-20304 ] - AssertNotNull不应包含字符串表示中的路径
[ SPARK-20404 ] - 从1.6迁移到2.x时，使用累加器名称进行回归
[ SPARK-20409 ] - 如果GROUP BY中的聚合函数出现故障，
[ SPARK-20627 ] - 删除pip本地版本字符串（PEP440）
[ SPARK-20759 ] - _config.yml中的SCALA_VERSION，LICENSE和Dockerfile应与pom.xml一致
[ SPARK-20796 ] - spark-standalone.md中的start-master.sh的位置是错误的
[ SPARK-20868 ] - UnsafeShuffleWriter应验证FileChannel.transferTo之后的位置
[ SPARK-21072 ] - `TreeNode.mapChildren`只应用于子节点。
[ SPARK-22043 ] - Python配置文件，show_profiles（）和dump_profiles（），应该抛出一个更好的消息的错误
[ SPARK-22072 ] - 允许将相同的shell参数用于release-build中的所有不同步骤
[ SPARK-22138 ] - 允许在版本制作期间重试

五、新功能

[ SPARK-15799 ] - 在CRAN上发布SparkR

参考：

1、发行说明：https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12340295

2、Spark github:https://github.com/apache/spark

3、Spark官方网站：http://spark.apache.org/

阅读全文

0 0