[Spark--版本更新]-----2.1.2发行说明

来源:互联网 发布:国家工商总局网络培训 编辑:程序博客网 时间:2024/06/06 06:49

2017年10月09日,Spark官方进行了一次小版本升级。相关的发行说明如下:

一、子任务

  • SPARK-21083 ] - 分析空表后存储零大小和行数

二、修复的Bug

  • SPARK- 12717] - 使用多个线程时,pyspark广播失败
  • SPARK-16251 ] - LocalCheckpointSuite的丢失的检查点块失败,信息消息是片状的。
  • SPARK-16625 ] - Oracle JDBC表创建失败,ORA-00902:无效的数据类型
  • SPARK-17424 ] - ScalaReflect中的数据集作业失败
  • SPARK-17685 ] - WholeStageCodegenExec抛出IndexOutOfBoundsException
  • SPARK-18406 ] - 任务结束和完成迭代器读取锁定版本之间的比赛
  • SPARK-18535 ] - 从Spark日志和UI中修正敏感信息
  • SPARK-18971 ] - 网络问题可能导致洗牌客户端挂起
  • SPARK-19104 ] - 在Spark 2.1.0中使用Map和Case类的CompileException
  • SPARK-19318 ] - Docker测试用例故障:`SPARK-16625:要映射到Oracle的一般数据类型
  • SPARK-19688 ] - 将纱线凭证文件设置为不同的应用程序目录
  • SPARK-20042 ] - 执行器日志页面上的按钮不适用于spark.ui.reverseProxy = true
  • SPARK-20164 ] - AnalysisException不容忍null查询计划
  • SPARK-20191 ] - RackResolver在YARN测试中未正确覆盖
  • SPARK-20200 ] - 片状测试:org.apache.spark.rdd.LocalCheckpointSuite
  • SPARK-20211 ] - `1> 0.0001` throws小数刻度(0)不能大于精度(-2)异常
  • SPARK-20223 ] - 打印在tpcds q77.sql中
  • SPARK-20239 ] - 改进HistoryServer ACL机制
  • SPARK-20246 ] - 当通过聚合推送谓词时,应该检查确定性
  • SPARK-20250 ] - 当任务在泄漏数据时被杀死时错误的OOM错误
  • SPARK-20256 ] - 当用户没有读/写权限Hive转移仓库目录时,启用启用了Hive支持的SparkContext / SparkSession失败
  • SPARK-20260 ] - MLUtils parseLibSVMRecord对错误消息有不正确的字符串插补
  • SPARK-20262 ] - AssertNotNull应该抛出NullPointerException
  • SPARK-20264 ] - asm应该是sql / core中的非测试依赖关系
  • SPARK-20275 ] - HistoryServer页面显示不正确的进度应用程序的完整日期
  • SPARK-20393 ] - 加强Spark以防止XSS漏洞
  • SPARK-20496 ] - KafkaWriter使用未分析的逻辑计划
  • SPARK-20517 ] - 历史记录服务器UI中的下载链接不正确
  • SPARK-20540 ] - 动态分配不断请求并杀死执行者
  • SPARK-20546 ] - spark-class在posix模式下获取语法错误
  • SPARK-20555 ] - 通过JDBC处理Oracle的十进制类型不正确
  • SPARK-20558 ] - 在停止它时,在SparkContext中清除InheritableThreadLocal变量
  • SPARK-20613 ] - Windows批处理脚本中的双引号
  • SPARK-20615 ] - 当稀疏向量的大小大于零但没有定义元素时,SparseVector.argmax会抛出IndexOutOfBoundsException异常。
  • SPARK-20616 ] - RuleExecutor logDebug的批处理结果应该显示diff到批次的开始
  • SPARK-20631 ] - LogisticRegression._checkThresholdConsistency应该使用不是Params的值
  • SPARK-20665 ] - Spark-sql,“Bround”和“Round”函数返回NULL
  • SPARK-20685 ] - 对于具有重复参数的单个UDF的情况,BatchPythonEvaluation UDF评估程序失败
  • SPARK-20686 ] - PropagateEmptyRelation错误地处理聚合而不分组表达式
  • SPARK-20687 ] - 从Breeze稀疏矩阵转换时,mreeib.Matrices.fromBreeze可能会崩溃
  • SPARK-20688 ] - 正确检查标量子查询的分析
  • SPARK-20705 ] - 当您使用Firefox或Google Chrome时,排序功能无法在母版页中使用。
  • SPARK-20735 ] - 在TPCDSQueryBenchmark中启用交叉连接
  • SPARK-20756 ] - 纱线洗牌瓶具有无遮盖的番石榴,含有Scala类
  • SPARK-20769 ] - 使用Jupyter笔记本的文档不正确
  • SPARK-20773 ] - ParquetWriteSupport.writeFields是字段数的二次方
  • SPARK-20781 ] - Dockerfile在docker.properties.template中的位置是错误的
  • SPARK-20798 ] - GenerateUnsafeProjection应该在调用getter之前检查值是否为null
  • SPARK-20843 ] - 不能优雅地杀死超过10秒钟的死亡司机
  • SPARK-20848 ] - 在本地模式下阅读镶木地板文件时悬挂线程
  • SPARK-20862 ] - LogisticRegressionModel引发TypeError
  • SPARK-20874 ] - “示例”项目不依赖于结构化流式卡夫卡源
  • SPARK-20914 ] - Javadoc包含无效的代码
  • SPARK-20920 ] - 在编写具有多个分区的蜂巢表时,ForkJoinPool池泄漏
  • SPARK-20922 ] - Spark LauncherConnection中的不安全的反序列化
  • SPARK-20940 ] - AccumulatorV2不应该抛出IllegalAccessError
  • SPARK-20974 ] - 如果SQL核心有代码更改,我们应该运行REPL测试
  • SPARK-21064 ] - 修复NettyBlockTransferServiceSuite中的默认值错误
  • SPARK-21138 ] - 当“spark.yarn.stagingDir”和“spark.hadoop.fs.defaultFS”的集群不同时,无法删除分段目录
  • SPARK-21159 ] - SparkLauncher提交的群集模式,驱动程序抛出连接拒绝异常
  • SPARK-21167 ] - 读取FileSink的输出时路径未正确解码
  • SPARK-21176 ] - 如果主节点具有多个CPU,则主UI将与spark.ui.reverseProxy = true挂起
  • SPARK-21181 ] - 抑制netty报告的内存泄漏错误
  • SPARK-21203 ] - Array的Array插入结果错误
  • SPARK-21306 ] - OneVsRest隐藏可能与底层分类器相关的列
  • SPARK-21312 ] - UnsafeRow writeToStream对于非零偏移量具有不正确的偏移量InByteArray计算
  • SPARK-21330 ] - 坏分区不允许在分区列上读取极端值的JDBC表
  • SPARK-21332 ] - 对某些十进制表达式推断的结果类型不正确
  • SPARK-21344 ] - BinaryType比较确实有符号字节数组比较
  • SPARK-21345 ] - SparkSessionBuilderSuite应该清理停止的会话
  • SPARK-21441 ] - 在某些情况下,SortMergeJoinExec中的代码不正确导致失败
  • SPARK-21446 ] - [SQL] JDBC Postgres fetchsize参数再次忽略
  • SPARK-21522 ] - Flaky测试:LauncherServerSuite.testStreamFiltering
  • SPARK-21555 ] - GROUP BY不适用于具有NVL和嵌套对象的表达式
  • SPARK-21588 ] - SQLContext.getConf(key,null)应该返回null,但是它会抛出NPE
  • SPARK-21721 ] - org.apache.spark.sql.hive.execution.InsertIntoHiveTable中的内存泄漏
  • SPARK-21793 ] - 正确的validateAndTransformSchema在高斯混合和AFTSurvival回归
  • SPARK-21834 ] - 在动态分配的情况下执行者请求不正确
  • SPARK-21928 ] - ClassNotFoundException在线程中的自定义Kryo注册器类
  • SPARK-21950 ] - pyspark.sql.tests.SQLTests2应该停止SparkContext。
  • SPARK-21953 ] - 如果存在,则显示溢出的内存和磁盘字节
  • SPARK-21985 ] - 对于双压缩RDD,PySpark PairDeserializer已损坏
  • SPARK-22041 ] - Docker测试用例故障:`SPARK-16625:要映射到Oracle的一般数据类型
  • SPARK-22052 ] - MetricsReporter.scala中分配的指标不正确
  • SPARK-22071 ] - 改进版本构建脚本,以检查正在使用的JAVA版本是否用于构建
  • SPARK-22083 ] - 当将多个块拖放到磁盘时,Spark应该在发生故障时释放所有锁
  • SPARK-22129 ] - Spark版本脚本忽略GPG_KEY,并始终使用默认密钥进行签名
  • SPARK-22167 ] - 火花包装w / R发行版问题

三、修改的文档

  • SPARK-20296 ] - 不同集合的UnsupportedOperationChecker文本与文档不同
  • SPARK-20455 ] - 在运行基于Docker的集成测试套件的文档中缺少测试目标
  • SPARK-21123 ] - 文件流源的选项位于错误的表中
  • SPARK-21976 ] - 修正关于平均绝对误差的错误文档

四、改进

  • SPARK-20084 ] - 从历史文件中删除internal.metrics.updatedBlockStatuses累加器
  • SPARK-20218 ] - REST API中的'/ applications / [app-id] / stages',添加说明。
  • SPARK-20304 ] - AssertNotNull不应包含字符串表示中的路径
  • SPARK-20404 ] - 从1.6迁移到2.x时,使用累加器名称进行回归
  • SPARK-20409 ] - 如果GROUP BY中的聚合函数出现故障,
  • SPARK-20627 ] - 删除pip本地版本字符串(PEP440)
  • SPARK-20759 ] - _config.yml中的SCALA_VERSION,LICENSE和Dockerfile应与pom.xml一致
  • SPARK-20796 ] - spark-standalone.md中的start-master.sh的位置是错误的
  • SPARK-20868 ] - UnsafeShuffleWriter应验证FileChannel.transferTo之后的位置
  • SPARK-21072 ] - `TreeNode.mapChildren`只应用于子节点。
  • SPARK-22043 ] - Python配置文件,show_profiles()和dump_profiles(),应该抛出一个更好的消息的错误
  • SPARK-22072 ] - 允许将相同的shell参数用于release-build中的所有不同步骤
  • SPARK-22138 ] - 允许在版本制作期间重试

五、新功能

  • SPARK-15799 ] - 在CRAN上发布SparkR


参考:

1、发行说明:https://issues.apache.org/jira/secure/ReleaseNote.jspa?projectId=12315420&version=12340295

2、Spark github:https://github.com/apache/spark

3、Spark官方网站:http://spark.apache.org/


原创粉丝点击