数据接入处理(数据源文件乱码)
来源:互联网 发布:数据定义语言 编辑:程序博客网 时间:2024/06/15 08:44
场景:
本公司服务器每天会接入4类文件,通过shell脚本的wget命令去提交url获取数据源文件,从晚上的七点开始,大约到第二天的4点左右结束。数据文件生成之后,后续有流程在六点多进行调度,处理数据文件,进行处理入库等操作。
问题:
1、数据文件都是有时间标识的,如果有一个时间标识文件没有获取到,后续处理流程会报错
2、数据文件格式固定,有时可能获取乱码文件,会导致后续处理流程报错
处理:
1、数据延迟问题
由于网络问题,导致数据延迟。经研究,发现数据文件的时间段是一条连续的时间序列,
可以才有分段处理的思维,把一整天串行的数据获取,变成两三段并行的数据获取,这样可以让文件在
每天后续流程调度之前解决问题。
2、数据乱码问题
获取的数据文件是CSV格式文件,研究后发现,每个CSV文件的开头四个字节都是一样的。
可以通过jar包读取每个CSV文件的前四个字节进行乱码判断,通过则获取,不通过则把文件置空,保证后续流程可以
运行下去。
以上,两个问题都解决了。
ps:csv乱码校验包如下
http://download.csdn.net/download/tcl415829566/9968078
csv乱校验包下载
阅读全文
1 0
- 数据接入处理(数据源文件乱码)
- Spark SQL 数据源 API:Spark平台的统一数据接入
- 一步步学习SPD2010--第六章节--处理数据源(2)--处理XML数据
- 数据源配置解决数据库存读取中文乱码问题
- SQL SERVER 2008用Select操作处理数据(三)——From子句数据源
- Jsp文件乱码处理方法
- MyEclipse打开文件乱码处理
- 处理乱码文件,邮件,应用程序。。。。。。
- python写入文件乱码处理
- 文件下载文件名乱码处理
- 表单提交数据乱码(datatables提交中文查询处理)
- python字符集的转换(mysql数据乱码的处理)
- 一步步学习SPD2010--第六章节--处理数据源(3)--连接一个RSS Feed XML文件
- 上传下载文件(并处理了下载文件名乱码问题)
- 大数据接入、离线处理、实时处理、数据分析、数据挖掘、报表展示、数据应用
- Servlet上传文件乱码处理(ServletFileUpload乱码处理)
- 关于MT4接入外部数据问题,破解Hst文件
- 文件打开,处理数据
- JAVA 常用转义字符
- Django中视图总结[urls匹配,HttpRequest对象,HttpResponse,render,redirect对象,对象序列化接受及案例]
- ES 中分片和副本的一些处理
- 1.前传
- linux vim编辑器命令总结(转载)
- 数据接入处理(数据源文件乱码)
- UE4 中的 C++ 编程介绍
- 集合List、Set、Map的遍历方式
- iOS蓝牙连接多台设备
- laravel中使用阿里云视频点播遇到的坑解决思路
- AIDL学习并应用
- safari调试iPhone app web页面
- 7. Reverse Integer
- nginx: [emerg] bind() to [::]:80 failed (98: Address already in use)解决方案