数据接入处理(数据源文件乱码)

来源:互联网 发布:数据定义语言 编辑:程序博客网 时间:2024/06/15 08:44

场景:

本公司服务器每天会接入4类文件,通过shell脚本的wget命令去提交url获取数据源文件,从晚上的七点开始,大约到第二天的4点左右结束。数据文件生成之后,后续有流程在六点多进行调度,处理数据文件,进行处理入库等操作。

问题:

1、数据文件都是有时间标识的,如果有一个时间标识文件没有获取到,后续处理流程会报错

2、数据文件格式固定,有时可能获取乱码文件,会导致后续处理流程报错

处理:

1、数据延迟问题

由于网络问题,导致数据延迟。经研究,发现数据文件的时间段是一条连续的时间序列,

可以才有分段处理的思维,把一整天串行的数据获取,变成两三段并行的数据获取,这样可以让文件在

每天后续流程调度之前解决问题。

2、数据乱码问题

获取的数据文件是CSV格式文件,研究后发现,每个CSV文件的开头四个字节都是一样的。

可以通过jar包读取每个CSV文件的前四个字节进行乱码判断,通过则获取,不通过则把文件置空,保证后续流程可以

运行下去。


以上,两个问题都解决了。


ps:csv乱码校验包如下

http://download.csdn.net/download/tcl415829566/9968078

csv乱校验包下载

阅读全文
1 0
原创粉丝点击