kettle读文件

来源:互联网 发布:卓易云软件下载 编辑:程序博客网 时间:2024/06/01 23:28
  1. 读一个简单的txt文件
    输入——》文本文件输入
    新建文本文件test.txt内容为:
    “lastname”,”firstname”,”country”,”birthyear”
    “Larsson”,”Stieg”,”Swedish”,1954
    “King”,”Stephen”,”American”,1947
    “Hiaasen”,”Carl “,”American”,1953
    “Handler”,”Chelsea “,”American”,1975
    “Ingraham”,”Laura “,”American”,1964

添加文本文件,点击浏览,然后增加
这里写图片描述

设置分隔符,此处分隔符为,还有文本限定符,此处为“”,头部行数为1,必须设置才能够识别头部。分隔符还可以设置为16进制编码形式,如想使用~作为分隔符,十六进制编码形式为[7E][7E]即可。
格式可以设置为DOS、UNIX或者不确定时直接设置为MIXED。
编码方式使用系统默认的编码,明确自己的编码或者所使用的编码不一致时,需要手动设置编码方式。
这里写图片描述
切换到字段tab,点击获取字段,获取头部对应的字段,可以根据需要自行设定类型,格式等
这里写图片描述
点击预览,可以看到文本文件对应的记录
这里写图片描述

如果需要更改字段的名字或者顺序等,可以增加字段选择
这里写图片描述
这里写图片描述

  1. 同时添加多个文件
    可以一个一个添加,也可以使用正则表达式
    如italy_museum_.*.txt
    表示所有以italy_museum_开头,以.txt结尾的文件

    1. 读取unstructured 文件
      处理比较复杂,后续补充
    2. 读取的文件按行分隔属性
      Mastering Joomla! 1.5 Extension and Framework Development Published: November 2007
      Our price: £30.99

CakePHP 1.3 Application Development Cookbook: RAW
Expected: December 2010
Our price: £24.99

Firebug 1.5: Editing, Debugging, and Monitoring Web Pages Published: April 2010
Our price: £21.99

jQuery Reference Guide
……

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

5.文件里面的一个字段占了多行

0 0