使用sqlload批量导入数据

来源:互联网 发布:网络机柜布线画图软件 编辑:程序博客网 时间:2024/05/21 22:37

简述

使用pl分析统计apache每天产生的访问日志,每小时可分析大小几个G的文件,并生成过滤后的符合入库格式的有价值明细记录文件和统计记录文件。

入库工作采用sqlload导入,每分钟可导入几十万条数据,sqlload号称可以每小时导入100G的数据文件。

从开始分析到完成入库我用了25分钟,1.1G的明细文件,370万的数据。主要分析时间用了差不多20多分钟,入库不超过3分钟。

用法

    SQLLDR keyword=value [,keyword=value,...]

    有效的关键字:

    userid -- ORACLE 用户名/口令

    control -- 控制文件名

    log -- 日志文件名

    bad -- 错误文件名

    data -- 数据文件名

    discard -- 废弃文件名

    discardmax -- 允许废弃的文件的数目         (全部默认)

    skip -- 要跳过的逻辑记录的数目 (默认 0)

    load -- 要加载的逻辑记录的数目 (全部默认)

    errors -- 允许的错误的数目         (默认 50) 如果不指定,达到错误上限自动停止,肯定是没有完全导入

    rows -- 常规路径绑定数组中或直接路径保存数据间的行数(默认: 常规路径 64, 所有直接路径)

    bindsize -- 常规路径绑定数组的大小 (以字节计) (默认 256000)

    silent -- 运行过程中隐藏消息 (标题,反馈,错误,废弃,分区)

    direct -- 使用直接路径                     (默认 FALSE)

    parfile -- 参数文件: 包含参数说明的文件的名称

    parallel -- 执行并行加载                    (默认 FALSE)

    file -- 要从以下对象中分配区的文件

    skip_unusable_indexes -- 不允许/允许使用无用的索引或索引分区 (默认 FALSE)

    skip_index_maintenance -- 没有维护索引, 将受到影响的索引标记为无用 (默认 FALSE)

    commit_discontinued -- 提交加载中断时已加载的行 (默认 FALSE)

    readsize -- 读取缓冲区的大小               (默认 1048576)

    external_table -- 使用外部表进行加载; NOT_USED, GENERATE_ONLY, EXECUTE (默认 NO

    T_USED)

    columnarrayrows -- 直接路径列数组的行数 (默认 5000)

    streamsize -- 直接路径流缓冲区的大小 (以字节计) (默认 256000)

    multithreading -- 在直接路径中使用多线程

    resumable -- 启用或禁用当前的可恢复会话 (默认 FALSE)

    resumable_name -- 有助于标识可恢复语句的文本字符串

    resumable_timeout -- RESUMABLE 的等待时间 (以秒计) (默认 7200)

    date_cache -- 日期转换高速缓存的大小 (以条目计) (默认 1000)

    PLEASE NOTE: 命令行参数可以由位置或关键字指定。前者的例子是 'sqlload    scott/tiger foo'; 后一种情况的一个示例是 'sqlldr control=foo userid=scott/tiger'.位置指定参数的时间必须早于, 但不可迟于由关键字指定的参数。例如,    允许 'sqlldr scott/tiger control=foo logfile=log', 但是不允许 'sqlldr scott/tiger control=foo log', 即使参数 'log' 的位置正确。

 

实践

LOAD DATA

INFILE 'result/stat-20100821-detail.txt'

replace

into table LOGDETAILS_20100821 --   insert  append replace

FIELDS TERMINATED BY ' |+-s| ' --字段分割符号

TRAILING NULLCOLS --允许匹配不到的字段

(

  ID            RECNUM  , --RECNUM属性来实现id的自增 如果入库方式是追加一定要使用序列COUNTERINFO_SEQ.nextval

  IP            ,

  HITTIME       "to_date(:HITTIME, 'YYYY-MM-DD HH24:Mi:SS')",

  URL           ,

  STATUS        ,

  SIZES         ,

  URL_SOURCE    char(1024),

  TOOLS         char(1024),

  SERVERINFO    ,

  SYSTEM_ID     ,

  SOURCETYPE_ID ,

  SERVERSOURCE 

)

整理问题

value used for ROWS parameter changed from 64 to 58

Record 49305: Rejected - Error on table LOGDETAILS_20100822, column SERVERSOURCE.

ORA-12899: value too large for column "LOGANALYSER"."LOGDETAILS_20100822"."SERVERSOURCE"(actual: 71, maximum: 50)

Record 49561: Rejected - Error on table LOGDETAILS_20100822, column SERVERSOURCE.--字段长度

ORA-12899: value too large for column "LOGANALYSER"."LOGDETAILS_20100822"."SERVERSOURCE" (actual: 71, maximum: 50)

ORA-01653: unable to extend table LOGANALYSER.LOGDETAILS_20100822 by 128 in tablespaceTBS_LOGANALYSER --表空间配额不足

SQL*Loader-605: Non-data dependent ORACLE error occurred -- load discontinued.

特殊说明

使用SQLLOAD导入数据时四种装入方式导入数据

     APPEND //原先的表有数据就加在后面

     INSERT // 装载空表,如果原先的表有数据SQLLOADER会停止默认值

     REPLACE // 原先的表有数据 原先的数据会全部删除

     TRUNCATE // 指定的内容和REPLACE的相同会用TRUNCATE语句删除

使用SQLLOAD导入数据时 不导入从文件头开始的指定行数据:sqlldr

         region CONSTANT '31',

         time_loaded "to_char(SYSDATE, 'HH24:MI')",

         data1 POSITION(1:5) ":data1/100",

         data2 POSITION(6:15) "upper(:data2)",

         data3 POSITION(16:22)"to_date(:data3, 'YYMMDD')" --还可以DATE DD/MM/YYYY

       )

使用SQL*LOAD一次导入多个文件到同一个表:

     LOAD DATA

     INFILE file1.dat

     INFILE file2.dat

     INFILE file3.dat

     APPEND

     INTO TABLE emp

      (  empno POSITION(1:4) INTEGER EXTERNAL, --字段长度确定时,使用POSITION定位

         ename POSITION(6:15) CHAR,

         deptno POSITION(17:18) CHAR,

         mgr POSITION(20:23) INTEGER EXTERNAL

      )

使用when条件指定SQL*LOAD将一个文件导入不同的表: INTO TABLE tablename WHEN filed = '条件'

使用SQL*LOAD有选择性的导入数据到一个或多个表中:

     :

     SQL*LOAD不允许在when语句中使用OR...只能使用AND

     (01) 表示数据文件中的第一个字符

     (30:37) 表示数据文件中第30-37个字符

     LOAD DATA

     INFILE 'mydata.dat' BADFILE 'mydata.bad' DISCARDFILE 'mydata.dis'

     APPEND

     INTO TABLE my_selective_table

     WHEN (01) <> 'H' and (01) <> 'T'

     (

          region CONSTANT '31',

          service_key POSITION(01:11) INTEGER EXTERNAL,

          call_b_no POSITION(12:29) CHAR

     )

     INTO TABLE my_selective_table

     WHEN (30:37) = '20031217'

     (

          region CONSTANT '31',

          service_key POSITION(01:11) INTEGER EXTERNAL,

          call_b_no POSITION(12:29) CHAR

     )

使用SQL*LOAD导入数据时,通过在字段上使用关键字过滤数据文件中的指定列: field2 FILLER

使用SQL*LOAD导入数据时,通过使用关键字表示把多行记录合并成一行:CONCATENATE 3

使用SQL*LOAD导入LOB等大对象:

     CREATE TABLE image_table (

          image_id NUMBER(5),

          file_name VARCHAR2(30),

          image_data BLOB);

     LOAD DATA

     INFILE *

     INTO TABLE image_table

     REPLACE

     FIELDS TERMINATED BY ','

     (

          image_id INTEGER(5),

          file_name CHAR(30),

          image_data LOBFILE (file_name) TERMINATED BY EOF

     )

     BEGINDATA

     001,image1.gif

     002,image2.jpg

     003,image3.jpg





0 0