数据库相关 ETL 实习笔记
来源:互联网 发布:淘宝美工工资高吗 编辑:程序博客网 时间:2024/05/22 11:44
1 Oracle操作:
1) 插入日期:insert into tablename values(to_date(‘2011-1-1’,‘yyyy-mm-dd’));
2) 将一个表的数据导入另一个表:(要求字段个数一致,最好类型也一致) :insert into tablename1 select * from tablename2;
3) decode(列,条件1,结果1,
条件2,结果2,……)别名 //相当于case
4) 计算月份:count(distinct(to_char(sal_date,‘yyyy-mm-dd’)))
5) EXISTS:是否存在一行符合某条件的数,返回值为真或者假
Substring(str,n1,n2):n1表示开始位置,n2表示长度。截取字串
6) EXP表示指数,#表示临时表。
7) Alter table [ modify | add | drop ]
8) 所有用户:public 允许转授权利:with grant option
2 索引
1) 单表索引:create index 索引名 on 表 (字段) //Oracle 是从后往前执行
2) 多列索引:(顺序很重要,筛选量大的放在后面)
3) 注意条件: 数据量大;对有意义的字段建;索引层次不要超过4次(列);不要在逻辑性字段建立索引(如:男、女)
3 ERWin
实线:有约束,有依赖 。 强制约束
虚线:无约束。非强制约束
4 Informatica
1) D: 设计Mapping (Mapping 命名 m_表名)
W:数据流向(调度平台)
M:查看工作流状态
R:设置运行环境(管理等,建文件等)
2)文件到库:.xls -> .csv(逗号分隔符) source->import
(1) .xls -> .csv; (2) 将.csv文件传到服务器上;(3) Import File(目标)从本机 表结构(并在实际的数据库中建立相应的数据表);(4) 在目标设置类型为Oracle(数据库)
注:在W中,要对工作的流向进行设置。 Normal,Cognos(用户名)
3) 控件 :
(1) sequence:123 处置;步径(每次增加多少) (必须有主键) cycle:循环 reset:到达最大值,变为当前值
(2) Rank :取n条数据:从前至后(top),从后至前(button)
(3) 分组:按照表数据分组,未必是相同的一组,可以使某个范围的一组 -E router
(4) 排序:A->Z Sorter
(5) 增量抽取:(放大镜 Look Up):只针对数据库中的新增数据。 针对有主键的,若无主键,则不能用一般用法做。
mapping: update as / else insert
I I
target source
5 DataStage
1) designer server job: table define:导目标表(表结构) import
2) 数据库:Properties
3) 控件 :Filter:过滤器 External Filter:外部过滤器
Aggregator:聚合器
Funnel:漏斗
join :连接
Lookup :增量抽取
Merge :合并
Sort :排序
Switch :选择开关
Transformer :转换
6 Cognos
1)分别安装Transformer 和 Manager(安装路径分开),并将开始菜单名称更改一下,以示区别
配置:看服务器如何配置,将两处换将配置配好后点文件另存为UTF-8.
2)Framework Manager:
(1)create ->why/123 ->中文->data Sources
(2)new -> why_test ->连接字符串 ->测试
(3)导入表:选中需要导入的表->next->import->finish
(4)先建 Relationship(建立关系连接),然后建立Qurry Subject。选择需要查询的字段(也
可以进行编辑)
(5)建立包,并发布
3)Cube:建包并发布->使用Transformer进行转换(选择需要的字段)->生成cube ->网页上转换 -> report studio 中打开。
注:维度的概念:从哪个方向去看,比如时间维度,销售维度等。
度量的概念:报表中的职能是度量(数据类型的)
7 Unix
1) 并行:crontab
du:显示文件大小 du -k:字节的方式 du -m:
df -k:挂设备大小
ps :进程
|:管道
grep:查找
find :查找文件
chgrp:修改组
sed :替换
exec:执行
远程登录:rlogin、telnet(必须配置 /etc/目标文件); rcp:远程拷贝; ftp:远程登录某主机取文件; mget:批量
>:带创建文件功能
>>:只能在文件已存在的情况下使用
cat 文件名|grep 'error' :
shell: ·expr 2+3· :算术运算 运行:ksh xxx.sh 后台 :& $#:接受参数的个数
执行数据库相关的shell:
环境配置:.Profile :export PATH = "$ORACLE_HOME/bin:$PATH"
测试:sqlplus system/admin
- 数据库相关 ETL 实习笔记
- 数据库:ETL学习笔记之一:ETL是什么?
- C语言相关 实习笔记
- ETL相关
- ETL相关介绍
- ETL相关说明
- 实习相关
- 实习相关
- 实习笔记3 apache dbutils 连接数据库
- 数据库相关笔记
- 笔记_数据库相关
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么? 收藏
- ETL学习笔记之一:ETL是什么?
- ETL学习笔记之一:ETL是什么?
- ETL 学习笔记下篇
- ETL 笔记之317
- 观察者模式(Observer Pattern)
- UbuntuX下的终端上网
- 鹰和蜗牛
- java获取电脑主板、CPU 编号以及MAC地址
- [一分钟先生]涂勇:通过跳槽走上管理岗位不可取
- 数据库相关 ETL 实习笔记
- 流年,经不起怀念
- [一分钟先生]张彤:技术转型做管理,只靠技术提升还远远不够
- 用文件有效生成数组
- [一分钟先生]倪邵峰:管理者应具备的能力与素质
- [一分钟先生]梁鹏远:从技术走向管理的准备工作
- [一分钟先生]杜恩宽:从技术岗位到管理岗位的六种路径
- 优酷,土豆,迅雷看看等视频网站去广告其实有很多方法
- 项目总结 - 2012/09/26