tableau应用实战笔记

来源:互联网 发布:java rmi exp 编辑:程序博客网 时间:2024/06/06 21:26

tableau应用实战之人人都是数据分析师

tableau入门

敏捷商务智能

与传统BI相比灵活、实时

数据可视化明星tableau

定位:数据可视化敏捷开发和实现的商务智能展现工具
核心技术:

独创的VizQl数据库用户体验良好且易用的表现形式

tableau主要特性

1.极速高效
2.简单易用
3.多种数据源
4.高效接口集成

数据提取API:c,c++,java,python,.tde文件javascript API:镶嵌与数据分析工具R/python的集成接口

tableau产品体系

tableau desktop
tableau server
tableau online
tableau mobile
tableau public
tableau reader

tableau的工作区

工作表work sheet/视图visualization

数据窗口

数据源窗口
维度窗口
度量窗口
集窗口
参数窗口

分析窗口

汇总

参考线、参考区间
参考线、参考区间
平均线
四分位点中值
盒须图
合计

模型

95%CI的平均值
趋势线
预测

自定义

参考线、参考区间
分布区间
盒须图等

页面卡

基于维度度量拆分视图

筛选器卡

标记卡

属性

颜色图例

行功能区\列功能区

工作表视图区

智能显示

标签栏

状态栏

仪表盘dashboard

1.仪表板窗口
2.仪表板对象窗口
3.平铺和浮动
4.布局窗口
树形结构显示
5.仪表板设置窗口
6.仪表板视图区

故事story

仪表板和工作表窗口
说明
导航器设置
故事设置窗口
导航框
新空白点按钮
复制按钮
说明框
故事视图区

工作簿workbook

菜单栏和工具栏

tableau的文件管理

tableau工作簿(.twb)

1.使用场景
tableau缺省保存工作的方式
2.内容
可视化内容,无源数据

tableau打包工作簿(.twbx)

1.使用场景
与无法访问数据源的用户分享工作
2.内容
创建工作簿的所有信息和资源

tableau数据源(.tds)

1.使用场景
频繁使用的数据源
2.内容
包含新建数据源所需的信息:

数据源类型数据源连接信息数据源上的字段属性数据源上创建的组、集和计算字段

tableau数据源(.tdsx)

1.使用场景
频繁使用的数据源
2.内容
包含数据源(.tds)文件中的所有信息
以及任何本地文件数据源(Excel、Access、文本和数据提取)

tableau书签(.tbm)

1.使用场景
工作簿间分享工作表时使用
2.内容
如果原始工作簿就是一个打包工作簿
创建的书签就包含可视化的内容和书签

tableau数据提取(.tde)

1.使用场景
提高数据库性能
2.内容
部门或整个数据源的一个本地副本

典型应用场景

数据准备

统计周期
类别变量

认识tableau数据

数据角色

维度和度量

1.维度
定性,不计算,蓝色。
2.度量
定量,默认聚合运算,绿色。

离散和连续

1.离散
蓝色,在行列功能区时在视图中显示为标题
2.连续
绿色,在行列功能区时在视图中显示为轴

字段类型

维度

1.文本
2.日期
3.日期和时间
4.地理值:北京、四川
5.布尔值

度量

1.数字
2.地理编码:经纬度

其他

在标志前加个等号,表示该字段不是来自原始数据,为tableau中自定义。

每次新建数据源都会出现:
1.记录数:自动给每行观测值赋值为1,用于计数。
2.度量名称
3.度量值

字段类型转换

创建视图

行列功能区

度量字段进行聚合计算,缺省为总计。
1.总计
2.平均值,对行数的平均
3.中位数
4.最大值
5.计数
6.等

标记卡

1.标记类型
缺省为条形图
2.大小
3.标签
快速表计算
4.详细信息
依据拖放的字段对视图进行分解细化
5.工具提示
鼠标悬停出现的提示信息
6.特殊按钮在选择了对应的标记类型时显示

筛选器

1.显示快速筛选器
应用于多个表
筛选器的表现形式
2.通配符
3.条件
4.顶部
某类别前几的

页面

播放器

智能显示

度量名称和度量值

创建仪表板

保存工作成果

数据连接与管理

tableau的数据架构

传统BI

完整企业级的元数据体系,不进行元数据管理

tableau

数据连接层(Connection)

1.数据连接信息

数据库数据表数据视图数据列表连接SQL脚本

2.数据连接层不保存任何源数据

数据模型层(Data Model)

管理字段的数据类型、角色、默认值、别名等
数据立方体的概念

数据可视化层(VizQL)

核心技术

数据连接

连接文件数据源

1.连接到电子表格
保存数据连接

数据-<数据源名称>-添加到已保存的数据源

2.连接到Access文件
新自定义SQL
使用SQL语句
3.连接到Tableau工作簿
其他文件

连接服务器数据源

1.连接到Oracle数据库
2.连接到ODBC
3.连接到Cloudera Hadoop

复制粘贴输入数据

筛选数据

数据源筛选器

数据整合

实现多表联结

1.内联接
只列出与联接条件匹配的数据行
2.左联接
不仅包含查询结果集合中符合联接条件的行,而且还包括左表的所有数据行
3.右联接
不仅包含查询结果集合中符合联接条件的行,而且还包括右表的所有数据行
4.完全外部联接
包含查询结果集合中的包含左、右表的所有数据行

多数据源的数据融合

1.多维数据源(多维数据集)不能用作从数据源,只能用作主数据源
2.修改数据源关联关系

数据-编辑关系-自定义激活/未激活点击切换

行列转换

数据透视表

数据加载

创建数据提取

1.对数据源进行“提取数据”操作

数据-<数据源名称>-提取数据数据-<数据源名称>-编辑数据源-提取-编辑筛选器、聚合、行数隐藏所有未使用的字段

2.首次新建数据源时选择“提取”方式

实时-提取##将数据以“.tde”格式保存##在使用数据提取和使用整个数据源之间进行切换数据-<数据源名称>-使用数据提取

3.使用数据提取的好处是通过创建一个包含样本数据的数据提取,减少数据量
4.移除数据提取

数据-<数据源名称>-数据提取-移除##仅从工作簿删除数据提取##删除数据提取文件

刷新数据提取

数据-<数据源名称>-刷新

1.完全数据提取
将所有数据替换为基础数据源中的数据
2.增量数据提取
仅添加自上次提取数据以来新增的行
3.改变数据源的提取方式
数据-<数据源名称>-提取数据

向数据提取添加行

从文件添加数据

1.文件类型相同
从文件数据源向数据提取文件添加新数据
2.数据提取文件(.tde)
数据-<数据源名称>-数据提取-从文件添加数据

从数据源添加数据

数据-<数据源名称>-数据提取-从数据源添加数据

优化数据提取

数据-<数据源名称>-数据提取-优化

1.计算字段的预处理
点击优化后,完成预处理并储存在数据提取文件中,后续不必再次计算
部分函数无法实现

外部函数R等表计算函数NOW()和TODAY()等

2.加速视图
缓存筛选器

数据维护

查看数据

数据-<数据源名称>-查看数据

刷新数据

数据-<数据源名称>-刷新

替换数据

数据-替换数据源

删除数据

数据-<数据源名称>-关闭

初级可视化分析

条形图

堆积条形图

直方图

1.创建数据桶

右键创建-数据桶-编辑级数据桶大小\组距加载-值范围

2.记录数
3.每个标签代表的是该级所分配的数字范围的下限(含下限)
容易误导,编辑别名,20改为20~30。
4.自动创建

选择度量-智能显示-选择直方图

5.高级应用
重新分级
创建自定义字段

if-then-elseif and-then-end

饼图

注意事项

1.分块越少越好,不多于4块
2.确保各分块占比总计为100%
3.避免各分块中使用过多标签

步骤

1.分组
2.筛选统计周期
3.将分组拖至颜色标记卡
4.设置标记类型为饼图
5.将度量值拖至角度标价卡
6.将分组及度量值拖至标签标记卡,并对度量值设置快速表计算-总额百分比

折线图

基本折线图

1.颜色标记卡的效果标记
2.自定义效果标记
3.双轴
4.将折线图与形状图同步轴

双组合图/双轴折线图

1.做好趋势图后
2.直接将第二个度量拖至视图右侧,比如数量用条形图,比率用折线图
3.参考线
4.添加标签
5.适用,所有包含度量,比率,参考线的图形

基本表/文本表/交叉表

1.将要交叉的维度分别拖至行列功能区
2.将度量拖至文本标记卡
3.添加列总计,菜单栏-分析-合计-列总计

压力图/热图/热力图

压力图

1.数据准备

连接数据源创建计算字段:售电量当期值,利润总额当期值。售电量当期值:case[指标名称]-when "销售量"then[当期值]-else 0-end利润总额当期值:case[指标名称]-when "利润总额"then[当期值]-else 0-end

2.将维度 省市 拖至行
3.售电量当期值拖至 大小 标记卡
4.利润总额当期值拖至 颜色 标记卡

突显表

1.基本表的变形
2.维度 省市 拖至行功能区
3.利润总额当期值拖至 文本、颜色标记卡,标记类型为方形
4.高级应用
根据需要自定义颜色,例如利润为负显示为红色
将利润总额当期值 拖至 文本、颜色
单击 颜色图例 右上角下拉按钮-编辑颜色-自定义发散-两端为红黑-渐变颜色设定为2-高级-设定中心为0

均可帮助发现异常数据,并对异常数据进行下钻,从而查看引起异常的原因

树地图/树形图/嵌套矩形

也是一种突出显示异常数据点或重要数据的方法
1.将 省市 拖放至标签
2.售电量当期值拖放至 大小 ,图形大小代表售电量当期值大小
3.利润总额当期值拖放至 颜色,颜色深浅表示大小

气泡图

具有视觉吸引力,直观展示数据
拖至大小,标记类型改为圆
文字云
将标记由 圆 改为 文本
直观性可能更差一点

圆视图

气泡图的变形
通过给气泡图增加维度
依据度量的大小对其有序排列
发现每一类别中的异常点

标靶图/子弹图

通过添加参考线和参考区间,直观的了解两度量间关系
制作好条形图
将计划值放到标记卡上
右键横轴-添加参考线
添加参考区间

甘特图/横道图

作用

1.以图示的方式通过活动列表和时间刻度形象地表示出任何特定项目的活动顺序或项目的持续时间
2.可用来比较与日期相关的不同项目的持续时间长短
3.也常用于显示不同任务之间的依赖关系,普遍用于项目管理中

特征

横轴表示时间
纵轴表示项目
线条表示整个期间上该活动或项目的持续时间

步骤

1.计算字段 延期天数

datediff('day',[计划交货日期],[实际交货日期])

2.维度放置行功能区
3.计划交货日期拖至列功能区
4.将 延期天数 拖至 大小 标记卡
5.将 延期天数 拖至 颜色标记卡上,编辑2阶颜色

地图分析

地图简介

地图类型

符号地图
填充地图
多维度地图
混合地图等

分配地理角色

1.国家/地区

名称FIPS 102字符(ISO 3166-1)3字符(ISO 3166-1)

2.省/市/自治区

名称拼音

3.城市
人口超过一万
4.地理角色自动与经纬度关联

创建符号地图

创建符号地图

以地图为背景在对应地理位置上展示信息
方式一

双击省市字段菜单栏-地图-背景地图-tableau

方式二

按住Ctrl,选中维度窗口的 省市,度量窗口的 当期值,单击智能显示-符号地图

还可以将圆形改为饼图,把类别放在颜色标记卡上
查看地市级别信息:

双击维度窗口的 地市拖动 地市 到详细信息标记卡

编辑地理位置

1.编辑地理库中不包含的地理位置信息
2.单击右下角的未知信息 3未知 -弹出 【省市】的特殊值-编辑位置
3.菜单栏-地图-编辑位置
4.对于无法识别的数据
可在匹配位置中选择一个匹配项
下拉列表-输入经纬度
5.导入自定义地理编码
6.先定义好上级地理角色,再设置下级地理角色

设置地图格式

地图-地图选项
1.后台
样式,不同的地图显示风格
2.地图层
基本
土地覆盖
国家名称等
3.数据层
美国人口普查等
4.说明
重复背景:可多次显示相同区域
设置为默认值:
将设置好的地图格式设置为默认值
在本tableau中创建的地图均采用本次设置

创建填充地图

1.生成符号地图后
拖放度量 当期值 到 颜色 标记卡
2.按住Ctrl,选中 省市、档期值
智能显示-填充地图
3.生成符号地图后
标记卡的图形选项中选择 已填充地图或智能显示
4.对于不能识别的位置,
参考多边形地图
5.只能识别到省市自治区,不能打城市一级

创建多维度地图

对不同维度的信息用多个地图展示
分统计周期、分类别展示

创建混合地图

将符号地图与填充地图重叠

设置地理信息

选择地图源

联机地图

Tableau联机地图源:OpenStreetMap
可将某地图源指定为Tableau默认地图源:

选择地图源后 地图-背景地图-设置为默认值

地图存储和脱机工作

地图缓存在IE的临时文件中
脱机使用的是缓存文件

WSM服务器

1.添加URL
地图源随工作簿一起保存
2.导出WMS服务器
另存为(.tms)文件,选择服务器-导出
3.导入地图源
地图-背景地图-WMS服务器(W)…-导入-打开

自定义地理编码

准备自定义地理编码文件

1.(.csv)
2.扩展现有角色,与标准数据结构保持一致。
3.添加新角色
导入文件包含现有分层结构中的每级地理角色
国家-省市自治区-城市-变电站-经度-纬度
4.添加分层结构
创建多个导入文件

每个文件表示新分层结构中的一个级别确保每个文件都包含当前级别和其上面的所有级别的列将每个导入文件保存到一个文件夹中,并使用文件所表示的级别来命名每个文件

自定义地理分层文件
5.说明:经纬度必须是实数不能是整数——确保包含至少一位小数

导入自定义地理编码文件

地图-地理编码-导入自定义地理编码-输入路径-导入

管理自定义地理编码文件

1.刷新
地图-地理编码-刷新打包的地理编码(s)
2.打包
打包工作簿时,自定义地理编码数据会一起打包
3.移除
地图-地理编码-移除自定义地理编码

高级功能

多边形地图

概念

对填充地图的一种补充

操作

1.准备地理信息数据文件

区域边界个点的经纬度绘制顺序

2.创建视图

双击经纬度,调出地图页面双击经纬度,调出地图页面:修改图形展示为 多边形拖放 顺序 到 路径 标记卡如果要关联数据,则应在开始建立关联,设置好地图后,拖放 度量当期值 到 颜色 标记卡 调整工具提示等设置

背景图像地图

导入背景图像

1.查看要添加的图片的详细信息
宽度、高度
2.在源数据中新增两个字段-X、Y,并新增一行数据
X为图片宽度
Y为图片高度
3.将数据导入tableau-采用 实时 的联接方式
4.地图-背景图像-选择数据源-添加图像-浏览/键入URL-将X、Y字段映射到X、Y轴-设定最大值-建立坐标系-确定
5.将X、Y字段拖放到行列功能区
6.编辑
地图-背景图像-编辑
7.说明
支持多个背景图像,图像集
针对一组工作表使用一个图像集:

背景图像对话框复选框启用/禁用

准备展示数据

1.定位信息点坐标
选中某点-右键-添加注释-方式为 点 -确定
可拖动
2.根据坐标信息,在源数据中为每个供电所添加坐标信息X、Y

构建视图

1.准备好数据后,刷新数据
2.拖动 供电所 字段 到 详细信息 标记卡
按照常规穿件符号地图的方式创建地图

地理位置距离计算

1.修改源数据,使位置两两对应
例:三个变电站

复制变电站数据使每个变电站存在两行数据添加3列数据-表1变电站、表1Lon、表1Lat。要对应的变电站名称、经纬度

2.导入源数据,创建计算字段-距离计算
公式

3959*ACOS(SIN(RADIANS([Latitude]))*SIN(RADIANS([表1Lat])+cos(RADIANS([Latitude]))*cos(RADIANS([表1Lat]))*cos(RADIANS([表1Lon])-RADIANS([Latitude])))

3.将 距离计算 拖到 颜色/大小 标记卡
右键标记卡中 距离计算 字段-选择维度
4.调整 颜色、大小 标记卡和标签设置

高级数据操作

分层结构

概述

默认内置的分层结构
多维数据源本身包含维度的分层结构
关系数据源需自定义分层结构
导航分层结构

上钻(drill up/roll up)下钻(drill down)

创建分层结构

方式1:通过拖动方式创建名为 组织 的分层结构

将 部 放在 组 上-弹出窗口-键入名称 组织-确定字段的放置顺序会影响上下级关系当待分层字段出现在文件夹内部时,不能通过拖放创建分层结构

方式2:通过右键菜单创建名为 组织 的分层结构

选中右键-创建分层结构

使用分层结构

1.使用行列功能区字段进行钻取
加减号
2.使用视图中的标题进行钻取
右键单击视图标题
上钻下钻
鼠标在视图标题上悬停

概述

1.组是维度成员或者度量的离散值的组合
2.分组可实现对维度成员的重新组合,以及度量值的按范围分类
3.组字段的图标为 别针
4.组不能用于计算,组不能出现在公式中
5.例如:13班与13班(15批新人)这两类其实都是13班,因此需要合并

创建组

1.直接在视图中选择维度成员创建组

Ctrl单击选中维度成员在选中区域悬停选择 别针 创建新组/或者右键单击组取消:选择成员-菜单栏-取消分组

2.通过右键菜单创建分组
关键字查找

包含开头为精确匹配

使用组

1.展示所有成员
默认
2.仅展示定义好的组成员

单击列功能区 班(组) 的下拉菜单选择 包括其他 选项——这样即把未定义分组的成员默认分组为 其他也可在维度窗口右键编辑组,勾选 包括其他

概述

集是根据某些条件定义数据子集的自定义字段,可以理解为维度的部分成员
集能够用于计算,参与计算字段的编辑

集的分类

1.常量集
静态集
不随数据动态变化
单个或多个维度
视图中直接选择对象创建集
2.计算集
动态集
跟随数据动态变化
单个维度
数据窗口右键单击维度创建集

集的作用

1.选取维度部分成员,主要用于筛选
2.主要有两个用处
集内外成员的对比分析:

集的一对特性内/外(in/out)可直接对集内/集外成员进行聚合对比分析

集内成员的对比分析:

当重点为对集内成员记性分析时,选择 在集内显示成员 此时集的作用就是筛选器

创建集

创建常量集

1.创建基本视图后
2.选取要建集的成员,悬停右键创建集
3.例如:接听质量 由高到低的前10名员工,排序,选择创建

创建计算集

1.梳理计算原理
2.右键 维度窗口 中要建集的字段-创建集-按需求设置
3.例如:出勤天数由高到低的前1000名员工
出勤次数就是总行数,右键工号创建集,选择按字段-顶部-1000-工号-计数

创建合并集

1.集的合并要遵循相同维度
比如例子中的两个集都是以员工为维度进行筛选
2.集的合并三种方式
并集
交集
差集
例如:出勤天数1000名且平均接听质量前10的员工
数据窗口选择两个集-右键菜单创建合并集-选择交集

使用集

1.集内外成员对比分析
2.各组内 勤劳员工 占比对比分析集内成员对比分析

参数

概述

1.参数是一种可用于交互的动态值
2.数据窗口底部显示参数,图标为 #
3.包括

集计算字段参考线及参考区间自定义SQL

4.属于全局对象
可在任何表中单独使用
也可应用于多个工作表视图
筛选器

创建参数

直接在数据窗口创建

右键单击作为参数基础的字段 服务评价满意率 -创建-参数

设置:

参数名称
注释
属性

1.数据类型
2.当前值:默认值
3.显示格式
4.允许的值:
全部:表示参数可以调整为任意值
列表:表示参数设置为列表内的值

手动输入从字段添加从剪贴板粘贴

5.范围

最小值最大值步长从参数设置从字段设置

6.一般
作为参数基础的字段是维度时,允许的值表现为列表
作为参数基础的字段是度量时,允许的值表现为范围

在使用计算集、计算字段、参考线及其他功能时创建

1.右键单击 出勤天数降序排名前1000名员工 计算集
2.在编辑集窗口修改集名为 出勤天数降序排名前N名员工
3.在顶部输入数值位置下拉菜单中-选择 创建参数
4.在编辑参数窗口中,允许的值选择为 范围 -设置为1~3000-步长为1-确定

使用参数

1.数据窗口右击参数 出勤天数降序TopN员工阈值-选择 显示参数控件
2.将集 出勤天数降序排名前N名员工 拖入筛选器
3.调整参数值,可动态观察不同排名的员工数量在南北中心的分布

计算字段

概述

使用函数和运算符构造公式来定义的字段

创建计算字段

直接在数据窗口创建

1.创建简单计算字段

输入公式-应用使用//注释

2.运用逻辑函数与参数创建

if-then-else-end

在使用计算集、计算字段、参考线及其他时创建

可在行列功能区直接输入计算公式

使用计算字段

例如
1.将 服务评价满意率 及 人工服务接听量 分别拖至行列功能区,标记类型为圆
2.由于默认是聚合状态,而此处要分析的是每人每天的业务情况,即每条业务的分布,所以取消菜单栏 分析 中的 聚合度量 选项,进行解聚
3.将 服务评价满意率分类 拖到颜色,并显示参数控件 服务评价满意率阈值
4.可以调整阈值来观察每个员工每天的 人工服务接听量 与 服务评价满意率 之间的关系和变化

特殊函数:表计算

概述

  • 表计算是针对数据库中多行数据进行计算的方式
  • 三角标记
  • 表计算函数针对度量使用 分区 和 寻址 进行计算——依赖表结构本身
  • 表计算函数需要明确计算对象和计算类型
  • 必须使用聚合数据

快速表计算

1.总计
2.差异
默认表计算的逻辑
沿着 表(横穿) 相对于 上一个 顺次计算差值

寻址和分区

1.寻址
对计算字段定义的维度字段,确定用于表计算的对象

按照不同对象上移、下移相对于表结构相对于特定字段

2.分区

对计算对象进行分组的维度字段,确定计算时的分组方式排序是确定各个分区的计算对象的计算顺序

计算依据设置

表(横穿)及表(向下)

1.横穿
对每个分区沿水平方向进行特定计算

将寻址设置为计算整个表并沿水平方向移动计算每个分区

2.向下
对每个分区沿垂直方向进行特定计算

表(横穿,然后向下)及表(向下,然后横穿)

1.横穿,然后向下
将寻址设置为先横向后竖向计算整个表

横向竖向均为寻址字段无分区字段详见书

2.向下,然后横穿

区(向下)

对表中区向下进行计算
以差异计算为例

其它计算方式

1.单元格
所有的字段都是分区字段
计算总额百分比
2.单个字段
特定字段——绝对控制计算方式
对单个字段寻址意味着如果重新排列,计算不再与表结构匹配

自定义表计算

创建计算字段时使用表计算函数进行编辑
例如——创建参数 N日移动平均
1.数据类型为 整数
2.允许的值为 范围
最大值31,最小值1,步长为1
3.创建计算字段 移动平均

WINDOW_AVG(SUM([人工服务接听量]),-[N日移动平均],0)

4.单击 默认表计算 设置
5.拖放 日期 和 人工服务接听量,生成双线图

特殊函数:详细级别表达式

include

include [员工] :sum[人工服务接听量]

将视图中没有的维度纳入视图
用于创建明细度高于可视化展示内容的计算字段

exclude

exclude [中心] sum[人工服务接听量]

把视图中已有的 中心 维度排除
用于创建明晰化低于可视化展示内容的计算字段

fixed

不受可视化明细度限制
用于创建指定明细程度的计算字段

区别

1.表计算
表计算完全由查询结果生成
以生成度量为结果
2.详细级别表达式
通常是作为针对基础数据源查询的一部分生成
能创建度量、聚合度量或维度

特殊函数:百分比

1.计算百分比
默认分母的数据范围是整个表
自定义设置:

分析-百分比

2.百分比与聚合
容易忽略,百分比是基于度量的聚合值计算的。

变换

变换日期型字段

右键单击维度窗口中 日期 字段-变化-创建自定义日期

变换字符型字段

拆分:
右键字段-变化-拆分
自定义拆分

参考线及参考区间

参考线(Reference Line)
参考区间(Reference Band)
分布区间(Distribution Band)
盒须图(Box Plot)

未完待续