《Using OpenRefine》翻译~1

来源:互联网 发布:unity3d toon shader 编辑:程序博客网 时间:2024/06/06 02:24

总览

无论是现今的大数据还是企业内部的小数据,都存在一些普遍的问题,如数据格式不对需要转换,一个单元格内包含多个含义的内容,包含重复项等等,虽然我们也可以使用excel解决,但是excel天生有诸多限制,比如其为直接对数据进行操作,容易导致误操作;数据量大会处理缓慢;透视表功能太过简单;无法进行高级的数据分类分析。而OpenRefine很好的解决了以上问题,最重要的一点是它还是免费的!!

附:

英文原著下载链接:http://pan.baidu.com/s/1mi3FkO4

OpenRefine2.7安装包:http://pan.baidu.com/s/1jIzF2HC

英文原著随书源码示例文件:http://pan.baidu.com/s/1gfcfb7l

注意:直接访问官方网站是无法访问的,因为被墙了,所以如果想访问,就只能某宝上买个翻墙软件,现在淘宝也在封关键词,我试了下,搜vp能够找到大笑


《使用OpenRefine》

目录

第一章初识OpenRefine 5

介绍OpenRefine 5

要点1:安装OpenRefine 6

WINDOWS 7

MAC 7

LINUX 7

要点2:创建一个新项目 7

OpenRefine支持的文件类型 9

要点3:探索数据 10

要点4:操纵列 11

列隐藏和展开 11

移动列 12

重命名或删除列 13

要点5:使用项目操作历史 14

要点6:导出项目 16

要点7:获取更多的运行内存 18

Windows 18

Mac 18

Linux 18

小结 19

第二章:分析和修改数据 19

1-数据排序 20

对行进行重新排序 22

2-数据透视 22

文本透视 23

数字透视 25

定制透视 28

对标星和标旗行进行透视 31

3-重复检测 31

4-应用一个文本过滤 34

5-使用简单单元格转换 35

6-删除匹配行 38

小结 41

第三章:高级数据操作 41

1:对多值单元格的处理 41

2:行模式和记录模式的转换 44

3:相似单元格聚类 47

4:单元格值转换 50

5:增加源列 53

6:拆分列 54

7:行列转换 56

小结 58

第四章:数据集关联 59

•点1-使用Freebase解析值 59

•点2-安装扩展包 63

•点3-增加解析服务 65

•点4-与关联数据进行解析 67

•点5-抽取单名称项 70

小结 73

第五章:正则表达式和GREL 74

对文本应用正则表达式 74

字符集 75

数量符 77

锚符 79

可选符 79

组符 80

小结 80

GREL 81

数据转换 82

创建自定义透视功能 83

GREL排障 85


第一章初识OpenRefine

本章中,我们会说明OpenRefine是用来干什么的?为什么我们需要用它?并且怎么用它。简单介绍后,我们会通过七个基本小点让你初尝OpenRefine的魅力。

◎安装OpenRefine

◎创建一个项目

◎探索你的数据

◎操纵列

◎使用项目历史

◎输出项目

◎充分利用内存

虽然每个点都相对独立,我们还是建议新读者按照我们的顺序学习,最起码开始的几点需要如此,因为这几点中我们提供了软件操作的重要信息。有经验的高级读者可以按照自己喜欢自由选择。

 

 

介绍OpenRefine

 

我们需要承认这样一个事实:你的数据是不完美的,所有的数据都是不完美的。无论你多么小心地建立数据,错误总会偷偷溜进你的数据中。如果是多人共同创建或者已经几经转手,那么错误更加无法避免。无论你的数据本来就是数字化的,还是通过传统刊物数字化转换而来的,无论它们存储在excel表中还是数据库中,数据中的错误总是无法避免。

确认错误是保证数据质量的第一步,主要包括数据画像和数据清洗。

数据画像 Olson定义为:使用统计方法发现数据的结构、内容、质量。换句话说,这是一种对你的数据进行画像,预发现包含的错误信息的方法。

数据清洗 用半自动化的方式改正画像过程中发现的错误,比如:删除缺失和重复值、行过滤透视、值聚类及转换、单元格拆分等等。

鉴于后续章节都需要保证数据已经画像清洗过,数据转换工具(IDTS)能够快速廉价的在一个操作界面内处理大量的数据问题,即使处理人员缺乏专业技术背景,所以IDTS也就成为了首选。

OpenRefine就是这样一个IDTS工具,其能够对数据进行可视化操作处理。它很像传统的excel软件,但其工作方式更像数据库,因其并不是处理单独的单元格,而是处理列和字段。这意味着OpenRefine对于增加新行内容表现不佳,但对于探索、清洗、整合数据却功能强大。

第一章的要点介绍将帮助您熟悉OpenRefine的主要功能,从导入导出数据到数据探索,从历史操作使用到内存管理。

 

 

要点1:安装OpenRefine

本点中,您将学习如何下载最新版本的OpenRefine和如何在你喜欢的操作系统中运行软件。

让我们开始吧:请从http://OpenRefine.org下载软件,OpenRefine原来叫做Freebase Gridworks。后来几年使用名称为Google refine。2012年10月后,这个软件被社区接手,使其真正成为开源软件。

OpenRefine2.6是使用新名称后的第一个版本,如果你对开发版本感兴趣,可以访问:https://github.com/OpenRefine。

OpenRefine基于JAVA环境,也就是说和操作系统无关,你只需要保证你的电脑上安装了最新版的JAVA环境(可以到http://java.com/download下载),然后根据你的操作系统按对应步骤操作:

WINDOWS

1、下载zip压缩包

2、解压到指定文件夹

3、双击OpenRefine.exe运行

 

MAC

1、下载DMG压缩镜像文件

2、打开压缩镜像文件,把OpenRefine图标拖到程序文件夹

3、双击OpenRefine图标打开

 

LINUX

1、下载gzipped压缩包

2、解压到根目录

3、在命令行窗口输入./refine打开

 

我们需要了解,默认情况下,OpenRefine会分配1G内存给JAVA,处理小数据集是足够用了,但是处理大数据集就会捉襟见肘。在要点7:充分利用内存 中,我们会讨论如何让OpenRefine处理更大的数据,不同的操作系统有不同的方法。

要点2:创建一个新项目

在本点中,你会学到如何导入数据到OpenRefine,可以是新建一个项目并导入数据集,也可以是打开一个项目或者是导入别人创建的项目。

如果你按照 要点1 已经成功安装了OpenRefine并打开,你会发现OpenRefine是在你的默认浏览器中打开的,但是你需要知道:程序是在本地运行的,除了在本书附录中要使用额外功能(如正则表达式、openrefine内建函数语言GREL)外,你并不需要上因特网。在使用因特网时,请确保敏感数据不会被在线存储或分享。OpenRefine使用本地电脑的3333端口,这也意味着,你可以键入http://localhost:3333或http://127.0.0.1:3333打开软件。

以下是你第一次打开OpenRefine的界面:


左侧有三个标签页:

●Create Poject(创建项目):这个选项将载入一个数据集到OpenRefine中,这也是你第一次使用OpenRefine想要做的,如上图所示,有多种可选形式让你导入数据。

◎This Computer(本机):选择本机中存储的一个文件

◎Web Addresses(URLs)(网址):从在线资源导入数据

◎Clipboard(剪切板):通过复制-粘帖方式输入数据

◎Google Data(Google数据):从Google sheet或Fusion Table导入(这两个类似于excel,不过是在线的,所以需要有因特网连接)

●Open Project(打开一个项目):这个选项帮助你定位先前创建的项目,下次你打开OpenRefine,会出现一个已存在项目的列表,你可以选择一个继续先前的工作。

●Import Project(导入一个项目):使用这个选项,我们可以直接导入一个已有的OpenRefine存档,其可以让你打开别人创建的项目,并且包含项目创建后所有的数据操作记录。


下一篇:《Using OpenRefine》翻译~2