01_05 数据获取和清理概览

来源:互联网 发布:淘宝的大刀和鑫鑫 编辑:程序博客网 时间:2024/06/06 00:23

1、数据获取和清理的内容

(1)脏数据和干净数据

(2)下载文档

(3)读取数据(excel,xml,json,mysql,hdf5,web....)

(4)合并数据

(5)重新构造数据

(6)汇总数据

(7)寻找和替换

(8)数据源


2、数据库连接和列举

ucsDb <-dbConnect(MySQL(),user="genome",host="genome_mysql.cse.ucsc.edu")

result  <-dbGetQuery(ucscDb)

result


3、合并数据——merge()

mergeData2<- merge(reviews,solutons,by.x="solution_id",by.y="id",all=TRUE)

head(mergeData2[,1:6],3)

reviews[1,1:6]


4、脏数据和处理过的数据

(1)脏数据/原始数据

数据的来源、很难用来分析、数据分析包括处理、原始数据也许只要处理一次


(2)处理过的数据

可以用来分析的数据,数据处理包括合并、子集、转换等,也许处理有标准、所有处理的步骤都要被记录下来



0 0
原创粉丝点击