Python数据分析基础(五)——数据规整

来源:互联网 发布:网络社会组织 编辑:程序博客网 时间:2024/05/19 14:54

数据规整是数据处理的前提条件。pandas和Python标准库提供了一组高级、灵活、高效的核心函数和算法。


pandas merge函数的参数

参数说明left参与合并的左侧DataFrameright参与合并的右侧DataFramehow“inner”、“outer”、“left”、“right”其中之一。默认为“inner”on用于连接的列名left_on左侧DataFrame中用作连接键的列right_on右侧DataFame中用作连接键的列left_index将左侧的行索引用作其连接键right_index类似于left_indexsort根据连接键对合并后的数据进行排序,默认为True。suffixes字符串值元组,用于追加到重叠列名的末尾,默认为('_x', '_y')。copy设置为False,可以在某些特殊情况下避免将数据复制到结果数据结构中。默认是复制


pandas concat函数的参数

参数说明objs参与连接的pandas对象的列表或字典。唯一必需的参数axis指明连接的轴向,默认为0join“inner”、“outer”其中之一,默认为“outer”。join_axes指明用于其他n-1轴的索引,不执行并集/交集运算keys与连接对象有关的值,用于形成连接轴向上的层次化索引。levels指定用作层次化索引各个级别上的索引,如果设置了keys的话names用于创建分层级别的名称,如果设置了keys和(或)levels的话verify_integrity检查结果对象新轴上的重复情况,如果发现则引发异常。默认(False)允许重复ignore_index不保留连接轴上的索引,产生一组新索引range(total_length)


Python内置的字符串方法

方法说明count返回子串在字符串中的出现次数(非重叠)endswith、startswith如果字符串以某个后缀结尾(以某个前缀开头),则返回Truejoin将字符串用作连接其他字符串序列的分隔符index如果在字符串中找到子串,则返回子串第一个字符所在的位置。如果没有找到,则引发ValueErrorfind如果在字符串中找到子串,则返回第一个发现的子串的第一个字符所在的位置。如果没有找到,则返回-1rfind如果在字符串中找到子串,则返回最后一个发现的子串的第一个字符所在的位置。如果没有找到,则返回-1replace用另一个字符串替换指定子串strip、rstrip、lstrip去除空白符(包括换行符)split通过指定的分隔符将字符串拆分为一组子串lower、upper分别将字母字符转换为小写或大写ljust、rjust用空格(或其他字符)填充字符串的空白以返回符合最低宽度的字符串


正则表达式方法

方法说明findall、finditer返回字符串中所有的非重叠匹配模式。findall返回的是由所有模式组成的列表,而finditer则通过一个迭代器逐个返回match从字符串起始位置匹配模式,还可以对模式各部分进行分组。如果匹配到模式,则返回一个匹配项对象,否则返回Nonesearch扫描整个字符串以匹配模式。split根据找到的模式将字符串拆分为数段sub、subn将字符串中所有的(sub)或前n个(subn)模式替换为指定表达式。


矢量化的字符串方法

方法说明cat实现元素级的字符串连接操作,可指定分隔符contains返回表示各字符串是否含有指定模式的布尔型数组count模式的出现次数endswith、startswith以某个模式开始或结束findall计算各字符串的模式列表get获取各元素的第i个字符join根据指定的分隔符将Series中各元素的字符串连接起来len计算各字符串的长度lower、upper转换大小写match根据指定的正则表达式对各个元素执行re.matchpad在字符串的左边、右边或左右两边添加空白字符center相当于pad(side='both')repeat重复值replace用指定字符串替换找到的模式slice对Series中的各个字符串进行子串截取split根据分隔符或正则表达式对字符串进行拆分strip、rstrip、lstrip去除空白符,包括换行符


参考文献:

利用Python进行数据分析.    Wes McKinney.    唐学韬译


阅读全文
1 0
原创粉丝点击