根据一个规律文本提取出数据框
来源:互联网 发布:帝国cms写进销存系统 编辑:程序博客网 时间:2024/06/06 14:14
内容:今天主要用python实现一个csv格式的规则文本转化为DataFrame的过程,实际Pandas.read_csv(file)可以直接生成;
win.csv格式:
难点1:怎么将截片,选择正确的截片方式,让截得的结果能够跟read_csv相同;
难点2:可维护性,通过columes,names只要是矩形,都可以动态显示。
import pandas as pdimport numpy as npdef strToD(x): str1 = x.split('\n')[0] return str1 def setDF(file): strings = open(file,'r+').readlines() open(file,'r+').close() names = []; data = [] columes = []; for string1 in strings[1:len(strings)]: hang = string1.split(',') for element in np.arange(0,len(hang)): hang[element] = strToD(hang[element]) if(string1 == strings[1]): columes = string1.split(',')[1:len(string1)] else: data.extend(hang[1:len(hang)]) names.append(hang[0]) for d in np.arange(0,len(data)): data[d] = float(data[d]) dd = np.array(data) dd.shape = len(names),len(columes) df = pd.DataFrame(dd,names,columes) return dfprint (setDF('C:\\Users\\白于空\\Desktop\\0802\\win.csv'));
下面给出结果
>>> runfile('C:/Users/白于空/Documents/Python Scripts/setDF.py', wdir='C:/Users/白于空/Documents/Python Scripts')
访客数 占比 浏览量 占比\n
淘宝搜索 2302.0 0.6202 3071.0 0.6255
天猫搜索 488.0 0.1315 640.0 0.1303
直接访问 232.0 0.0625 302.0 0.0615
已买到商品 154.0 0.0415 208.0 0.0424
淘宝客 141.0 0.0380 188.0 0.0383
淘宝站内其他 116.0 0.0313 142.0 0.0289
购物车 106.0 0.0286 151.0 0.0308
宝贝收藏 64.0 0.0172 82.0 0.0167
直通车 51.0 0.0137 58.0 0.0118
淘宝其他店铺 12.0 0.0032 13.0 0.0026
>>>
- 根据一个规律文本提取出数据框
- 根据htmlparser写的一个提取页面纯文本的C#程序
- 写一个BaseController来提取出json化输出数据和非json化输出数据
- 根据18位身份证号,提取出此人的出生年月日,
- caffe根据训练出的模型提取特征
- wav文件提取出pcm数据
- wav文件提取出pcm数据
- java提取rar文档中的文本数据
- java提取rar文档中的文本数据
- 数据挖掘-文本特征提取方法研究
- 数据挖掘-文本特征提取方法研究
- 提取某个字段数据并统计其分布规律
- 海量日志数据__怎么在海量数据中找出重复次数最多的一个;提取出某日访问网站次数最多的那个IP;提取出某日访问网站次数最多的前n个IP
- 根据控件位置自动算出坐标在后面加一个提示框
- 文本提取
- 从数据库提取出数据修改后让datagird显示
- 出栈规律总结
- 过滤文本中非法数据,以正常显示出数据
- Javascript中文变量及dat.gui的使用
- 对于网络上python多继承误区的记录
- 线索二叉树的生成及遍历
- Android实用视图动画及工具系列之三:表情加载动画和失败加载动画,人物加载动画
- Service和远程控制
- 根据一个规律文本提取出数据框
- SG 函数 hdu1524 & poj 2425 hdu1524 A Chess Game
- 二叉排序树
- Spring Boot AOP实例
- 留言板之公共模块
- 杂谈:vscode的基础功能不足
- SPOJ-694-求字符串中不同子串个数(后缀数组)
- Lightoj1188 Fast Queries(树状数组离线)
- cocos2d 关于retain、release以及autorelease