python 对以空行作为分割的块文件进行读取的方法
来源:互联网 发布:揭阳淘宝村在哪里 编辑:程序博客网 时间:2024/06/02 00:28
这几天一直在处理数据,也接触到了好几款不一样的库,pandas虽然好用但是却没有直接处理空行分块的txt文件,所以只能自己手写脚本对文件进行分块读取,然后每一块的信息存储为csv文件的一行。我处理的对象为DBLP的数据集,地址是http://cn.aminer.org/citation 采用的是v1数据集。
需要将形如#c,#!等分别代表的不同意思的信息提取出来
数据的格式如下;
数据每块的含义参见数据集主页给出的说明。
def exact_edges(path1,path2): a = open(path1,'r') file = a.read().splitlines() b = open(path2,'wb') csv_file2 = csv.writer(b) KDD = 'ACM SIGKDD international conference on Knowledge discovery and data mining' SIGIR = 'international ACM SIGIR conference on Research and development in information retrieval' i = 0 num = 0 while True: list = [] flag = 0 if num != 0:#对读取的file进行删除操作,读取完成的部分将在下一块读取之前删除掉 for x in range(0,num): file.pop(0) num = 0 for line in file: num = num+1 if len(line) > 0: if line.startswith('#index'): print line list.append(line) if line.startswith('#%'): print line list.append(line) if line.startswith('#c'): '''print line if ('conference on Knowledge discovery and data mining' in str(line)) or ( 'international ACM SIGIR conference on Research and development in information' in line): print '...................' flag = 1''' list.append(line) if line.startswith('#!'): list.append(line) else: #print '................................' break csv_file2.writerow(list)
阅读全文
0 0
- python 对以空行作为分割的块文件进行读取的方法
- 以指定的符号对字符串进行切分,同时保留作为切分条件的分割符
- c语言以数据块的形式对文件数据进行操作
- python对文件的读取
- C#使用itextsharp对pdf文件进行分割的几种方法
- C#使用itextsharp对pdf文件进行分割的几种方法
- C# 使用 itextsharp 对pdf文件进行分割的几种方法(1)——按页码拷贝分割
- C# 使用 itextsharp 对pdf文件进行分割的几种方法(1)——按页码拷贝分割
- Linux 删除文件中空行的方法
- 对得到的file路径“C:\storage\我的音乐”,以"\"进行分割
- 使用Python进行文件的分割与合并
- 以.(点号)作为String.split()的分割符
- 以文件的某一域分割文件
- Java-使用IO流对大文件进行分割和分割后的合并
- Java-使用IO流对大文件进行分割和分割后的合并
- 将PDF文件进行分割拆分的方法
- 对文件读取的几种方法
- 对文件进行部分备份的方法
- Swift 中的元组 (Tuples)
- 万物皆对象的JavaScrip
- PYthon 正则表达式设定大小写匹配
- mongodb 简单部署方案及实例
- 【读书笔记】数理统计学教程 (一)
- python 对以空行作为分割的块文件进行读取的方法
- 关于Mongodb的全面总结
- PHP 死锁问题分析
- 在树莓派上使用GPS模块
- element-ui 自定义弹框,加入图片
- ubuntu安装完要做的工作
- MapReduce的优化
- 微信V3支付(避免重复进入这个坑)
- Ubuntu16.04默认安装了Python2和Python3的版本