ccf 目录格式转换
来源:互联网 发布:mac 音视频处理软件 编辑:程序博客网 时间:2024/06/01 18:49
任务背景:
在网络上获取的ccf目录的格式是PDF,但是要进行数据分析时,PDF格式的数据是不符合要求的,因此需要将pdf格式转化为excel格式
任务目的:
将pdf格式的CCF目录转化为excel格式,并且备注上等级和所属的领域
包含的数据字段有:全称,出版商,等级,所属领域
解决过程:
1.首先先到网站上下载pdf格式的CCF目录,这个很容易获取(附件中已附上在博客中的文件可以找到)
2.利用网上的在线PDF转换网站此次试验用的是http://app.xunjiepdf.com/pdf2excel(迅捷在线PDF格式转化)
3.下载转好的文件
4.将文件中的全称和出版商两行复制下来(只包含数据),导入到filename文件中(filename为自定义文件名),因为PDF文件中的数据不是规范的excel格式,因此还需要进行数据处理。
5.运行happy.py,输入filename。
6.就能在F:/paper/ccf/filename2.xls中获得结果
7.得到的结果只是全称和出版社,关于她的等级和所属的领域还需要手动输入。用excel可以很快的完成。大部分的数据都是好的,但是有一些数据因为格式过于错乱,需要手动检查纠正。
8.附件中即是获取的结果。
以下是happy.py代码
1 import xlrd 2 import xlwt 3 name = raw_input("please input the name:\n") 4 work = xlwt.Workbook() 5 sheet = work.add_sheet('test') 6 data = xlrd.open_workbook("F:paper/ccf/%s.xlsx" % name) 7 table = data.sheet_by_index(0) 8 nrows = table.nrows 9 ncols = table.ncols10 row = 011 col = 012 i = 013 while i < nrows:14 if table.cell(i, 1).value == '' and table.cell(i + 1, 0).value == '':15 temp_name = table.cell(i, 0).value + ' ' + table.cell(i+2, 0).value16 temp_organization = table.cell(i+1, 1).value17 sheet.write(row, 0, temp_name)18 sheet.write(row, 1, temp_organization)19 row += 120 i += 321 else:22 temp_name = table.cell(i, 0).value23 temp_organization = table.cell(i, 1).value24 sheet.write(row, 0, temp_name)25 sheet.write(row, 1, temp_organization)26 row += 127 i += 128 name = name + "2"29 work.save("F:paper/ccf/%s.xls" % name)30 del nrows31 del ncols
0 0
- ccf 目录格式转换
- ccf 目录格式转换
- ccf 目录格式转换
- ccf 目录格式转换
- ccf 目录格式转换
- ccf 目录格式转换
- CCF NOI1001 温度转换
- 学习笔记:linux 转换指定目录下文件名编码格式
- 【Python】读取一个目录,将文件名称转换成 json 格式
- CCF NOI1036 进制转换
- CCF NOI1076 进制转换
- C#检查目录下所有文件的编码格式并转换为UTF8格式
- 《CCF推荐期刊和会议目录》
- 格式转换
- 格式转换
- 格式转换
- 格式转换
- 格式转换
- 如何使用Android系统自带的VPN服务框架
- 继承条件下构造方法的调用规则
- 第2周 项目2 胖子不想说体重
- 商人的诀窍
- 自学Windows常用命令
- ccf 目录格式转换
- CentOS Nginx80端口不通
- RichEdit设置font字体大小
- 傲娇的python之python文件名
- js基本数据类型和引用类型交换传值
- vpn原理及实现--虚拟网卡构建vpn
- 数据库操作工具-QueryRunner
- jquery测试代码
- leetcode解题之203 # Remove Linked List Elements Java版(删除链表中的和val相等的元素)