用python完成的第一个工作: 将URL码转换成中文

来源:互联网 发布:sentinel ldk c 源码 编辑:程序博客网 时间:2024/06/05 19:42

终于用到python了。

从后台splunk里面导出了几万条用户搜索记录(.csv格式),但全是百分号那种url码(GBK码),想把它转成中文看看都是什么。搜了一圈网上的工具,发现都只能一条一条转。好像可以用VB在excel里面写个程序但是好麻烦....而且也不懂。于是干脆看看python能不能帮忙。

举例:

把 这种字符串 "%E6%9C%8D%E5%8A%A1%E5%8C%BA" 转化成汉字

答案是 "服务区"

验证方法 将以下URL

http://www.baidu.com/s?wd=%E6%9C%8D%E5%8A%A1%E5%8C%BA

输入到地址栏回车,会显示出:


原始文件 03042015.csv,内容长相:


在powershell里面运行程序 forunicodeutf8.py

代码

# -*-coding: utf-8 -*-# -*- coding=gb2312 -*-import urllib, sysf=open("03042015.csv") #打开文件inidata=f.read() #读文件内容到内存final=urllib.unquote(inidata) #解url码为unicodef.close() #关闭文件f2=open('03042015result.csv','w')#建立新文件f2.writelines(final) #写入新文件f2.close() #关闭文件

执行结果 03042015result.csv,内容长相:

一堆问号是因为这是解码为unicode,需要utf-8重新编码即可成为中文可读字。这里只需要用excel即可。

1. 新建EXCEL空白表格

2. 选择[数据data]选项卡-->选择[从文本from text]

3.选择需要编码的.csv文件-->03042015result.csv

4.在导入向导第一步对话框中选择65001:Unicode(UTF-8),下一步

5. 在导入向导第二部对话框 选择逗号comma,下一步

6. 在导入向导第三步对话框中 选择文本Text, 点击完成

7.选择A1单元格,确定

导入结果如下:

--------------------------------------工作完成----------------------------------------

0 0
原创粉丝点击