Python爬虫(bs4)-3

来源:互联网 发布:嵌入式linux 开机启动 编辑:程序博客网 时间:2024/06/05 19:15

1.解析JSON数据

利用Python内建模块

import jsonJson对象 = json.load("JSON文本")json对象.get(XXXXX)#获得指定XXXX键值对

由于JSON比较类似python的数据结构字典
将JSON映射成字典格式,变成JSON数组列表

2.文档编码

编码类型
ASCII 一字节编码
UTF-8 至少一字节编码(根据开头位判断是否为一)
      UTF-8可兼容ASCII 
ISO   根据不同语言使用不同位数

decode()函数

decode("编码类型","错误处理方式")

可以在文本编码时进行指定编码类型

3.解析纯文本(.txt)

直接使用urilib模块

from urllib.request import urlopentext = urlopen("指定URL")print(str(text.read(),"指定编码格式"))

使用read()方法直接显示文本

4.解析CSV

python csv库主要面向本地文件

import csv

需要将网络文件下载到本地
另一种方式:
将网络的CSV文件处理为字符串,再转变为StringIO对象
好处:
文本处理均在内存,不用下载占据存储资源
StringIO对象保留有文件属性

from urllib.request import urlopen from io import StringIOimport csvdata = urlopen("指定URL").read().decode("指定编码")#转化为字符串dataFile = StringIO(data)#转化为StringIO对象csvReader = csv.read(dataFile)for row in csvReader:      print(row)

5.解析PDF

使用库PDFMiner(python2)
PDFMIner3K(pythno3)
模块下载:https://pypi.python.org/pypi/pdfminer3k/
安装:

$python3 setup.py install

同样将PDF转化为StringIO对象

0 0
原创粉丝点击