Python爬虫（bs4）-3

来源：互联网发布：嵌入式linux 开机启动编辑：程序博客网时间：2024/06/05 19:15

1.解析JSON数据

利用Python内建模块

import jsonJson对象 = json.load("JSON文本")json对象.get（XXXXX）＃获得指定ＸＸＸＸ键值对

由于ＪＳＯＮ比较类似ｐｙｔｈｏｎ的数据结构字典
将ＪＳＯＮ映射成字典格式，变成ＪＳＯＮ数组列表

２．文档编码

编码类型
ＡＳＣＩＩ　一字节编码
ＵＴＦ－８　至少一字节编码（根据开头位判断是否为一）
　　　　　　ＵＴＦ－８可兼容ＡＳＣＩＩ　
ＩＳＯ　　　根据不同语言使用不同位数

decode()函数

decode("编码类型","错误处理方式")

可以在文本编码时进行指定编码类型

3.解析纯文本（.txt）

直接使用urilib模块

from urllib.request import urlopentext = urlopen("指定URL")print(str(text.read(),"指定编码格式"))

使用read（）方法直接显示文本

4.解析CSV

python csv库主要面向本地文件

import csv

需要将网络文件下载到本地
另一种方式：
将网络的CSV文件处理为字符串，再转变为StringIO对象
好处：
文本处理均在内存，不用下载占据存储资源
StringIO对象保留有文件属性

from urllib.request import urlopen from io import StringIOimport csvdata = urlopen("指定URL").read().decode("指定编码")#转化为字符串dataFile = StringIO(data)#转化为StringIO对象csvReader = csv.read(dataFile)for row in csvReader:      print(row)

5.解析PDF

使用库PDFMiner(python2)
PDFMIner3K(pythno3)
模块下载：https://pypi.python.org/pypi/pdfminer3k/
安装：

$python3 setup.py install

同样将PDF转化为StringIO对象

0 0