Python爬虫(bs4)-3
来源:互联网 发布:嵌入式linux 开机启动 编辑:程序博客网 时间:2024/06/05 19:15
1.解析JSON数据
利用Python内建模块
import jsonJson对象 = json.load("JSON文本")json对象.get(XXXXX)#获得指定XXXX键值对
由于JSON比较类似python的数据结构字典
将JSON映射成字典格式,变成JSON数组列表
2.文档编码
编码类型
ASCII 一字节编码
UTF-8 至少一字节编码(根据开头位判断是否为一)
UTF-8可兼容ASCII
ISO 根据不同语言使用不同位数
decode()函数
decode("编码类型","错误处理方式")
可以在文本编码时进行指定编码类型
3.解析纯文本(.txt)
直接使用urilib模块
from urllib.request import urlopentext = urlopen("指定URL")print(str(text.read(),"指定编码格式"))
使用read()方法直接显示文本
4.解析CSV
python csv库主要面向本地文件
import csv
需要将网络文件下载到本地
另一种方式:
将网络的CSV文件处理为字符串,再转变为StringIO对象
好处:
文本处理均在内存,不用下载占据存储资源
StringIO对象保留有文件属性
from urllib.request import urlopen from io import StringIOimport csvdata = urlopen("指定URL").read().decode("指定编码")#转化为字符串dataFile = StringIO(data)#转化为StringIO对象csvReader = csv.read(dataFile)for row in csvReader: print(row)
5.解析PDF
使用库PDFMiner(python2)
PDFMIner3K(pythno3)
模块下载:https://pypi.python.org/pypi/pdfminer3k/
安装:
$python3 setup.py install
同样将PDF转化为StringIO对象
0 0
- Python爬虫(bs4)-3
- Python爬虫(bs4)-1
- Python爬虫(bs4)-2
- Python爬虫之bs4库
- Python -bs4反爬虫解决方法
- requests和bs4的python爬虫入门
- python——爬虫学习——基于bs4库的HTML内容查找方法-(3)
- Python爬虫(urllib2+bs4)+分析找出谁是水贴王(1)--数据收集
- Python爬虫(urllib2+bs4)+分析找出谁是水贴王(2)--数据分析
- [Python 爬虫之路1] 爬取糗事百科(requests,bs4)
- [Python]BS4 与 一个KDS 美图爬虫
- Python网络爬虫requests、bs4爬取空姐网图片
- 从零开始写Python爬虫 --- 1.3 BS4库的解析器
- python爬虫笔记day1 BS4库的使用
- 爬虫笔记2(转)BS4库的解析器
- 爬虫Selenium&bs4 + Miku分享
- 爬虫系列10.BS4简介
- 【python爬虫小实战】python3.x用requests和bs4实现有道翻译(中英文)
- C++运算符重载的方法
- UITextField属性、代理解析
- Qt Creator: Unknown debugger type "No engine"
- 【译】安卓中的自动化测试(1)
- 压图工具|图片压缩
- Python爬虫(bs4)-3
- Mac 安装 brew
- iOS处理图片的各种模糊效果
- 一句话说明白Lambda表达式的基本知识
- android 移植 ffmpeg (二) 源码分析 JNI编程说明
- poj数算A上机汇总4 排序的代价(置换群+贪心)
- ionic ion-slide-box学习笔记整理
- 【译】安卓中的自动化测试(2)-配置
- 分账汇总少了一笔 和 对账和商户汇总比基础表少了一笔 问题处理方式