数据提取方法
来源:互联网 发布:山西教师网络研修网 编辑:程序博客网 时间:2024/04/28 04:41
数据分类
- 区分标准:规律性
- 规律弱
- 非结构化数据: html等
- 处理方法:正则、xpath
- 规律强
- 结构化数据:json、xml等
- 处理方法:转化为python类型
JSON
说明:JSON(JavaScript Object Notation)是一种轻量级数据交换格式,适用于进行数据交互
使用说明:能找到尽量使用返回json数据的url,因为很好转为python内建数据类型
相互转换
- json字符串<—–>Python数据类型
- json.loads()
- json.dumps():右—>左
- 用途,写入时,将Python数据类型转换
- 包含json的类文件对象—->Python数据类型
- json.load()
- json.dump()
- 类型转换说明
json教程
正则
==此处只说常用的==
- re.compile():编译
- re.match():从头找一个
- re.search():找一个
- re.findall():找所有
- re.sub():替换
- 原始字符串转义:r(只针对特殊字符,如换行符)
- 贪婪与非贪婪
- 默认贪婪,尽可能多的匹配
正则表达式速查表
XPATH和LXML类库
LXML库
- python HTML/XML解析器,通过此解析器,导入etree,可以通过XPath,快速定位特定元素和获取节点信息
- 使用入门
- 导入lxml的etree库
- from lxml import etree
- 利用etree.HTML,将字符串转化为Element对象
- Element对象,有xpath的方法
- 导入lxml的etree库
XPATH
一门在HTML\XML文档查找信息的语言
- 节点(标签)选择
XPATH官方文档说明
- 选取未知节点
XML和HTML
- XML:可扩展标记语言
- 焦点在数据内容
- HTML:超文本标记语言
- 显示数据以及更好的显示
阅读全文
0 0
- 数据提取方法
- sscanf()提取数据的方法
- 正则表达式提取数据的方法
- Python保存/提取数据的方法
- 数据挖掘-文本特征提取方法研究
- 正则表达式提取Json数据的方法
- 数据挖掘-文本特征提取方法研究
- 提取数据
- 提取方法
- 数据库表中某字段里数据如何提取指定内容方法
- 客户数据库sql2000备份置疑数据方法提取补充
- C++私有数据成员提取到类外的方法总结
- 【推荐】数据科学中的非数学特征提取方法
- Ajaxpro2 异步提取数据 Ajax异步方法 异步提交
- 干货:用R语言进行数据提取的方法!
- 一步一步教你抓数据——用.net精确提取网站数据的通用方法
- 一步一步教你抓数据——用.net精确提取网站数据的通用方法
- 网页数据提取程序
- 练习1-7 编写一个打印打印EOF值的程序
- Java多线程(七)之同步器基础:AQS框架深入分析
- Remote Desktop Connection for mac 报错:证书或相关链无效。
- EasyUI+MySQL+Struts2实现省市二级联动
- “不允许指针指向不完整的类类型”问题
- 数据提取方法
- warpctc error
- 10种排序算法总结
- React native最基础的入门知识点
- Kafka 0.9 新特性介绍
- 滚动条样式修改
- NSIS 常用安装路径
- hdu 6129 Just do it (规律递推)
- hdu 5536 Chip Factory(字典树)