爬取对象的解析
来源:互联网 发布:做动画的app mac 编辑:程序博客网 时间:2024/05/09 10:48
问题描述:
最近爬取的对象,会取得一个标签下的大量的text,而想要的结果却在text其中一部分,这样就需要对text再进行解析。
以取AMZ站的商品图片为例:
1 其图片信息不写在DIV中,即便你点击预览,也不会有异步的后台调用。图片的内容装入DIV是依赖于JS实现的。而JS是在初使化时就加载好。可以减少后台的压力。但这就就需要对JS的内容进行解析,其内容如下:
2 首先,可以通过XPATH,取得其JS内容:
//script[contains(text(),'colorImages')]/text()
3 解析文本:
4 以上就是图片内容的解析这里要说一下,因为XPATH的强项是针对元素标签的定位,而针对其内容的处理就显得捉襟见肘了。而对内容的处理,主要有 STRING的截取,正则,已有格式转化后的调用(如XML,JSON)观察取出内容,朋友发现是符合Restful的JSON串格式的。所以用JSON更为方便。我要取出所有hiRes标签下的URL。可以用到JSON.LOADS将JSON转成PYTHON的队列colorImg= colorImg[(colorImg.find('[{')):colorImg.rfind('}]')+2] # 取得[{}]中间内容 list = json.loads(colorImg) for img in list : imgs.append(img['hiRes'])
阅读全文
0 0
- 爬取对象的解析
- SAX方式解析XML文件的方法分析,并取特定字段生成对象
- jQuery对象的取值
- 用Python爬取解析过的网页
- Python 解析爬取的车次数据(12306)
- python html解析&爬取
- JSONArray和JSONObject对象解析和取值
- String 对象的解析
- JSONObject对象的解析
- 对象的解析
- bson对象的解析
- dom4j 取解析网站上的xml
- C#Json的解析与取值
- flex取一个对象的所有属性
- js 动态取json对象的属性
- 动态取json对象的属性
- js 动态取json对象的属性
- 取对象的Key和值
- 解决array_multisort关联索引不变,但数字键名会被重置问题
- js中innerHTML与innerText的用法与区别
- Excel 2016 for Mac 快捷键
- 【hibernate】 hbm2ddl.auto参数
- C#重启计算机
- 爬取对象的解析
- CodeForces
- python pandas
- HDU 6158 (计算几何+笛卡尔定理+韦达定理)
- 高并发,分布式,高性能,系统架构项目实战
- stm32F407 RT-thread V2.0.1 扩展系统串口设备
- 设计模式之状态模式
- 有关input[text]与button的错位问题
- Activiti 5.16 用户手册