【爬虫】正则表达式解析网页
来源:互联网 发布:xp取消网络凭证 编辑:程序博客网 时间:2024/06/05 08:29
用正则表达式解析网页
# 猫眼电影import jsonimport refrom multiprocessing.pool import Poolimport requestsfrom requests.exceptions import RequestException#请求一个页面返回响应内容def get_one_page(url): try: response =requests.get(url) if response.status_code==200: return response.text return None except RequestException: return None#解析网页def parse_one_page(html): pattern=re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a' +'.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>' +'.*?integer">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>',re.S) #不要出现多余的空格 items = re.findall(pattern,html) print(items) for item in items: yield{ 'number':item[0], 'picture':item[1], 'title':item[2], 'actors':item[3].strip()[3:], # 'time':item[4].strip()[5:], 'time': get_release_time(item[4].strip()[5:]), 'area': get_release_area(item[4].strip()[5:]), 'score':item[5]+item[6] }def main(offset): url='http://maoyan.com/board/4?offset='+str(offset) html=get_one_page(url) for item in parse_one_page(html): print(item)if __name__=='__main__': pool = Pool() pool.map(main, [i * 10 for i in range(10)])
阅读全文
0 0
- 【爬虫】正则表达式解析网页
- 正则表达式,网页爬虫
- [Python]爬虫,正则表达式解析网页及Json序列化
- 正则表达式—网页爬虫
- 正则表达式(网页爬虫)
- 正则表达式(网页爬虫)
- 网页解析正则表达式
- android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
- 黑马程序员_正则表达式(网页爬虫)
- 黑马程序员-正则表达式、网页爬虫
- 黑马程序员-正则表达式(网页爬虫)
- 黑马程序员-----正则表达式和网页爬虫
- Java正则表达式之网页爬虫
- 转载自android 开发--抓取网页解析网页内容的若干方法(网络爬虫)(正则表达式)
- 基于java正则表达式的网页解析
- 基于java正则表达式的网页解析
- 正则表达式 网页爬虫 2011年10月27号
- ObjC利用正则表达式抓取网页内容(网络爬虫)
- 【爬虫】用 urllib.request 解析网页
- poj 3253
- Connected to the target VM, address: '127.0.0.1:60626', transport: 'socket' Disconnected from the ta
- HDU1540 Tunnel Warfare(线段树,区间合并)
- Spark简介
- 【爬虫】正则表达式解析网页
- jdk1.7安装详细过程
- C语言模块化程序设计
- github代码资源
- 广州CVTE公司笔试程序题
- openstack mtu (by quqi99)
- 设计模式 3-23 抽象工厂模式
- Hibernate入门(5):关联映射&继承映射
- QToolBox