Python抓取one网页上的内容
来源:互联网 发布:济南专业淘宝拍摄 编辑:程序博客网 时间:2024/04/30 12:17
1.python环境搭建
安装homebrew
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
安装pip
首先安装easy_install: curl https://bootstrap.pypa.io/ez_setup.py -o - | sudo python
接着: sudo easy_install pip
安装virtualenv
pip install virtualenv
安装request和beautifulsoup4
pip install requests beautifulsoup4
2.网页分析
请移步源网址,本文参考原文
3.python编码
import argparseimport refrom multiprocessing import Poolimport requestsimport bs4import timeimport jsonimport ioroot_url = 'http://wufazhuce.com'def get_url(num): return root_url+'/one/'+str(num)def get_urls(num): urls = map(get_url,range(100,100+num)) return urlsdef get_data(url): dataList = {} response = requests.get(url) if response.status_code != 200: return {'noValue':'noValue'} soup = bs4.BeautifulSoup(response.text,'html.parser') print soup.title.string dataList['index'] = soup.title.string[4:7] for meta in soup.select('meta'): if meta.get('name') == 'description': dataList['content'] = meta.get('content') dataList['imgUrl'] = soup.find_all('img')[1]['src'] return dataListif __name__ == '__main__': pool = Pool(4) dataList = [] urls = get_urls(10) start = time.time() dataList = pool.map(get_data,urls) end = time.time() print 'use:%.2f s'%(end-start) jsonData = json.dumps({'data':dataList}) with open('data.txt','w') as outfile: json.dump(jsonData,outfile)
0 0
- Python抓取one网页上的内容
- [python]抓取网页的内容
- python抓取网页内容
- python抓取网页内容
- python 网页内容抓取
- Python抓取网页内容
- python 抓取网页内容
- Python抓取网页内容
- php抓取网页上的指定内容
- 使用python抓取网页上的信息
- 用Python抓取网页上的图片
- python 抓取网页内容教程
- 从网页上抓取内容的库simple_html_dom
- Python网页抓取:获取页面中某段内容的xpath
- 用Python的Lxml库抓取网页内容
- 网页内容抓取 图片的抓取方法
- 抓取网页内容的函数
- 有关网页抓取的内容
- linux ctrl + s 假死
- andorid studio 配置NDK环境
- 算法引论之多项式求解(递归和非递归实现)
- android 项目练习:自己的词典app——生词本(一)
- Java的浅表克隆和深表克隆
- Python抓取one网页上的内容
- 方法中的内部类不能访问该方法的局部变量
- 生成dll错误
- More Effective C++----(18)分期摊还期望的计算
- 计算连续bit 1个数
- 见过的介绍ORB最清楚的博文
- npm 的工作原理
- 为什么区块链技术对许多行业都有吸引力?
- UVA-10285 Longest Run on a Snowboard