程序博客网 > node express -e

Python网络爬虫（1）

来源：互联网发布：node express -e 编辑：程序博客网时间：2024/06/05 04:53

爬虫三步：请求解析存储

import requests #导入requests 库

r=requests.get('http://www.wise.xmu.edu.cn/people/faculty')

html=r.content #获取网页全部内容

print r.status_code,r.encoding #返回请求状态字码形式

from bs4 import BeautifulSoup#利用bs4进行解析

soup=BeautifulSoup(html,'html.parser')

div_people_list=soup.find('div',attrs={'class':'people_list'})

a_s=div_people_list.find_all('a',attrs={'target':'_blank'})

for a in a_s:

url=a['href']

name=a.get_text()

print name,url#直接打印出来，就当存储了

0 0

node express -e

node express -e

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子阅读浏览器 q q 浏览器糖果浏览器手机版浏览器手机 ios浏览器 e浏览器下载扣扣浏览器网页 go浏览器 qq 浏览器 qq手机浏览器浏览器播放器 1024浏览器安卓版口口浏览器 360急速浏览器 o浏览器 h5浏览器占内存小的浏览器 2345浏览器下载 e浏览器 oo浏览器下载安装 00浏览器下载安装瑞影浏览器 yy浏览器绿色浏览器手机浏览器吧电脑版浏览器图片浏览器浏览器. qq电脑浏览器电脑浏览器有哪些 i浏览器换浏览器流浏览器下载 firefox电脑浏览器浏览器下载地址上网浏览器下载超级浏览器 dwg浏览器浏览器打开 32位浏览器下载好用的浏览器推荐