python3中使用requests和beautifulsoup爬取西刺免费代理IP 入库mongo!
来源:互联网 发布:物理模拟实验室软件 编辑:程序博客网 时间:2024/05/21 08:50
import requests # 使用requests获取源码信息import pymongo # 入库mongofrom bs4 import BeautifulSoup # 使用BeautifulSoup解析网页信息
可以爬取多页,设置翻页就可以。 下面爬取的是一页。
client = pymongo.MongoClient() # 连接本机上的mongodatabase = client['IP代理'] # 设置数据库名table = database['ip池'] # 设置表明head = {'User-Agent': 'Mozilla/5.0'} # 设置头部信息request = requests.get('http://www.xicidaili.com/wn/', headers=head) # 加上头部信息,还有请求的网址request.encoding = request.apparent_encoding # 设置页面的编码soup = BeautifulSoup(request.text, 'lxml').find_all('table', id='ip_list') # 找到放ip的表for i in soup: # 遍历里面得到的所有ip信息 # 找到ip的标签遍历得到ip ip = [i.get_text() for i in i.select('tr > td:nth-of-type(2)')] # 找到端口的标签遍历得到端口 dk = [i.get_text() for i in i.select('tr > td:nth-of-type(3)')] # 打包成字典 for key,value in zip(dk,ip): data = { key: value } # 把数据插入到mongo表中 table.insert(data)
阅读全文
0 0
- python3中使用requests和beautifulsoup爬取西刺免费代理IP 入库mongo!
- python3中requests中使用ip代理池随机生成ip
- python3获取免费代理IP
- python3中使用requests模块爬取小说入mongo库
- Python3之利用requests和BeautifulSoup抓取部分信息
- python3爬取聚美优品多进程入库mongo
- requests使用代理ip的方法
- 简单使用requests库爬取Ip代理
- python3使用ip代理池
- python3爬取使用BeautifulSoup爬取前程无忧的python招聘信息入库MongoDB!
- Python3 爬虫使用User Agent和代理IP隐藏身份
- Python 爬虫实战(一):使用 requests 和 BeautifulSoup
- requests.get 和 bs4.BeautifulSoup
- requests和BeautifulSoup一些细节
- python3学习-requests使用
- python中requests使用代理proxies
- python3使用代理ip访问指定网站
- 使用python3抓取新浪股票使用beautifulsoup解析和selenium
- 获取无参数名的post数据请求示例
- 接口测试--用例篇,如何编写app接口测试用例?
- POJ
- java错题mark_8
- 关于h5-app的一些css样式
- python3中使用requests和beautifulsoup爬取西刺免费代理IP 入库mongo!
- 进击的AssetBundles和它的工具们
- 好测试,坏测试
- mysqldump数据库备份,参数详解
- HDOJ 1171 Big Event in HDU(二进制拆分+0 1背包)
- 最小二乘法拟合曲线:二次函数
- Arduino的传感器使用教程1:PM2.5、温度和大气压传感器
- 自定义view,垂直seekbar
- 欢迎使用CSDN-markdown编辑器