网络爬虫,python和数据分析学习--part3
来源:互联网 发布:dbc数据库编辑器v3.0 编辑:程序博客网 时间:2024/05/18 03:34
# -- coding: utf-8 --
“””
Created on Tue Oct 10 10:59:56 2017
本段程序为科大王澎老师《网络爬虫,python和数据分析》中P15,针对spyder3做了微调
主要任务:解决了中文乱码问题
@author:
“””
import re
import urllib.request
import pymysql
from bs4 import BeautifulSoup
import time #延时用,如果不延时,可以不加
aaa = 3640
url1=’http://bbs.ustc.edu.cn/cgi/bbstdoc?board=PieBridge&start=’
while aaa>0:
time.sleep(1)#延时,为的是环节被爬网站的压力
aaa=aaa-20#网站link有规律,每页递减20,利用该规律设置每次赋入的URL,爬完所有贴
aaa1=str(aaa)
url1=url1+aaa1
fp=urllib.request.urlopen(url1)
try:
s=fp.read().decode(‘gb2312’,’ignore’)#把gb2312改为网页编码
#下面修改网页内容s的编码设置
s=re.sub(‘charset=gb2312’,’charset=gb2312=utf-8’,s,re.I)
s=s.encode(‘utf-8’,’ignore’)
except:
s=fp.read()
soup=BeautifulSoup(s)
polist=soup.findAll(‘span’)
print (polist[0].contents[0])
- 网络爬虫,python和数据分析学习--part3
- 网络爬虫,python和数据分析学习--part1
- 网络爬虫,python和数据分析学习--part2
- Python基础和网络爬虫数据分析
- 《网络爬虫-Python和数据分析》数据库建库建表问题
- 用Python进行网络爬虫和数据分析的初次尝试(一)
- python网络爬虫学习
- Python网络爬虫学习
- 网络爬虫学习 python
- 网络爬虫---2.数据分析
- python网络爬虫学习笔记
- Python网络爬虫 学习资源----
- Python网络爬虫基础知识学习
- Python--网络爬虫学习笔记
- python学习之网络爬虫
- Python学习杂记(网络爬虫)
- python网络爬虫学习笔记
- [python网络爬虫]表单和登陆爬虫
- for in 和 for of的区别
- The C Programming Language 练习题3-4
- GKRandom
- CStatic子类化解决背景透明,文本重叠,刷新闪烁问题
- 获取元素的具体样式信息getcss
- 网络爬虫,python和数据分析学习--part3
- Asp.Net MVC扩展方法
- LibUSB官方文档(自己瞎JB整理了一下
- 【笔记】Android数据存储——SharedPreferences
- mongodb全库备份与恢复
- HTML静态页面传值方法
- bzoj1430prufer序列
- PHP消息队列实现及应用:队列处理订单系统和配送系统
- 《程序员修炼之道》第二章——A Pragmatic Approach