网页爬虫获取课程信息
来源:互联网 发布:不要网络的游戏 编辑:程序博客网 时间:2024/06/07 04:42
Github链接 : 点击打开链接
用Python学习制作一个简单的网页爬虫:
1. 安装pycharm
是一个非常好用的IDE~, 安装地址在:点击打开链接
2.学习一些常用的正则表达式符号和方法。
3.运用正则表达式, 观察网页源代码, 并提取想要的信息。
4.安装requests插件
本来一直顺风顺水, 但是用到这个套件时提示我python没有安装, 我费劲千辛万苦,终于在命令行里安装好了, 很简单。
先进入C:\Python27\Scripts, 里面有一个easy_install.exe, 我们在这里就可以用命令:pipinstall requests来安装啦。
requests提供了网络链接的相关库。
5.观察源代码和审查元素获取信息
查看源代码:ctrl + U
审查元素:shift + ctrl + I
6.利用sub函数实现翻页
7.向网页提交数据:
get从服务器上获取数据
post向服务器传递数据并获取返回值。
核心方法:requests.post
核心步骤:构造表单、提交表单、获取返回信息
8.学会如何应对反爬虫机制:
有些网站会对访问他的程序进行检查, 所以我们可以修改http头的文件, 让对方网站误以为是一个浏览器在访问他而不是一个爬虫。我们可以把User-Agent放进去:
ha = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'}html = requests.get('https://www.baidu.com/', headers = ha);html.encoding = 'utf-8'print html.text;
然后我们就可以写出一个简单的网络爬虫啦:
# -*-coding:utf-8-*-import reimport requestsimport sysreload(sys)sys.setdefaultencoding("utf-8")class spider(object): def __init__(self): print "start spider" def changepage(self, url, total_page): now_page = int(re.search('pageNum=(\d+)', url, re.S).group(1)) page_group = [] for i in range(now_page, total_page+1): link = re.sub('pageNum=\d+', 'pageNum=%s'%i, url, re.S); page_group.append(link); return page_group; def getsource(self,url): html = requests.get(url) return html.text; def geteveryclass(self, source): everyclass = re.findall('<li id="(.*?)</li>', source, re.S); return everyclass; def getinfo(self, eachclass): info = {} info['title'] = re.search('title="(.*?)" alt', eachclass, re.S).group(1); info['content'] = re.search('<p style="height: 0px; opacity: 0; display: none;">(.*?)</p>', eachclass, re.S).group(1); timeandlevel = re.findall('<em>(.*?)</em>', eachclass, re.S); info['classtime'] = timeandlevel[0]; info['classlevel'] = timeandlevel[1]; info['learnnum'] = re.search('"learn-number">(.*?)</em>', eachclass, re.S).group(1); return info; def saveinfo(self, classinfo): f = open('info.txt', 'a'); for each in classinfo: f.writelines('title:' + each['title'] + '\n'); f.writelines('content:' + each['content'] + '\n'); f.write('classtime:' + each['classtime'] + '\n'); f.writelines('classlevel:' + each['classlevel'] + '\n'); f.writelines('learnnum:' + each['learnnum'] + '\n'); f.writelines('************************************\n\n'); f.close();if __name__ == '__main__': classinfo = [] url = 'https://www.jikexueyuan.com/course/?pageNum=1' jikespider = spider(); all_links = jikespider.changepage(url, 20) # print all_links for link in all_links: print u'正在处理页面:' + link html = jikespider.getsource(link); everyclass = jikespider.geteveryclass(html); for each in everyclass: info = jikespider.getinfo(each); #print each; classinfo.append(info); jikespider.saveinfo(classinfo);
1 0
- 网页爬虫获取课程信息
- 爬虫学习一 : 打开特定网页获取信息
- 一个小爬虫 从网页获取信息(图片下载)
- 爬虫获取网页编码
- python3爬虫--抓取网页信息
- 网页爬虫之邮件获取
- Java网页爬虫获取邮件地址
- python 爬虫获取网页图片
- Python 爬虫:获取网页图片
- Golang---goquery爬虫获取golang语言中文网页面信息并保存MySQL
- 网页爬虫--从网页中获取邮箱地址
- 抓取Foursquare网页信息的爬虫
- nodejs之爬虫网页的信息
- Python 爬虫第二步 -- 爬取麦子学院课程信息
- 筛选网页信息获取天气预报
- 获取网页的信息(转)
- 获取屏幕分辨率及网页信息
- 【转】获取网页表单信息
- Android群英传 第一章
- Python中的注释
- .net中的Queue和Stack
- OPENCV 3 的 extra module
- UNIX常用命令行指令(1)(基本目录操作)
- 网页爬虫获取课程信息
- 点集的视点特征直方图的评估
- 移动端自动化测试环境安装步骤(appium)
- 文件传输时,文件名乱码(setContentDispositionFormData)
- jquery选择器之获取父级元素、同级元素、子元素
- angular1.x ui-route传参的三种写法
- ZigBee协议栈中定时器的几种使用方法(在Zigbee中使用定时器)
- int、long、long long取值范围
- JSP 点击量统计