python3 [入门基础实战] 爬虫之四季花果园的采果模块
来源:互联网 发布:飞控led软件 编辑:程序博客网 时间:2024/04/28 08:13
这是本人第一次进行根据自己的项目进行爬取,因为处于爬虫初步阶段,现在只是爬取的是一个主标题,和一个副标题,并存入txt文件中,存的数据有些重复的。暂且先这样,来勉励自己吧。
#encoding=utf8import requestsimport refrom bs4 import BeautifulSoupimport osdef getSijiHuaGuo(huaguo_url): headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400' } page = 0 r = requests.get(huaguo_url, headers) html = r.text soup = BeautifulSoup(html, 'lxml') img_list = [] img_list = soup.find(class_='picTextPagerList') # print(img_list) titles = soup.findAll('div', {'class': 'brief'}) for each in titles: temptitle = each.get_text() + '\t\n' # print(temptitle) titleslist.append(temptitle) main_titles = soup.findAll('div', {'class': 'title'}) print('*' * 40) for title in main_titles: tempStr = title.get_text() + "\t\n" # print(tempStr) titleslist.append(tempStr)titleslist = []for page in range(0,21): huaguo_url = "http://www.sjhgw.cn/list.aspx?ci=22&pageIndex=%s" % page print('==============================正在获取:'+str(page)+'页数据==============================') print('url === '+huaguo_url) getSijiHuaGuo(huaguo_url) with open('C:\\QiuShiBaiKe.txt', 'a',encoding='utf-8') as f: f.write("".join(titleslist)) # print(titleslist)
在爬虫过程中还是遇到一些坑,这里做一下总结:
由于re模块的不熟悉, 以后爬虫尽量用BeautifulSoup模块,这个挺适合新手的,
网络爬虫库用requests ,以前学习其他人的,一会urlib,urlib2 ,URllib3什么的, 整的自己老是记不住东西,
list 转string可以 一个string类型的.join(list) ,这样才可以变成字符串写入到文件中。
os 模块文件的写入可追加的是a,w 为可写入。这个以后要熟悉,也要记住
页面数值的变化从哪个范围到哪个范围可以用:
for page in range(0,21):
暂且就这么多,明天继续学习新东西!
阅读全文
0 0
- python3 [入门基础实战] 爬虫之四季花果园的采果模块
- python3 [入门基础实战] 爬虫入门之xpath的学习
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
- python3 [入门基础实战] 爬虫入门之智联招聘的学习(一)
- python3 [入门基础实战] 爬虫入门之xpath爬取脚本之家python栏目
- python3 [入门基础实战] 爬虫入门之爬取糗事百科
- python3 [入门基础实战] 爬虫入门之爬取豆瓣读书随笔页面
- python3 [入门基础实战] 爬虫入门之爬取豆瓣阅读中文电子书[热门排序]
- python3 [入门基础实战] 爬虫入门之刷博客浏览量
- python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化
- python3 [爬虫入门实战]爬虫之mongoDB数据库的安装配置与可视化
- python3[爬虫基础入门实战] 爬取豆瓣电影排行top250
- 算法入门之果园里的树
- Python3[爬虫实战] 爬虫之scrapy爬取爱上程序网存MongoDB(android模块)
- python3 [爬虫入门实战] 爬虫之爬取盘多多文档(百万数据)
- python3 [爬虫入门实战]爬虫之selenium 安装设置与初步使用
- python3 [爬虫入门实战] 爬虫之selenium 模拟QQ登陆抓取好友说说内容(暂留)
- python3 [爬虫入门实战] 爬虫之使用selenium 爬取百度招聘内容并存mongodb
- 调度算法
- 【0033】SQL查询--简单查询--排序运算
- 【如何提高博客访问量?】
- 【0034】SQL查询--简单查询--查询表
- Git 从入门到精通(git分支学习)(三)
- python3 [入门基础实战] 爬虫之四季花果园的采果模块
- 两个有序链表序列的合并
- 计算机组成原理——屏蔽字设置
- javaScript设计模式与开发实践-策略模式
- Redis 和 Memcached 的区别
- 制作DLL并在Unity3d中使用
- centos安装gitlab详解-2017
- linux安装编译配置ffmpeg
- java主函数public static void mian (String[] args)的理解