python3 [入门基础实战] 爬虫之四季花果园的采果模块

来源：互联网发布：飞控led软件编辑：程序博客网时间：2024/04/28 08:13

这是本人第一次进行根据自己的项目进行爬取，因为处于爬虫初步阶段，现在只是爬取的是一个主标题，和一个副标题，并存入txt文件中，存的数据有些重复的。暂且先这样，来勉励自己吧。

#encoding=utf8import requestsimport refrom bs4 import BeautifulSoupimport osdef getSijiHuaGuo(huaguo_url):    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'    }    page = 0    r = requests.get(huaguo_url, headers)    html = r.text    soup = BeautifulSoup(html, 'lxml')    img_list = []    img_list = soup.find(class_='picTextPagerList')    # print(img_list)    titles = soup.findAll('div', {'class': 'brief'})    for each in titles:        temptitle = each.get_text() + '\t\n'        # print(temptitle)        titleslist.append(temptitle)    main_titles = soup.findAll('div', {'class': 'title'})    print('*' * 40)    for title in main_titles:        tempStr = title.get_text() + "\t\n"        # print(tempStr)        titleslist.append(tempStr)titleslist = []for page in range(0,21):    huaguo_url = "http://www.sjhgw.cn/list.aspx?ci=22&pageIndex=%s" % page    print('==============================正在获取：'+str(page)+'页数据==============================')    print('url ===  '+huaguo_url)    getSijiHuaGuo(huaguo_url)    with open('C:\\QiuShiBaiKe.txt', 'a',encoding='utf-8') as f:        f.write("".join(titleslist))    # print(titleslist)

在爬虫过程中还是遇到一些坑，这里做一下总结：

由于re模块的不熟悉，以后爬虫尽量用BeautifulSoup模块，这个挺适合新手的，

网络爬虫库用requests ，以前学习其他人的，一会urlib，urlib2 ，URllib3什么的，整的自己老是记不住东西，

list 转string可以一个string类型的.join(list) ,这样才可以变成字符串写入到文件中。

os 模块文件的写入可追加的是a，w 为可写入。这个以后要熟悉，也要记住

页面数值的变化从哪个范围到哪个范围可以用：

for page in range(0,21):

暂且就这么多，明天继续学习新东西！

阅读全文

0 0