python3 [入门基础实战] 爬虫之四季花果园的采果模块

来源:互联网 发布:飞控led软件 编辑:程序博客网 时间:2024/04/28 08:13

这是本人第一次进行根据自己的项目进行爬取,因为处于爬虫初步阶段,现在只是爬取的是一个主标题,和一个副标题,并存入txt文件中,存的数据有些重复的。暂且先这样,来勉励自己吧。

#encoding=utf8import requestsimport refrom bs4 import BeautifulSoupimport osdef getSijiHuaGuo(huaguo_url):    headers = {        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.104 Safari/537.36 Core/1.53.2372.400 QQBrowser/9.5.10548.400'    }    page = 0    r = requests.get(huaguo_url, headers)    html = r.text    soup = BeautifulSoup(html, 'lxml')    img_list = []    img_list = soup.find(class_='picTextPagerList')    # print(img_list)    titles = soup.findAll('div', {'class': 'brief'})    for each in titles:        temptitle = each.get_text() + '\t\n'        # print(temptitle)        titleslist.append(temptitle)    main_titles = soup.findAll('div', {'class': 'title'})    print('*' * 40)    for title in main_titles:        tempStr = title.get_text() + "\t\n"        # print(tempStr)        titleslist.append(tempStr)titleslist = []for page in range(0,21):    huaguo_url = "http://www.sjhgw.cn/list.aspx?ci=22&pageIndex=%s" % page    print('==============================正在获取:'+str(page)+'页数据==============================')    print('url ===  '+huaguo_url)    getSijiHuaGuo(huaguo_url)    with open('C:\\QiuShiBaiKe.txt', 'a',encoding='utf-8') as f:        f.write("".join(titleslist))    # print(titleslist)

在爬虫过程中还是遇到一些坑,这里做一下总结:

由于re模块的不熟悉, 以后爬虫尽量用BeautifulSoup模块,这个挺适合新手的,

网络爬虫库用requests ,以前学习其他人的,一会urlib,urlib2 ,URllib3什么的, 整的自己老是记不住东西,

list 转string可以 一个string类型的.join(list) ,这样才可以变成字符串写入到文件中。

os 模块文件的写入可追加的是a,w 为可写入。这个以后要熟悉,也要记住

页面数值的变化从哪个范围到哪个范围可以用:

for page in range(0,21):

暂且就这么多,明天继续学习新东西!

阅读全文
0 0
原创粉丝点击