使用BeautifulSoup的简单小爬虫

来源:互联网 发布:淘宝仓库宝贝删除 编辑:程序博客网 时间:2024/06/05 07:54

最近稍微看了点python的入门, runoob上面的入门过了一遍 python的菜鸟教程。网上看爬虫用BeautifulSoup就能简单的尝试下,就学着写了个百度贴吧的,算是小爬虫吧。。。

安装BeautifulSoup

先从官网上down下来 然后解压再用python安装
官网地址 https://www.crummy.com/software/BeautifulSoup/#Download
具体还是网上搜吧 超级多

爬取模块

其实贴吧的网址还是比较容易拼接的 所以有挺多人拿贴吧练手来着

def start(self):    for i in range(self.topic_limit/50):        self.spide_listpage(i * 50)

因为计划着要翻页嘛 拼接的页码就是这么个格式 做个循环调用方法

def spide_listpage(self, num):    url = self.baseUrl + "&pn=" + str(num)    html = urllib2.urlopen(url).read()    soup = BeautifulSoup(html, 'html.parser')    topic_list = soup.findAll('a', attrs={'class': 'j_th_tit '})    for topic in topic_list:        if self.keyword in topic['title']:           print topic['title'], (self.domain +  topic['href']).strip()           self.theUrl = (self.domain + topic['href']).strip()           break

html就是拼接出来的地址,然后利用beautifulsoup来进行读取,在找到所有class里面带 j_th_tit样式的 然后再把对应的标题和超链接打印出来
这个思路嘛 就是找html里面对应的css样式,毕竟同类的格式肯定是一样的 这个估计大家都懂就不赘述了

然后循环把含有keyword的提取打印出来

文件写入模块

爬取出来索性就写入txt文档好啦

class writeInFile:    def __init__(self, url):        self.url = url    def getTheWeb(self):        html = urllib2.urlopen(self.url).read()        soup = BeautifulSoup(html, 'html.parser')        context_list = soup.findAll('div', 'd_post_content j_d_post_content ')        for context in context_list:            # print context.text            self.wirteFile(context.text)    def wirteFile(self, text):        with open( 'spider.txt', 'a') as f:            f.write(text)            f.write('\n')

把刚刚找到的url传入这个方法, 然后调用Beautifulsoup吧帖子里面的文字信息找出来,最后调用python自带的write方法写入到txt里面去
基本还是重复了上一个模块的操作吧
这里写图片描述
呃。。。这个帖子貌似有点重口味。。下次换个keyword再说吧。

原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 学校官网登陆忘记密码怎么办 网上申报学校忘记密码怎么办 专转本想换专业怎么办 发生工伤没有平均公资怎么办? 单招过了不想去怎么办 22岁了还想复读怎么办 父母不让我读大专了怎么办 专升本考试失利怎么办 高考复读一年后失败了怎么办? 医保住院超过30万怎么办 北京医保超过2万怎么办 工伤公司垫付医疗费没法报销怎么办 司法考试照片耳朵露不出来怎么办 新华社毕业证照片用光了怎么办 农村父母投靠落户社保怎么办 退休后投靠父母户口怎么办 要离婚想儿子了怎么办 怀孕期间离婚了孩子户口怎么办 常州武进区怎么办居住证明 跟老公离婚了户口怎么办 离婚了不给户口怎么办 父母不给户口本迁户口怎么办 产能置换的煤矿职工怎么办 如果是单位集体户小孩读书怎么办 异地防疫不给打怎么办? 青岛市办理大龄就业困难补贴怎么办 就业登记证掉了怎么办 就业信息填错了怎么办 小孩入学父母无单位怎么办 和公婆住一起很压抑怎么办 不想和公婆一起住怎么办 在家啃老三年了怎么办 新时代卫计工作怎么办 被公司辞退不发工资怎么办 被公司辞退后不发工资怎么办 领导分配的工作太多怎么办 领导故意不给活怎么办 户口迁移后医疗社保怎么办 有了c证考b证怎么办 顶替姐姐上班已到退休年龄怎么办 年龄过60岁厂里拖欠工资怎么办