python第三天_网络爬虫

来源:互联网 发布:java app支付宝demo 编辑:程序博客网 时间:2024/06/06 04:57

上一篇文章是早上起来补充昨天的。

妈蛋昨晚居然梦到了解决办法。

对于获取的整个url信息 用正则去截取,每一次截取到的信息还要再作为条件去截取,把这个当为先决条件。= =我发誓这个是昨晚做梦梦到的。。。。蛋碎。


代码如下

# -*- coding: cp936 -*-
#http://movie.douban.com/tag/%E5%8A%A8%E4%BD%9C?start=0&type=T
import urllib2
import re
import sys


# 获取当前系统编码格式
type = sys.getfilesystemencoding()
j = 0
text=''
url = 'http://tieba.baidu.com/f?kw=%D1%F8%D5%FD%D6%D0%D1%A7'
for j in range(0,2000):
        content = urllib2.urlopen(url).read()
        match = re.findall(r'.*?'+text+'<a .*?class="j_th_tit">(.*?)</a>', content)
        for i in range(0,2000):
                text=match[i]
                print match[i]
print len(match)




>>> ================================ RESTART ================================
>>> 
★★▂▃▄↑ 养正中学吧 欢迎你 ↑▄▃▂ ★★
Oers&#039;  Weekly topic: 你最想听到的一句话
龙叔科普:眼镜的选择和购买
昨晚爪机被偷了!
专业召唤妹子三十年
12级了耶!
写下你最想对某人说的一句话…
初三学弟跪求没有笔记的语文书本
养正吧新人,纯签到8级,求罩。
-累觉不爱怎么办-
好少人
养正搬新校区没?
【Kenny 】来吧!都来说出你们的择偶标准吧!
蔡清祥老师,我大学都快毕业了,可是我还是好想你啊!你都结婚了!
养正惊现帅气军人!姑娘们给你们发个福利!!!爆料帅气空军军人
吐槽
#我的贴吧10年足迹,共同成长,深藏功与名
有必要水一帖。
好久不水,别来无恙
2013年养正足球联赛
学妹求书急用呀。美女帅哥帮帮忙呀。
这是要下霜的节奏咩?
学长即将迎来外科学院内考试,快来rp若干发!
养正最大的土豪是谁?
养正中学2013-2014学年十佳歌手录制顺序公布
大家好我是新人请多关照。
家里明信片略多,送你们一些可好
隐退声明,顺便祝贺自己13级了。
kimi版林黛玉,美爆了
求高一听力前的英文歌,貌似很好听的样子
你们这些小初中,快快快出来冒泡。
好辛酸
那些收藏了3000余年的各种“搞笑 内涵”图片
关于最佳班主任的统计
哪来那么惊悚的叫声
养中男子天团魅力不输E叉圈!
偷偷发个贴,然后看高数~
喜欢SU HO 也就是金俊绵的 看过来
广播你心声,大声说出来!!
【求助】家住磁灶的小伙伴们。买砖头。。。
请允许我道声生日快乐。
有今天生日的吗
爆吧全过程
大帅比
寻此游戏的制霸
【求组队】求组个队伍
祝校花生日快乐
唔,欧阳生日快乐!
跪求高二英语期中考答案 那位大神原帮我。
娱乐,不许百度!这些烂大街的句子看你怎么接


Traceback (most recent call last):
  File "G:\pythonCode\crawler1.0.py", line 16, in <module>
    text=match[i]
IndexError: list index out of range
>>> 




结果也跟我想的一样。nice

原创粉丝点击