Python采集实例2

来源：互联网发布：家庭媒体中心软件编辑：程序博客网时间：2024/05/20 10:15

上一篇说道我们要采集http://www.gg4493.cn/的数据，接下来：

步骤2：对于每一个链接，获取它的网页内容。

很简单，只需要打开urls.txt文件，一行一行地读出来就可以了。
也许这里会显得多此一举，但是基于我对解耦的强烈愿望，我还是果断地写到文件里了。后面如果采用面向对象编程，重构起来是十分方便的。
获取网页内容部分也是相对简单的，但是需要把网页的内容都保存到一个文件夹里。
这里有几个新的用法：
复制代码代码如下:

os.getcwd()#获得当前文件夹路径
os.path.sep#当前系统路径分隔符（是这个叫法吗？）windows下是“\”，linux下是“/”
#判断文件夹是否存在，如果不存在则新建一个文件夹
if os.path.exists('newsdir') == False:
os.makedirs('newsdir')
#str()用来将某个数字转为字符串
i = 5
str(i)
有了这些方法，将字符串保存到某个文件夹下不同的文件就不再是一件困难的事了。
步骤3：枚举每一个网页，根据正则匹配获得目标数据。
下面的方法是用来遍历文件夹的。
复制代码代码如下:

#这个是用来遍历某个文件夹的
for parent, dirnames, filenames in os.walk(dir):
for dirname in dirnames
print parent, dirname
for filename in filenames:
print parent, filename
遍历，读取，匹配，结果就出来了。
我使用的数据提取的正则表达式是这样的：
复制代码代码如下:

reg = '<div class="hd">.*?<h1>(.*?)</h1>.*?<span class="pubTime">(.*?)</span>.*?<a .*?>(.*?)</a>.*?<div id="Cnt-Main-Article-QQ" .*?>(.*?)</div>'
其实这个并不能匹配到所有内容，因为上面的新闻有两种格式，标签有一点差别，所以只能提取出一种。
另外一点就是通过正则表达式的提取肯定不是主流的提取方法，如果需要采集其他网站，就需要变更正则表达式，这可是一件比较麻烦的事情。
提取之后观察可知，正文部分总是会参杂一些无关信息，比如“<script>...</script>”“<p></p>”等等。所以我再通过正则表达式将正文切片。
复制代码代码如下:

def func(str):#谁起的这个名字
strs = re.split("<style>.*?</style>|<script.*?>.*?</script>|&#[0-9]+;||<.*?>", str)#各种匹配，通过“|”分隔
ans = ''
#将切分的结果组合起来
for each in strs:
ans += each
return ans
这样网页上面的正文基本全部能够提取出来。
到此整个采集也就结束了。

阅读全文

0 0