批量提取 sitemap.xml 中的链接生成 sitemap.txt (Python脚本)

来源:互联网 发布:济南网络电视台重播 编辑:程序博客网 时间:2024/04/19 13:22


题目读起来很绕,是这样的,我的小站用了dedecms的一个插件,它能生成若干个 google sitemap 的 .xml 文件,然而却没有对应的利于百度收录的插件可使用。在网上查了一下,说是要提取这些 .xml 文件中的链接出来,生成一个对应的 sitemap.txt 才行,然后以如下格式放到 robot.txt 中

Sitemap: http://your site/sitemap.xml. http://your site/sitemap.txt

可是一个一个手动提取其中的链接太麻烦了,我用了20分钟写了一个 python 脚本,方便这个操作,当然程序还很简陋,但也足够我用了。

现在的功能是:从网站下载 sitemap.xml 文件,提取其中的链接生成 sitemap.txt 然后再传回网站,最后生成一个 robot.txt 作为参考。因为文件较多,我用了一个线程池,加快处理速度。

这个小脚本是在 linux 下写的,测试运行良好,我没有在 win32 平台下测试,但也应该能够工作。




脚本中引用的 common 模块中存放了一个线程池(抄来的 -O-),代码如下:


 

 

原创粉丝点击