python爬取网页公告并批量存入至mysql中
来源:互联网 发布:c语言添加线程 编辑:程序博客网 时间:2024/06/05 16:07
开发环境:python 2.7.6,mysql 5.5-44
#coding=utf-8import urllib2import urllibimport stringimport reimport MySQLdbreq=urllib2.Request("http://jw.nju.edu.cn/")response=urllib2.urlopen(req)myPage=response.read()#temp=myPage.decode('utf8')#xx="<ul><li>(.*)<span class='top'>"#pattern = re.compile(xx) #results = list(pattern.findall(temp))#for result in results : # print result #置顶公告pattern=re.compile("<ul><li>(.*)<span class='top'>")myMatch=pattern.search(myPage,re.S)sa=myMatch.group(1)BgnPartRex = re.compile("\'") #将页面源码中 ' 匹配掉sa=BgnPartRex.sub("",sa)tongzhi=re.compile('title=(.*?)>')lianjie=re.compile('FType=WZSY&(.*?)title')title=tongzhi.findall(sa,re.S) #返回listprint type(title[0])url=lianjie.findall(sa,re.S) #非置顶公告pattern2=re.compile("<ul><li>(.*?)</span></li></ul>")myMatch=pattern2.search(myPage,re.S)sa=myMatch.group(1)BgnPartRex = re.compile("(.*)<span class='top'>")sa=BgnPartRex.sub("",sa)BgnPartRex = re.compile("\'")sa=BgnPartRex.sub("",sa)tongzhi2=re.compile('title=(.*?)>')lianjie2=re.compile('FType=WZSY&(.*?)title')title2=tongzhi2.findall(sa,re.S) url2=lianjie2.findall(sa,re.S) zhiding=[]feizhiding=[]for i in range(len(title)): zhiding.append((0,title[i],url[i]))zhiding.reverse() #逆序存放,方便后面读取时新数据在最前for m in range(len(title2)): feizhiding.append((0,title2[m],url2[m]))feizhiding.reverse() conn=MySQLdb.connect(host='localhost',user='root',passwd='',db='python',charset='utf8')cur=conn.cursor()cur.executemany('insert into zhiding values(%s,%s,%s)',zhiding) #批量存放cur.executemany('insert into title values(%s,%s,%s)',feizhiding)conn.commit()cur.close()conn.close()
在进行爬取时一定要注意观察页面源码,如在区分置顶帖和非置顶帖时,因置顶帖后面带有 [置顶],本想通过匹配[置顶]来区分置顶帖和非置顶帖,但是汉字匹配以及其他一些问题耗费了我很多时间,而后再仔细看了一下页面源码,发现置顶帖都有一个标签:<span class='top' ,这样一来就方便了许多。
cur.executemany('insert into zhiding values(%s,%s,%s)',zhiding)等价于
for i in range(len(zhiding)) cur.execute('insert into zhiding values(%s,%s,%s)',zhiding[i])
0 0
- python爬取网页公告并批量存入至mysql中
- Python3爬取网页数据存入MySQL
- python 爬取网页汉字存入list后输出乱码
- python爬取数据并将其存入mongodb
- python第一个爬虫小程序以及遇到问题解决(中文乱码)+批量爬取网页并保存至本地
- python爬取的小说存入mysql数据库
- python获取本人关注列表并批量存入本地mysql数据库
- Python3.6实现scrapy框架爬取数据并将数据插入MySQL与存入文档中
- python爬网页存入本地文件
- Python抓取网页链接,存入mysql
- python网络爬虫抓取动态网页并将数据存入数据库MySQL
- python 爬取csdn网页并保存博客到本地
- Python爬取并分析网页【基本版】
- 简单的python爬取网页字符串内容并保存
- python动态网页爬取——四六级成绩批量爬取
- python爬取网页
- Python 网页爬取
- python获取网页page数,同时按照href批量爬取网页
- xcode增加快捷键(不用插件)
- Android getActionBar() 为null解决方案
- Javascript_实现动态添加分类信息
- 知识空间诊断系统--ALEKS
- 链表中倒数第K个节点
- python爬取网页公告并批量存入至mysql中
- 快速求素数
- 学习JS(2)
- Tickeys - Liunx 给键盘配上音效的软件
- URAL 1486 Equal Squares 二维字符串Hash + 邻接表分组
- 数据结构学习--树(一)
- Leetcode|Reorder List
- Struts2中使用OGNL调用静态方法及静态属性
- JS 之 onfocus事件和onblur事件