爬取WAP 百度贴吧和凤凰财经的A股列表
来源:互联网 发布:软件测试工作报告 编辑:程序博客网 时间:2024/04/28 22:58
这两个爬虫都是三个月前刚开始接触PYTHON时仿照GITHUB案例写的,写的比较乱,也没有IP代理和停机TIME SLEEP,第一个用到了XPATH,后面一个用了正则表达式。到现在我依然记得第一次成功按自己的正则匹配到数据的兴奋。至于保存数据,前者是保存到了TXT文档,后者存到了数据库MYSQL的各列。
现在爬过那么网站后,我会选择REQUESTS 包和BEAUTIFUL SOUP4包,这两个方法是真的很方便。
------------
爬取WAP百度贴吧,保存到TXT
------------
爬取凤凰财经的A股列表
#!/usr/bin/env python # -*- coding:utf-8 -*- import urllib import urllib2 import re import thread import time import MySQLdb class FH: def __init__(self): self.pageIndex = 1 self.user_agent = 'Mozilla/5.0 (Windows NT 10.0; WOW64)' self.headers = {'User-Agent' :self.user_agent} self.list = [] def getPage(self,pageIndex): try: url = 'http://app.finance.ifeng.com/list/stock.php?t=ha&f=chg_pct&o=desc&p='+ str(pageIndex) request = urllib2.Request(url,headers=self.headers) response = urllib2.urlopen(request) pageCode = response.read().decode('utf-8') return pageCode except urllib2.URLError,e: if hasattr(e,"reason"): print "error",e.reason return None def getPageItems(self,pageIndex): pageCode = self.getPage(pageIndex) if not pageCode: print "page load error" return None pattern = re.compile('<td><a href="(.*?)" target="_blank">(.*?)</a></td>.*?target="_blank">(.*?)</a></td>',re.S) items = re.findall(pattern,pageCode) pagelist = [] for item in items: pagelist.append([item[0].strip(),item[1].strip(),item[2].strip()]) print(item[0]) print(item[1]) print(item[2]) conn= MySQLdb.connect( host='localhost', port = 3306, user='root', passwd='94159415', db ='movie', charset='utf8' ) cur = conn.cursor() cur.execute("insert into A_STOCK_LIST VALUES (NULL,'%s','%s','%s')"%(item[0],item[1],item[2])) cur.close() conn.commit() conn.close() return pagelist def loadPage(self): if len(self.list)<2: pagelist = self.getPageItems(self.pageIndex) if pagelist: self.list.append(pagelist) self.pageIndex +=1 def start(self): print u'正在读取' self.loadPage() nowPage = 0 pagelist = self.list[0] while nowPage<24: nowPage +=1 del self.list[0] self.loadPage() spider = FH() spider.start()阅读全文
0 0
- 爬取WAP 百度贴吧和凤凰财经的A股列表
- 和讯接管百度财经
- 雅虎财经和新浪财经股票API,中国A股实时和历史数据API获取
- R爬取新浪财经网的股票数据
- 爬取网易财经中股票的历史交易数据
- python爬取新浪财经的股票信息
- BS4模块爬取第一财经练手
- Python爬取百度贴吧的图片
- 使用Python爬取百度贴吧的图片
- python爬虫爬取百度贴吧的信息
- 代码笔记 | 自动爬取百度贴吧的网页
- 爬取百度贴吧用户的帖子
- python爬取百度贴吧的帖子
- python爬取百度贴吧的图片
- 爬取百度贴吧帖子
- python爬取百度贴吧图片
- python爬取百度贴吧
- 爬取整个百度贴吧
- 看透 Spring MVC 源代码分析与实践 —— 网站基础知识
- 关于servlet单选框,复选框取值问题
- Remote Access to IPython Notebooks via SSH
- 爱摘苹果的小明
- [BZOJ 2500]幸福的道路 树形dp+单调队列+二分答案
- 爬取WAP 百度贴吧和凤凰财经的A股列表
- aop几个常用的切入点指示符匹配规则
- 数据结构模块知识总览
- BZOJ 3319 黑白树
- HDU 1848 Fibonacci again and again (尼姆博弈+sg函数)
- ASP.NET中"/"应用程序中的服务器错误的方法
- hdu 1829(并查集)
- B
- 生产者消费者问题代码示例