网络数据抓取
来源:互联网 发布:域名污染 编辑:程序博客网 时间:2024/05/22 09:02
http://www.dataguru.cn/article-3717-1.html 炼数成金《数据分析,展现与R语言》课程
http://blog.sina.com.cn/s/blog_40a4e96d0101nvo3.html
http://blog.sciencenet.cn/home.php?mod=space&uid=461456&do=blog&id=455211
1.原文地址:
实时股票数据接口大全
股票数据的获取目前有如下两种方法可以获取:
1. http/javascript接口取数据
2. web-service接口
1.1Sina股票数据接口
以大秦铁路(股票代码:601006)为例,如果要获取它的最新行情,只需访问新浪的股票数据
接口:
这个url会返回一串文本,例如:
22114263, 589824680, 4695, 26.91, 57590, 26.90, 14700, 26.89, 14300,
26.88, 15100, 26.87, 3100, 26.92, 8900, 26.93, 14230, 26.94, 25150, 26.95, 15220, 26.96, 2008-01-11, 15:05:32";
这个字符串由许多数据拼接在一起,不同含义的数据用逗号隔开了,按照程序员的思路,顺序号从0开始。
0:”大秦铁路”,股票名字;
1:”27.55″,今日开盘价;
2:”27.25″,昨日收盘价;
3:”26.91″,当前价格;
4:”27.55″,今日最高价;
5:”26.20″,今日最低价;
6:”26.91″,竞买价,即“买一”报价;
7:”26.92″,竞卖价,即“卖一”报价;
8:”22114263″,成交的股票数,由于股票交易以一百股为基本单位,所以在使用时,通常把该值除以一百;
9:”589824680″,成交金额,单位为“元”,为了一目了然,通常以“万元”为成交金额的单位,所以通常把该值除以一万;
10:”4695″,“买一”申请4695股,即47手;
11:”26.91″,“买一”报价;
12:”57590″,“买二”
13:”26.90″,“买二”
14:”14700″,“买三”
15:”26.89″,“买三”
16:”14300″,“买四”
17:”26.88″,“买四”
18:”15100″,“买五”
19:”26.87″,“买五”
20:”3100″,“卖一”申报3100股,即31手;
21:”26.92″,“卖一”报价
(22, 23), (24, 25), (26,27), (28, 29)分别为“卖二”至“卖四的情况”
30:”2008-01-11″,日期;
31:”15:05:32″,时间;
一个简单的JavaScript应用例子:
<script type="text/javascript">
var elements=hq_str_sh601006.split(",");
document.write("current price:"+elements[3]);
</script>
这段代码输出大秦铁路(股票代码:601006)的当前股价
current price:14.20
如果你要同时查询多个股票,那么在URL最后加上一个逗号,再加上股票代码就可以了;比如你要一次查询大秦铁路(601006)和大同煤业(601001)的行情,就这样使用URL:
查询大盘指数,比如查询上证综合指数(000001):
服务器返回的数据为:
var hq_str_s_sh000001="上证指数,3094.668,-128.073,-3.97,436653,5458126";
数据含义分别为:指数名称,当前点数,当前价格,涨跌率,成交量(手),成交额(万元);
查询深圳成指数:
对于股票的K线图,日线图等的获取可以通过请求http://image.sinajs.cn/…./…/*.gif此URL获取,其中*代表股票代码,详见如下:
查看日K线图:
分时线的查询:
日K线查询:
周K线查询:
月K线查询:
1.2 Baidu&Google的财经数据
在baidu, google中搜索某只股票代码时,将会在头条显示此股票的相关信息,例如在google搜索601006时,
第一条搜索结果如下图:
通过点击左边的图片我们发现会将此图片链接到sina财经频道上,也就是说google股票数据的获取也是从sina获取。后经抓包分析,发现google也是采用1.1中介绍的接口。
Baidu的股票数据来自baidu的财经频道
http://stock.baidu.com/
炒股有一段时间了,发现现在的股票行情软件在很多情况下并不是太好用,我炒股的时候喜欢看盘口的实时交易记录,如果同时关注多支股票的话,我用过的行情软件没有找到同时观看多支股票盘口交易数据的功能,另外在工作的时候使用目前的行情软件也不太方便。所以打算自己写个专门的行情软件,但是数据源是个最棘手的问题,经过搜索和不懈的努力,找到了两种方式:
通过webservice调用http://www.webxml.com.cn/zh_cn/web_services.aspx,该网站提供了免费的和收费的服务,但是免费的限制了每天的请求次数,在此不太实用。
调用sina专门的js服务器来解析数据,这种方式我使用了有很长一段时间,速度还是相当不错的,有时候比专门的行情软件的实时数据还快,下面是获取数据的部分代码:
3. 从新浪获取历史数据的方法:
http://blog.163.com/fluxray_sensor/blog/static/2965101520085213574929/
这几天在网上找股票的历史数据想研究研究,最后找到一个不错的接口,来自于雅虎,是在一个博客上找到的,地址为:http://www.bizeway.net/read.php?317 。不过这个不是我第一个找到的接口,最初始我是想直接解析新浪的历史交易页面,不过那个数据不是很全,只有大概近2个多月的数据。下面我把解析的脚本贴出来,主要是为了再次演示正则表达式的无穷魅力,因为解析的关键无疑是在一句正则表达式上!
$reg = "<a target='_blank'\s+href='http://biz.finance.sina.com.cn/stock/history_min.php\?symbol=sh\d{6}&date=\d{4}-\d{2}-\d{2}'>\s*([^\s]+)\s+\s*
foreach(
{
Write-Host
}
4. 编程获取所有股票的历史数据
http://hi.baidu.com/pinotwu/blog/item/0adb7b7bfc0f53e12f73b3e8.html
下面把获得方法详细写出来,希望对大家有用,对自己也是个记录。
查看了各大财经网站的情况后,发现yahoo能提供些不错的免费午餐。在yahoo财经上下载股票的“历史价格”时,能看到“XML数据下载”这一项。这比分页的HTML数据好解析多了。至于网上流行的sina股票数据接口嘛,不提供历史价格,只有当前价格(或者有我不知道)。点击链接,发现是:
http://yahoo.compass.cn/stock/xml/000001.ss_day.xml
很好。一看就明白。数据有:
<label ref="date">行情日期</label>
<label ref="open">开盘价</label>
<label ref="high">最高价</label>
<label ref="low">最低价</label>
<label ref="close">收盘价</label>
<label ref="volume">成交量</label>
<label ref="amount">成交额</label>
这下发达了!
使用python,很容易写出多线程的抓取网页程序。
线程库:threading
网页抓取:urllib2
XML解析:xml.dom
HTML解析:SGMLPaser
注意,由于数据较多,使抓取失败的因素是很多的,所以做好出错处理。一次抓不下来,我抓2次!我就是这么无耻地处理的:发现抓取失败,就循环他5次!谁让你提供了免费午餐?我有义务履行套利者的义务。用钱买数据?钱多烧的吧?(如果你发现哪款免费行情软件能下载所有股票的所有历史数据的,别告诉我)。
而在yahoo财经上,发现总市值不好抓取,不在其源代码中出现。用了ajax?也没找到相关的javascript代码。算了,对web技术咱也不太熟。
后来发现在baidu财经上提供的信息比较好抓取,就用它了。
至于公司代码嘛,一两千个,手工一个个查也很费劲。还好,交易所主页都能方便找到。这方面深交所比上交所做得好点,直接有EXCEL文件下载。
几经调试,OK。全抓下来了。相关python代码可点击下面的链接下载。
http://ishare.iask.sina.com.cn/f/7166441.html
友情附上上市公司代码文件。fetch_market_cap.py/ fetch_data.py是主程序,其它的是模块。具体见readme.
抓取来的数据都是CSV文件,用python/perl/awk/sed处理都方便至极。
买数据?笑话!将免费进行到底。
- 网络数据抓取
- 抓取网络数据
- 网络数据抓取
- Python网络数据抓取
- Upton:网络数据抓取框架
- PHP网络数据抓取方法
- 利用Jsoup抓取网络数据
- java实现网络爬虫--抓取网站数据
- 抓取网页数据、下载网络图片
- libpcap学习(二) 网络数据抓取
- PHP经典抓取网络数据方法
- Jsoup实现网络数据抓取1
- Jsoup实现网络数据抓取2
- Jsoup实现网络爬虫抓取数据
- 【网络爬虫】使用HttpClient4.3.5抓取数据
- 【网络爬虫】HttpClient抓取+解析+存储数据
- 网络抓取
- Java 根据关键字抓取google 新闻 网络数据 .*
- Python Decorators入门 (一) 【转载】
- 日期处理类DateUtil
- 大数据分析师:啥时候说Yes啥时候该说No?
- 互斥锁
- asp.net 预编译后代码的反编译成源码(演示:鹏为CRM E4版本)
- 网络数据抓取
- Java Web框架之二层模型-JSP+JavaBean
- 不同阶层数据分析师都在做什么呢
- <iOS>关于viewWithTag的一点说明
- java通过给按钮添加监听器理解接口的作用
- webService之(一)java原生态服务端
- Activity dispatchTouchEvent事件分发--总结(一)
- 循环 创建 UIButton 并添加选中状态 (单选和多选)
- CUDA 实现JPEG图像解码为RGB数据