asp.net 动态抓取网站数据(方法一)
来源:互联网 发布:软件售前工程师 编辑:程序博客网 时间:2024/04/30 13:45
方法一:抓取网站本身就是要正则表达式去匹配的,然后把你想要的信息用正则表达式匹配出来在写到数据库去的 Demo: public static string GetNewsUrl(string strUrl) { string str = ""; HttpWebRequest request = (HttpWebRequest)WebRequest.Create(strUrl); request.Timeout = 30000; request.AllowAutoRedirect = false; request.KeepAlive = false; request.ProtocolVersion = HttpVersion.Version11; request.Headers["Accept-Language"] = "zh-cn"; request.UserAgent = "mozilla/4.0 (compatible; msie 6.0; windows nt 5.1; sv1; .net clr 1.0.3705; .net clr 2.0.50727; .net clr 1.1.4322)"; try { WebResponse response = request.GetResponse(); System.IO.Stream stream = response.GetResponseStream(); System.IO.StreamReader sr = new System.IO.StreamReader(stream, Encoding.GetEncoding("UTF-8")); //System.IO.StreamReader sr = new System.IO.StreamReader(stream, Encoding.GetEncoding("gb2312")); str = sr.ReadToEnd(); stream.Close(); sr.Close(); } catch (Exception e) { str = e.ToString().Replace("/n", "
"); } return str; } 上面是一个方法:在调用的时候给个参数 如: string strUrl=“此处为你要抓取的网站链接”; 这个是正则表达式匹配表的(table 、tr、td等等) private string GetValue(string str) { string s = DelSpan(str, 1);//删除,,字符,(注:由内向外删除,先删除离最终要提取数据最近的那些字符标签,然后再由内向外删除其相应的字符标签) //string parten = @"]*)>[^>]*";//查找以 开始到以结束的字符 string parten = @"]*>(?:(?:/s|/S)*?(?=)(?(]*>(?:/s|/S)*?(?:|(?:(?:]*>(?:/s|/S)*?(?:/s|/S)*?)*?))(?:/s|/S)*?|))*"; Regex reg = new Regex(parten, RegexOptions.IgnoreCase | RegexOptions.Compiled); MatchCollection mc = reg.Matches(s); //收集以 开始到以结束的字符 s = ""; foreach (Match m in mc) { s += m.Value.Replace(" ", "").Trim() + "|"; } s = DelSpan(s, 2).Trim();//删除所有""之间的字符,即 之间的字符 s = s.Replace("", "");//删除所有字符 if (s.IndexOf('|') == 0) s = s.TrimStart('|'); return GetValues(s); }update
- asp.net 动态抓取网站数据(方法一)
- asp.net 动态抓取网站数据(方法二)
- asp.net抓取数据(一)
- Asp.net数据抓取
- Asp.net数据抓取
- ASP.NET动态数据网站实战
- ASP.NET动态数据网站实战
- 三种asp.net 抓取网页源代码,推荐方法一
- c#网页数据抓取/asp.net网页数据抓取
- ASP.NET动态网站开发培训-14.DataList控件(一)
- ASP.NET动态网站开发培训-21.论文管理系统(一、前期准备)
- ASP.NET动态网站开发培训-33.互动论坛制作(一、前期准备)
- asp.net的抓取网页数据源码
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- 数据抓取之(一):抓取北京交通管理网站的车辆违法信息(已完结)
- ASP.NET抓取网页内容的方法
- ASP.NET动态网站开发培训-02.搭建ASP.NET 3.5环境的方法和步骤
- ASP.NET MVC5 网站开发实践(一) - 框架(续) 模型、数据存储、业务逻辑
- VC基于对话框的程序中,按ESC键窗口不关闭
- FGS 视频均等质量流化算法
- POJ1106(计算几何 判断折线方向)
- Repeater控件嵌套--多级目录
- iOS 4.2.1版iPad绿毒Win完美越狱教程
- asp.net 动态抓取网站数据(方法一)
- SecureCRT突然假死的问题(Ctrl+S)
- Android之Tab分页标签的实现方法--------采用ActivityGroup和GridView的结合
- Spring+Hibernate配置多数据源
- 2011 4-15 1:30
- jquery.js没有权限
- 忙忙碌碌
- Android学习之——SD卡操作
- arm移植过程(写的非常好,受益匪浅)(转发)