简单的网页采集程序
来源:互联网 发布:win7网络连接不上 编辑:程序博客网 时间:2024/05/22 10:31
最近开发一个项目,甲方提出在另一个网站中采集信息列表并跳转,于是就简单做了一个信息列表采集功能
/// <summary> /// 采集视频列表 /// </summary> /// <param name="sender"></param> /// <param name="e"></param> public static void getVideos(object sender, System.Timers.ElapsedEventArgs e) { try { string strHtml=GetWholeHtmlCode("<span style="font-family: Arial, Helvetica, sans-serif;">http://www.xxx.com/</span>");
<span style="white-space:pre"></span>//包含列表的内容截取 strHtml = strHtml.Substring(strHtml.IndexOf("<div class='x#xxd'>")); strHtml = strHtml.Substring(0, strHtml.IndexOf("<div id=Footer>")); Regex reg = new Regex(@"(?is)<a[^>]+?href=(['""]?)(?<url>[^'""\s>]+).+?title=(['""]?)(?<title>[^'""\s>]+)\1[^>]*>(?<text>(?:(?!</?a\b).)*)</a>"); string str = ""; MatchCollection mc = reg.Matches(strHtml); foreach (Match m in mc) { try { string url = m.Groups["url"].Value; string title = m.Groups["title"].Value; if (!url.Contains("http:/")) { url = "http://www.xxx.com/" + m.Groups["url"].Value; } // 如果url已经添加了,则中断循环 string sql = " SELECT [Path] FROM [ArticInfo] where [ArticPath]='"+url+"'"; object obj = SqlHelper.ExecuteScalar(Art_conn, CommandType.Text, sql); if (obj != null) { continue; }
<span style="white-space:pre"></span>//添加到表中 AddHtmlToArt(url, title); } catch { continue; } } } catch { } }
<pre name="code" class="csharp">/// <summary> /// 根据url获取html /// </summary> /// <param name="sender"></param> /// <param name="e"></param>
public static string GetWholeHtmlCode(string url) { string strHtml = string.Empty; StreamReader strReader = null; HttpWebResponse wrpContent = null; try { HttpWebRequest wrqContent = (HttpWebRequest)WebRequest.Create(url); wrqContent.Timeout = 300000; wrpContent = (HttpWebResponse)wrqContent.GetResponse(); if (wrpContent.StatusCode != HttpStatusCode.OK) { strHtml = "Sorry, the web page is not run successful"; } if (wrpContent != null) { strReader = new StreamReader(wrpContent.GetResponseStream(), Encoding.UTF8); strHtml = strReader.ReadToEnd(); } } catch (Exception e) { strHtml = e.Message; } finally { if (strReader != null) strReader.Close(); if (wrpContent != null) wrpContent.Close(); } return strHtml.Replace("\r", "").Replace("\n", ""); }
0 0
- 简单的网页采集程序
- 一段简单的采集程序。模拟登陆,采集页面
- 简单的网站数据采集程序(测试)
- 数据采集程序(网页小偷)
- 一个简单的网页程序
- 一个简单的有分页采集功能的php采集程序--自制的哦
- 简单易用粗暴的文章内容采集程序
- 基于PHP的简单采集数据入库程序
- Python 3.5 编写简单的百度贴吧采集程序
- 数据采集程序(网页小偷)点滴心得
- 数据采集程序(网页小偷)点滴心得
- 数据采集程序(网页小偷)点滴心得
- php获取网页内容方法 采集程序
- 采集一个网页的数据
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- ASP网站数据采集程序制作:一个采集入库生成本地文件的几个FUCTION(可用来生成HTML静态网页)
- PHP采集程序常用的采集函数
- 采集网页
- android 常用方法集合
- nginx、fastCGI、php-fpm关系梳理
- qt的一些技巧
- STL系列十一 随机三趣题——随机重排,文件中随机取一行,生成N个随机数。
- 一个窗口包含文本行和标签,在文本行中输入一段文字并且按回车键后,这段文字显现是在标签上
- 简单的网页采集程序
- linux复习笔记第一篇 - 可能会很混乱,因为是看之前的笔记粘贴一遍
- Quartz 2.x 与老版本使用比较
- CMake手册详解:(二)生成器篇
- mysql集群
- 很好的一篇 关于Case When Then Else End文章,转载的。
- iOS - 版面实现记录四
- Java锁消除
- 浅谈java及应用