c#中将Html中table表格替换成数组

来源:互联网 发布:淘宝抢购秒杀快速付款 编辑:程序博客网 时间:2024/05/18 00:39

1、获取网页的Document
HtmlDocument doc = browser.Document;
2、获取table标签
HtmlElementCollection e = doc.GetElementsByTagName(“table”);
for (int i = 0; i < e.Count; i++)
{
string innerHtml = e[i].InnerHtml;
FillHtml(innerHtml);
}
public void FillHtml(String html)
{
html= Regex.Replace(html, @”“, “”, RegexOptions.IgnoreCase);
html= Regex.Replace(html, @””, “”, RegexOptions.IgnoreCase);
html= Regex.Replace(html, @”“, “”, RegexOptions.IgnoreCase);
html= Regex.Replace(html, @””, “&”, RegexOptions.IgnoreCase);
//去掉 HTML 标记
html= Regex.Replace(html, @”<[/!]?[^<>]?>”, “”, RegexOptions.IgnoreCase);
//去掉空白字符
html= Regex.Replace(html, @”([\r\n])[\s]+”, “”, RegexOptions.IgnoreCase);
string[] infoArrays = html.Split(‘&’);
///这里就已经转换成数组了 亲测可成功。。。
}

以上tr td 标签没有显示出来 这个编辑器给忽略了
第一个Regex.Replace中是tr标签 要加<>
第二个Regex.Replace中是td标签 要加<>
第三个Regex.Replace中是/tr标签 要加<>
第四个Regex.Replace中是/td标签 要加<>

以上信息要是有不明白的 请在下面评论

原创粉丝点击