C#第五次作业——正文提取

来源:互联网 发布:端游 页游区别 知乎 编辑:程序博客网 时间:2024/05/19 05:38

正文提取软件-Html2Artical

下载了提取正文软件Html2Artical后,运行VS里面的例程,打开软件界面:


输入老师要求的第一个网址:http://blog.csdn.net/quailquailquail/article/details/45821703

点击提取正文后显示如下:

正文能正确提取

下图是带标签的正文


这是原始网页:


正文文本:


第二个网址是老师的QQ空间:

http://user.qzone.qq.com/303727350/blog/1430870007

但是并不能提取到正文

然而带标签正文可以提取:


原始网页也可以打开:


第三个网站也遇到类似情况:

http://www.cnblogs.com/jasondan/p/4145305.html


原始网页可以打开:


0 0