抓取网页,分析网页内容,模拟登陆网站的逻辑/流程和注意事项

来源:互联网 发布:主成分得分矩阵 编辑:程序博客网 时间:2024/05/21 14:44

个人总结

1原有抓取网页的一般逻辑

去访问一个URL地址,获得对应的网页的过程,其对应的内部机制是

准备好对应的Http请求(Http Request)+ 提交对应的Http Request

获得返回的响应(Http Response) + 获得Http Response中的网页源码

2原来分析页面都用正则表达式,不专业啊,

啥专业

Winista.Text.HtmlParser

今天最大的收获,真实方便


资料汇总

http://blog.csdn.net/ycs0501/article/details/6930035

http://blog.csdn.net/ituff/article/details/8649527

使用htmlparser采集南京价格信息网,上面

http://www.cnblogs.com/shenba/archive/2009/04/12/1434050.html

http://www.crifan.com/summary_about_flow_process_of_fetch_webpage_simulate_login_website_and_some_notice/

http://www.crifan.com/emulate_login_website_using_csharp/

原创粉丝点击