C# 网络爬虫——分析目标网站

来源：互联网发布：全景图 js 编辑：程序博客网时间：2024/06/05 04:39

这是C#课程的第一个实验，由理论课进入实战课还是有点兴奋的。

使用窗体应用程序制作一个网络爬虫，爬取牛客网（https://www.nowcoder.com/recommend）的兼职信息，不少于900条。

如图，要爬取的信息入口和其中一个信息的网页。

这里写图片描述

职位信息

但是，当我们打开第一张图片所在的html代码是，却无法找到这些兼职的链接。
这是怎么回事呢，原来，这些兼职的链接之动态加载的。
如图，打开f12的network界面，再点击“上海”，可以看到一个动态出现的链接。
这里写图片描述
打开这个链接，可以看到其内容是json数据。

其中我们可以知道每个城市的totalpage；每个职位的“id”,”internCompanyId”，而我们分析某个职位信息网站的组成：
“https://www.nowcoder.com/recommend-intern/167?jobId=1069”
便可以知道每个网站的链接：

链接=“https://www.nowcoder.com/recommend-intern/”+”internCompanyId”+“?jobId=”+“id”
至此，我们便知道了爬取网页要做哪些工作了。

阅读全文

0 0