NCrawler爬虫在应用中一些问题
来源:互联网 发布:linux 禁止访问某个ip 编辑:程序博客网 时间:2024/06/04 18:06
1)HTML 处理使用的是htmlagilitypack,其中HtmlEntity.DeEntitize函数处理文本中的转义字符后, " " 字符映射为UNICODE 160,影响某些文本的分词处理。目前没有好解决方案,我的方法是在调用函数前把这个串过滤掉,毕竟这个串是在文本中出现最多的。
2)关于深度搜索时候,添加到队列中的URI,默认情况是:“不是本站点的子链接,都过滤,不处理”,这个处理应该加个BOOL选项,决定是否调用IsExternalUrl(Uri uri)函数;为了改动小,可以在此函数里判断返回结果。
并且,IsHostMatch(this Uri uriBase, Uri uri)函数存在逻辑问题。
比如:
http://map.baidu.com
http://www.baidu.com
函数认为不是一个网站,但是有些情况下,还是需要作为同一个区域进行搜索的。
临时解决方法为:
string scheme = uriBase.GetLeftPart(UriPartial.Scheme);
string hostName = uriBase.GetLeftPart(UriPartial.Authority).Substring(scheme.Length);
hostName = hostName.TrimStart("www.".ToCharArray());
int off = uri.Host.IndexOf(hostName, StringComparison.OrdinalIgnoreCase);
return off > -1 ? false : true;
- NCrawler爬虫在应用中一些问题
- NCrawler 开源爬虫框架学习
- NCrawler 开源爬虫框架学习
- NCrawler中使用Cookie登录
- Kettle 在应用中遇到的一些问题和解决方法
- Camera应用在调试中遇到的一些问题
- 爬虫一些问题
- 爬虫过程中经常遇到的一些棘手问题
- 在c++中构造函数和析构函数的应用中出现的一些问题
- MapReduce在搜索引擎中一些应用
- 爬虫的一些问题汇总
- BeautifulSoup在爬虫中的应用
- 在C++中一些小问题
- 在Jupyter中遇到的一些问题
- 在开发中一些非技术问题
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(1)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(2)
- C#开源爬虫NCrawler源代码解读以及将其移植到python3.2(4)
- Ajax之同步请求
- 视频播放控制
- 常成员函数返回指针的类型
- 稀疏图;两点间的最短路径;Johnson算法;只描述一下思路;
- 一个简单的 li/ul/li结构的二级导航菜单
- NCrawler爬虫在应用中一些问题
- 开始学习数据结构了,呵呵!
- ssh集合认识
- Ogre 摄象机
- 回家。。。很多人起的很早
- AMD主板下VMWare虚拟机出现USB控制器初始化失败的解决方法
- C#总结
- 软件系统质量的评判标准
- 微软ajax很强大