htmlunit应用到爬虫上来解析JS的问题(javascirpt 解析)
来源:互联网 发布:墨墨背单词 知乎 编辑:程序博客网 时间:2024/04/30 04:48
我目前致力于解决怎么在搜索引擎的爬虫中的解析问题,具体是怎么解析动态网页中的URL出来,这些URL需要JAVASCRIPT的解析才能获得完整的链接信息,不是简单地找href,window.open,location然后用正则表达式就能解决。
尝试用htmlunit这个JAVA的模拟浏览器来解决这个问题,里面使用了rhino犀牛这个javascript解析引擎.(目前我用最新版2.12了)
目前我发现一个问题,就是htmlunit中的执行脚本的API,执行同一个javascript的function函数,第一次可以返回正确结果,第二次返回结果就不正确了,第二次还是调用同一个函数,不同参数,可能返回结果和第一次调用的时候一模一样,无论输入参数改成什么,这是不是它的一个BUG呢?
但是执行不同的function函数,能保证不同的结果,因为其第一次运行的结果是正确的,第二次开始就不能解析正确,感觉就像直接返回了之前调用的结果而已,这么一个软件怎么会出现这个问题,不应该啊
请问有什么解决办法??有哪位碰到过类似的问题吗?
- htmlunit应用到爬虫上来解析JS的问题(javascirpt 解析)
- HtmlUnit+Jsoup 解决爬虫无法解析执行javascript的问题
- Java爬虫进阶-HtmlUnit使用解析
- htmlunit - 解析HTML 的利器
- HtmlUnit解析动态网页并采集网页列表到Excel
- htmlUnit使用简介(爬虫)
- 通过__setup宏解析bootloader传递上来的自定义参数
- 将.Net应用移植到Linux上来的Mono工程
- 最近用htmlunit做网络爬虫 遇到拿不到初始化js加载的数据的问题 最近解决了 写个简单的例子
- python爬虫 如何解析json文件 json文件的解析提取和jsonpath的应用
- HtmlUnit设置代理并解析IFrame页面
- 网页解析利器——HtmlUnit
- js解析json问题
- 基于HTMLUnit的微博爬虫
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的自我解剖(抓取网页HtmlUnit)
- 爬虫的下载、解析、存储
- 范式约束下矩阵的一个求偏导的例子
- WinCE BSP工程文件pbcxml分析
- ActionBarSherlock使用教程
- 赋值运算符重载注意事项
- 不同RAID的作用解释
- htmlunit应用到爬虫上来解析JS的问题(javascirpt 解析)
- ajax、json与jsonp详解:什么是json、jsonp,和ajax的区别
- ListView关键技术研究 C++Builder
- 搭建Android上的高通的FastCV环境
- ATL中IUnknown接口的实现(一)
- 一首卜算,朦胧如梦
- hadoop 安装 和 ssh 服务
- Oracle数据库sqlload使用技巧
- 【人在运维囧途_07】GNU/Linux 系统资源监控神器--collectl【重点推荐】