javaweb基于内容的图片搜索引擎(2)_后台爬图
来源:互联网 发布:mac打破折号 编辑:程序博客网 时间:2024/06/14 18:35
(源码后期会放在github上)
这一个博文主要就是爬图;
怎样爬图呢?或者从哪儿去爬图呢?这是首先要考虑的问题。
开始我想到了百度,就是百度图片,利用下面的url:
http://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=-1&st=-1&fm=result&fr=&sf=1&fmq=1460352369285_R&pv=&ic=0&nc=1&z=&se=1&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=狗
仅仅需要把最后一个改成目标检索就可以了,然后我再用jsoup来解析,但是这里就遇到了第一个问题,就是js的问题,
在经过折腾后,我发现如果单纯用jsoup,解析后的原网页仅仅是一部分,也就是我们经常是,下拉条往下,然后就有很多图片,但通过解析原网页,可以看到这样的
字符串后面就是目标图片网页:
也就是说,我能得到图片了,这个问题解决了,百度剩下的无尽的图片肯定是用js动态生成,而它的js太多,我也就没去深究了。
接着下一个问题,如何能链接到原网页,也就是我能得到这个图片出现的网页呢?
很明显,直接通过jsoup来解析,是不能得到的,百度藏的太紧了。。
但是又需要,经过多次把弄后,我决定换一个源头,用搜狗的图片--它的可以得到原网页,并且图片更多~
但是呢?搜狗的并不能通过url来直接获得所要搜索的目标图片。如图:
这个时候就要用htmlunit了,模拟搜狗搜索来“搜索”我要的图片集,这里贴出代码截图(代码后期会放到github中):
到这儿,我的图片就搜到了,再由下面的两个图片就可以知道我既可以获得源图片,又可以获得原图片网址:
也就是一个page_url和一个pic_url,这样就大功告成了。
以上就是爬图的整个过程
- javaweb基于内容的图片搜索引擎(2)_后台爬图
- javaweb基于内容的图片搜索引擎(3)_lire后台使用
- javaweb基于内容的图片搜索引擎(5)_问题的分析与后话
- javaweb基于内容的图片搜索引擎(1)_整体概括
- javaweb基于内容的图片搜索引擎(4)_前台检索以及结果
- 909422229_基于JavaWeb的poi_Excel导出
- 推荐系统_基于内容的推荐
- 推荐系统_基于内容的推荐
- 搜索引擎的相关搜索(基于struts2框架通过关键字与后台的xml资源进行匹配实现)
- 基于内容的相似图片检索
- JSP(SSH)表单上传图片以及文本内容到后台保存,上传带图片的文章新闻等
- [JavaWeb]将Web页面内容生成图片
- 搜索引擎的架构_读书笔记
- 基于Lucene/XML的站内全文检索解决方案_搜索引擎优化SEO165
- 给予Java初学者的建议(JavaWeb/后台开发)
- 基于内容的图片检索CBIR(Content Based Image Retrieval)简介
- 基于内容的图片检索CBIR(Content Based Image Retrieval)简介
- 基于内容的图片检索CBIR(Content Based Image Retrieval)简介
- Spring 之注解事务 @Transactional
- Javascript模块化编程
- poj2752——Seek the Name, Seek the Fame(KMP)
- PHP的诡异与我有太多的约会
- 数组
- javaweb基于内容的图片搜索引擎(2)_后台爬图
- MySQL 语句
- 安卓002入门
- Spring中@Transactional用法深度分析之一
- 限制button单位时间被点击的次数
- MVC实用构架设计(三)——EF-Code First(6):数据更新最佳实践
- 各种排序算法的分析与实现
- 事务的原子性
- 「产品经理」和「功能经理」的区别