爬虫入门-待续
来源:互联网 发布:淘宝客服聊天话术技巧 编辑:程序博客网 时间:2024/06/05 04:42
毕设需要处理专利的语料库,现学爬虫写了爬虫的脚本:
目的网站:http://www.caship.ac.cn/search/,在网站上键入搜索对象,得到的结构页面如下:
查看其源代码有:
<li class="bottom_right"> <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=1' style='font-weight:900;text-decorationi:none;color:#ff9900' >1</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=2' style='text-decoration:none;color:#fff' >2</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=3' style='text-decoration:none;color:#fff' >3</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=4' style='text-decoration:none;color:#fff' >4</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=5' style='text-decoration:none;color:#fff' >5</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=6' style='text-decoration:none;color:#fff' >6</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=7' style='text-decoration:none;color:#fff' >7</a> | <a href='?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=8' style='text-decoration:none;color:#fff' >8</a> </li> </ul>
注意到page=*最大为8,而结果最多也有8页。
而搜索页面的url如:http://www.caship.ac.cn/search/search/?guobie=%E4%B8%AD%E5%9B%BD%E4%B8%93%E5%88%A9&w=query&wd=%E6%89%8B%E6%9C%BA&s1=%E6%90%9C+%E7%B4%A2&listtype=&page=4
其中page=XX为第几页搜索结果,
0 0
- 爬虫入门-待续
- python scrapy 爬虫 未完待续
- ERP入门,待续...
- ERP入门2,待续...
- ERP入门3,待续...
- dojo入门(未完待续)
- 1#HBase入门(待续)
- git入门(未完待续)
- 【爬虫笔记】爬虫入门
- 爬虫入门
- 爬虫入门
- 爬虫入门
- ckeditor入门(待续……)
- Python爬虫 | Python爬虫入门
- python爬虫入门简单爬虫
- 爬虫入门:urllib爬虫实例
- 搜索引擎爬虫的设计要点,初稿,未完待续
- python爬虫——爬取链家房价信息(未完待续)
- ASPxGridView 导出和部分属性设置
- Android Studio:Error:(1, 0) Your project path contains non-ASCII characters. This will most likely c
- Handler事件分发机制
- 自定义用作头像的选择器
- Java Swing简单控件实例(JButton,JLabel,JMenuBar,JComboBo)
- 爬虫入门-待续
- hdu 4193(单调队列)
- RecyclerView重写网格的布局管理器
- 并发队列ConcurrentLinkedQueue和阻塞栈LinkedBlockingQueue用法和阻塞队列ArrayBlockingQueue
- PsSetCreateProcessNotifyRoutine进程黑名单
- ios微信点击超链接,去掉半透明黑色框效果
- HDFS快照管理
- apk去广告
- Android开发中使用CRC校验