设置nginx让baidu,google等爬虫抓取不同语言的页面
来源:互联网 发布:个人软件定制 编辑:程序博客网 时间:2024/05/22 00:41
很多网站都有多语言版本,站长往往希望baidu爬虫爬中文页面,而google爬虫爬英文页面。于是,如果网站如以nginx做前端的话,站长往往会在nginx.conf中设置http头的accept-language,让爬虫重定向到指定语言页面进行抓取。但是事与愿违,google和baidu爬虫不设置http头的accept-language,导致爬虫抓取的是web.xml指定的默认页面。这样,baidu抓取中文页面,google抓取英文页面就无法同时达到。
http://www.findmaven.net 是博主的网站,是一个findjar和findmaven的搜索引擎,可以根据class名或者jar名找到包含它的jar和maven gav,以这个网站打比方
博主这样设置
1)网站的web.xml中默认页面还是设置为index_en.jsp英文页面
2)设置nginx的user_agent
if ($http_user_agent ~* (baidu|360|sogou)){
set $lang "/index_cn.jsp";
}
如果是baidu,360,sogou爬虫的话,重定向到index_en.jsp抓取中文页面;如果是google爬虫,则抓取默认页面index_en.jsp英文页面
设置后结果如下
0 0
- 设置nginx让baidu,google等爬虫抓取不同语言的页面
- URLConnection实现爬虫(解决重定向、设置cookie才能抓取页面等问题)
- 搞笑的google,baidu页面动态集合。。
- Google 翻译让你的网站拥有不同语言版本
- baidu google yahoo抓取我的新站
- Google爬虫如何抓取JavaScript的?
- Google 爬虫如何抓取 JavaScript 的?
- python爬虫:抓取页面上的超链接
- 如何让google,baidu,Yahoo收录你的网站
- nginx 设置403、404、等错误页面
- 如何让搜索引擎google、yahoo、bing和baidu收录更多页面
- Baidu,Google的力量
- 网络爬虫:抓取页面图片
- 使用jsoup爬虫抓取页面
- python 爬虫抓取页面图片
- 使用jsoup爬虫抓取页面
- 使用jsoup爬虫抓取页面
- Python实现抓取页面上链接的简单爬虫分享
- logback logback.xml常用配置详解(二)<appender>
- logback logback.xml常用配置详解(三) <filter>
- 详细解析Dynamo存储引擎
- logback 常用配置详解(序)logback 简介
- URLConnection跟HTTPClient的比较
- 设置nginx让baidu,google等爬虫抓取不同语言的页面
- 云存储-Google的云存储技术细节 GFS
- linux 下 ifcfg-eth0 配置
- Clojure专题:文件处理
- 《java编程思想系列之7》 内部类
- python for android : 显示图片
- Linux中ifcfg-eth0配置参数说明
- 射线与平面的相交检测(Ray-Plane intersection test)
- 第一周工作心情