设置nginx让baidu,google等爬虫抓取不同语言的页面

来源：互联网发布：个人软件定制编辑：程序博客网时间：2024/05/22 00:41

很多网站都有多语言版本，站长往往希望baidu爬虫爬中文页面，而google爬虫爬英文页面。于是，如果网站如以nginx做前端的话，站长往往会在nginx.conf中设置http头的accept-language，让爬虫重定向到指定语言页面进行抓取。但是事与愿违，google和baidu爬虫不设置http头的accept-language，导致爬虫抓取的是web.xml指定的默认页面。这样，baidu抓取中文页面，google抓取英文页面就无法同时达到。

http://www.findmaven.net 是博主的网站，是一个findjar和findmaven的搜索引擎，可以根据class名或者jar名找到包含它的jar和maven gav，以这个网站打比方

博主这样设置

1）网站的web.xml中默认页面还是设置为index_en.jsp英文页面

2）设置nginx的user_agent

if ($http_user_agent ~* (baidu|360|sogou)){

set $lang "/index_cn.jsp";

}

如果是baidu,360,sogou爬虫的话，重定向到index_en.jsp抓取中文页面；如果是google爬虫，则抓取默认页面index_en.jsp英文页面

设置后结果如下

0 0