程序博客网 > 汇率换算js代码

使用file_get_contents()获取sohu博客乱码问题

来源：互联网发布：汇率换算js代码编辑：程序博客网时间：2024/05/17 03:28

问题：

$html=file_get_contents('http://xuxiaonian.blog.sohu.com/160201697.html');var_dump($html);

最后打印出来的结果都是乱码，经测试，新浪博客不会出现此问题，只有搜狐博客有次问题

原因：

获取的头部当中有Content-Encoding: gzip说明内容是GZIP压缩的解压后就能得到内容了
PHP内置的file_get_contents不支持GZIP 可以试试CURL 好象能处理GZIP

array(11) {
[0]=>
string(15) "HTTP/1.1 200 OK"
[1]=>
string(35) "Content-Type: text/html;charset=gbk"
[2]=>
string(17) "Connection: close"
[3]=>
string(13) "Server: nginx"
[4]=>
string(35) "Date: Fri, 29 Oct 2010 00:36:51 GMT"
[5]=>
string(26) "Vary: Host,Accept-Encoding"
[6]=>
string(14) "Pragma: Public"
[7]=>
string(26) "Cache-Control: max-age=300"
[8]=>
string(38) "Expires: Fri, 29 Oct 2010 00:41:53 GMT"
[9]=>
string(22) "Content-Encoding: gzip"
[10]=>
string(14) "FSS-Cache: HIT"
}

解决办法：

1.定义一位外国高人写的gzip解码函数gzdecode():

function gzdecode($data) { $len = strlen($data); if ($len < 18 || strcmp(substr($data,0,2),"/x1f/x8b")) { return null; // Not GZIP format (See RFC 1952) } $method = ord(substr($data,2,1)); // Compression method $flags = ord(substr($data,3,1)); // Flags if ($flags & 31 != $flags) { // Reserved bits are set -- NOT ALLOWED by RFC 1952 return null; } // NOTE: $mtime may be negative (PHP integer limitations) $mtime = unpack("V", substr($data,4,4)); $mtime = $mtime[1]; $xfl = substr($data,8,1); $os = substr($data,8,1); $headerlen = 10; $extralen = 0; $extra = ""; if ($flags & 4) { // 2-byte length prefixed EXTRA data in header if ($len - $headerlen - 2 < 8) { return false; // Invalid format } $extralen = unpack("v",substr($data,8,2)); $extralen = $extralen[1]; if ($len - $headerlen - 2 - $extralen < 8) { return false; // Invalid format } $extra = substr($data,10,$extralen); $headerlen += 2 + $extralen; } $filenamelen = 0; $filename = ""; if ($flags & 8) { // C-style string file NAME data in header if ($len - $headerlen - 1 < 8) { return false; // Invalid format } $filenamelen = strpos(substr($data,8+$extralen),chr(0)); if ($filenamelen === false || $len - $headerlen - $filenamelen - 1 < 8) { return false; // Invalid format } $filename = substr($data,$headerlen,$filenamelen); $headerlen += $filenamelen + 1; } $commentlen = 0; $comment = ""; if ($flags & 16) { // C-style string COMMENT data in header if ($len - $headerlen - 1 < 8) { return false; // Invalid format } $commentlen = strpos(substr($data,8+$extralen+$filenamelen),chr(0)); if ($commentlen === false || $len - $headerlen - $commentlen - 1 < 8) { return false; // Invalid header format } $comment = substr($data,$headerlen,$commentlen); $headerlen += $commentlen + 1; } $headercrc = ""; if ($flags & 1) { // 2-bytes (lowest order) of CRC32 on header present if ($len - $headerlen - 2 < 8) { return false; // Invalid format } $calccrc = crc32(substr($data,0,$headerlen)) & 0xffff; $headercrc = unpack("v", substr($data,$headerlen,2)); $headercrc = $headercrc[1]; if ($headercrc != $calccrc) { return false; // Bad header CRC } $headerlen += 2; } // GZIP FOOTER - These be negative due to PHP's limitations $datacrc = unpack("V",substr($data,-8,4)); $datacrc = $datacrc[1]; $isize = unpack("V",substr($data,-4)); $isize = $isize[1]; // Perform the decompression: $bodylen = $len-$headerlen-8; if ($bodylen < 1) { // This should never happen - IMPLEMENTATION BUG! return null; } $body = substr($data,$headerlen,$bodylen); $data = ""; if ($bodylen > 0) { switch ($method) { case 8: // Currently the only supported compression method: $data = gzinflate($body); break; default: // Unknown compression method return false; } } else { // I'm not sure if zero-byte body content is allowed. // Allow it for now... Do nothing... } // Verifiy decompressed size and CRC32: // NOTE: This may fail with large data sizes depending on how // PHP's integer limitations affect strlen() since $isize // may be negative for large sizes. if ($isize != strlen($data) || crc32($data) != $datacrc) { // Bad format! Length or CRC doesn't match! return false; } return $data; }

2.调用此函数将获得的数据解码

$html=file_get_contents('http://xuxiaonian.blog.sohu.com/160201697.html');$html=gzdecode($html);

iehttpheaders,httpwatch,FF的LiveHTTPHeaders,,FF的firebug,FF的httpfox都可以看头部信息的，还有其它很多工具。

汇率换算js代码

汇率换算js代码

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子摇杆模拟器曲柄摇杆机构动画摇杆机拳皇97摇杆教学双摇杆手柄拳皇97出招表摇杆带图街机拳皇2002摇杆出招表拳皇连招技巧摇杆拳皇97出招表摇杆恐龙快打无限币摇杆版摇啊笑啊桥摇啊笑啊桥绵羊队摇啊笑啊桥第一季摇笑桥猛虎队摇啊笑啊桥猛虎队摇啊笑啊桥2019 笑啊摇啊桥摇啊笑啊桥猎豹队摇呀摇摇到外婆桥顺口溜摇桥摇啊笑啊桥绵羊队女生照片摇到外婆桥摇桥绵羊队摇啊笑啊桥张梦圆摇啊摇桥绵羊队个照片摇啊摇摇到外婆桥童谣摇啊笑啊桥绵羊队图片摇啊摇摇到外婆桥赵鹏摇欢摇欢北倾摇滚摇滚萝莉摇滚红与黑摇滚歌曲集安摇滚摇滚护士摇滚乐迈克学摇滚摇滚藏獒摇滚莫扎特摇滚年代