Python彻底解决采集网页乱码问题
来源:互联网 发布:tensorflow vgg 微调 编辑:程序博客网 时间:2024/05/18 13:45
实战十几万网页采集后的修正版:
python彻底解决网页采集乱码问题,准确率 99%
def download_page(indexurl, timeout=10): """ 下载网站数据并返回 :param indexurl: :param timeout: :return: """ try: res = urllib2.urlopen(indexurl, timeout=timeout) code = res.getcode() info = res.info() charset = None if info: m = re.findall(r'charset=([a-zA-Z0-9_-]+)', ' '.join(info.headers), re.I) if m: charset = str(m[0]).lower() if code == 200: html = res.read() if not charset and html: charset = pick_charset(html) # 如果完全采不到 charset,默认使用 gbk 反正都是乱码 if not charset or charset == "gb2312": charset = 'gbk' if charset and charset != 'utf-8': try: html = html.decode(charset).encode('utf-8') except: pass else: html = '' return (code, res.geturl(), charset, html ) except urllib2.URLError, e: return str("%r" % e) except socket.timeout, e: return str("%r" % e) except: return str(sys.exc_info())
注意引入必要的包,如果有不足的地方,欢迎指正。
0 0
- Python彻底解决采集网页乱码问题
- 彻底解决IE网页乱码问题 [转]
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决程序乱码问题
- 彻底解决中文乱码问题
- 彻底解决中文乱码问题
- wap中的乱码问题,彻底解决!
- mysql中文乱码问题彻底解决
- 彻底解决 HtmlParser 乱码问题! 总结
- 邮件乱码问题彻底解决办法
- 扩展Gcd含义及用途
- leecode 解题总结:374. Guess Number Higher or Lower
- android框架Xutils
- stack,deque,queue对比
- CSS3 媒介查询
- Python彻底解决采集网页乱码问题
- java守护线程和非守护线程
- 机器学习(周志华)习题解答-决策树(4.1-4.10)
- 【HDU 1597】find the nth digit(模拟)
- 【计算机视觉】人脸识别总结
- 蓝绿部署、A/B测试以及灰度发布
- VB利用PictureBox控件播放GIF动画
- unity官方教程Space shooter学习笔记-01
- 自己写GoBinarySearchTree 二叉查找树