python判断网页编码的三种方式

来源:互联网 发布:淘宝买东西寄到国外 编辑:程序博客网 时间:2024/06/05 08:07

python判断网页编码的三种方式

一, 使用urllib模块的getparam方法  #有时不准确

>import urllib>fopen1 = urllib.urlopen('http://www.baidu.com').info()>print fopen1.getparam('charset')# baidu
  • 1
  • 2
  • 3
  • 1
  • 2
  • 3

二, 使用chardet模块

>import chardet >import urllib>#先获取网页内容>data1 = urllib.urlopen('http://www.baidu.com').read()>#用chardet进行内容分析>chardit1 = chardet.detect(data1)>print chardit1['encoding'] # baidu
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

三, 利用BeautifulSoup模块方法

>from bs4 import BeautifulSoup>import urllib2>content=urllib2.urlopen(url)#这里url是你需要获取的网页>soup=BeautifulSoup(content)>print soup.original_encoding #这里的输出就是网页的编码方式
0 0