Python java解决中文乱码问题,读取文本文件为乱码,编辑器打开正常

来源:互联网 发布:淘宝禁售关键词 采集 编辑:程序博客网 时间:2024/04/27 19:30

中文文本文件可以采用多种编码格式,常用的有:UTF-8,GBK,GB2312。但是也有可能采用其他不太常用的编码格式,如UFT-16。这时使用可视化的文本编辑软件打开文本文件,内容可以正常显示,但是使用python java等程序读取时却出现乱码,要想完美解决乱码问题可能性较低,因为文本的来源和形成过程是不可知的,有可能同一个文件中的内容混合使用了多种编码,此时解决办法是按照文本使用的主要编码对文本进行解码,并且忽略其他采用其他编码的内容在解码时出现的错误,本文针对python环境给出一种可行的办法,主要使用文件编码检测包chardet,具体使用方法如下:

#!/usr/bin/env python# -*- coding: utf-8 -*-"""@version:  1.0@author:   huludan@file:     text_file_encoding.py@time:     2017-12-25"""import chardetfile_name = "/home/huludan/Documents/text.txt"with open(file_name) as f:content = f.read()encoding = chardet.detect(content)["encoding"] # 自动检测文件编码unicode_str = content.decode(encoding, "ignore") # 解码为unicode字符串utf8_str = unicode_str.encode("UTF-8") # 重新编码位UTF-8字符串
java中文本文件读取乱码问题的解决思路同上,具体采用的文本内容编码检测包请自行查找。

阅读全文
'); })();
0 0
原创粉丝点击
热门IT博客
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 衬氟气动阀门 衬氟阀门招标 气动衬氟球阀 衬氟阀门厂家 衬氟阀门 衬氟截止阀厂家 衬氟阀门厂 气动衬氟隔膜阀 衬氟蜗轮蝶阀 衬氟 衬环 隧道衬砌台车 装饰扣 衬胶手套 衬胶防腐 衬胶钢管厂家 防腐衬胶管道 衬胶管件 衬胶钢管价格 耐磨衬胶管道 脱硫衬胶钢管 衬胶风机 衬胶阀门厂家 衬胶搅拌器 衬胶管道价格 衬胶价格 衬胶管道 衬衣搭配 衬衣尺码 白衬衣 衬衣品牌 衬衣穿法 叠衬衣 亚麻衬衣 女士衬衣 雅戈尔衬衣 男衬衣长袖 短袖衬衣女 衬衣怎么穿 潮人怎么穿衬衣 衬衣领子发黄怎么洗小窍门