为什么gbk编码常用抽取正则表达式无法抽取"嘚瑟"的“嘚”字
来源:互联网 发布:老米cps淘宝客网站 编辑:程序博客网 时间:2024/05/16 07:01
根据"GBK汉字内码扩展规范编码表"——http://ff.163.com/newflyff/gbk-list/
可以查到"嘚"字的编码为874e
而我们常用的gbk汉字抽取正则表达式为[\x80-\xff][\x80-\xff]
以python正则为例,抽取汉字代码如下:
regex = re.compile(r"[\x80-\xff][\x80-\xff]")
words = re.findall(regex, text)
这样是无法抽取出"嘚"字的,需要将regex改为:
regex = re.compile(r"[\x80-\xff][\x80-\xff\x4e]")
即可
另外,在linux系统上查看一个字的汉字编码的简单方式为
echo "嘚" | xxd
显示结果为:
0000000: 874e 0a
其中0a为\n字符,874e即“嘚”字的gbk编码
1 0
- 为什么gbk编码常用抽取正则表达式无法抽取"嘚瑟"的“嘚”字
- HtmlParser处理gbk编码网页抽取乱码的问题
- 利用正则表达式抽取句子
- 正则表达式抽取网页内容
- 使用正则表达式抽取字符串中数据的样例
- Java简化正则表达式的使用(抽取工具类)
- Python中文文本信息抽取中常见的正则表达式
- 用正则表达式抽取括号内容
- 正则表达式抽取特定字符窜
- java正则表达式抽取html数据
- 利用正则表达式抽取网页信息
- java正则表达式抽取html数据
- kettle 正则表达式 批量 抽取Excel
- Android常用类的抽取
- Beautiful soup常用的抽取规则
- GoldenGate 抽取进程的常用添加方法
- 用正则表达式对网页进行有效内容抽取
- 正则表达式 抽取网页中的e-mail地址
- 问题六十八:着色模型(shading model)(1)——反射模型(reflection model)(1)——概述
- Linux kernel 释出3.18.48,或将是3.18最后一版
- 工厂模式
- 你越对, 得罪的人越多!
- Android SDK Manager 和 AVD Manager使用(进行安卓虚拟机的配置)
- 为什么gbk编码常用抽取正则表达式无法抽取"嘚瑟"的“嘚”字
- 资深人士对大数据的解析
- android google 分屏 多窗口 popup无法显示故障分析
- Python机器视觉编程常用数据结构与示例
- 单例模式
- 1199
- 字符串的展开
- C# 6 与 .NET Core 1.0 高级编程
- 建造者模式