程序博客网 > 老米cps淘宝客网站

为什么gbk编码常用抽取正则表达式无法抽取"嘚瑟"的“嘚”字

来源：互联网发布：老米cps淘宝客网站编辑：程序博客网时间：2024/05/16 07:01

根据"GBK汉字内码扩展规范编码表"——http://ff.163.com/newflyff/gbk-list/

可以查到"嘚"字的编码为874e

而我们常用的gbk汉字抽取正则表达式为[\x80-\xff][\x80-\xff]

以python正则为例，抽取汉字代码如下：

regex = re.compile(r"[\x80-\xff][\x80-\xff]")

words = re.findall(regex, text)

这样是无法抽取出"嘚"字的，需要将regex改为:

regex = re.compile(r"[\x80-\xff][\x80-\xff\x4e]")

即可

另外，在linux系统上查看一个字的汉字编码的简单方式为

echo "嘚" | xxd

显示结果为：

0000000: 874e 0a

其中0a为\n字符，874e即“嘚”字的gbk编码

1 0

老米cps淘宝客网站

老米cps淘宝客网站

原创粉丝点击

热门问题 老师的惩罚人脸识别我在镇武司摸鱼那些年重生之率土为王我在大康的咸鱼生活盘龙之生命进化天生仙种凡人之先天五行春回大明朝姑娘不必设防，我是瞎子北回归线多少度北回归线是多少度 k分度热电偶分度表 pt1000分度表 k分度热电偶对照表热电偶k分度表分度表热电偶分度表手机版 0度到600度眼镜度数表配200度近视眼镜价目表体温表多少度正常铜康铜热电偶分度表分心术的功效与作用核桃分心木泡水核桃分心木价格分心木价格分心木多少钱一斤分心木的功效核桃分心木图片分心木图片核桃分心木作用分心木是什么核桃分心木的作用分心木作用核头分心木的作用核桃分心木怎么吃分心木泡酒核桃的分心木分心木的作用分心木怎么泡水喝分心木有什么作用核桃里面的分心木分心木泡水喝核桃分心木泡水喝禁忌核桃分心木怎么泡水喝分心木泡水喝的功效与作用核桃分心木泡水喝的功效核桃分心木有什么功效核桃分心木如何泡水喝核桃里的分心木有什么功效核桃分心木的作用和功效