java抽取文件中的简体中文
来源:互联网 发布:plc 单片机 区别 编辑:程序博客网 时间:2024/06/05 19:24
java判断Unicode编码形式的文件中的汉字的例子很多,但是判断gb2312编码形式的文件中的汉字的例子很少,从网上找来一个共享一下,试验过,很好用。目的是判断gb2312编码形式的文件中的汉字,这里指的汉字不包括中文标点符号等01-09区中的特殊符号等。
public
}
给参数str赋值:str="、啊任何人决。〔比照〕年制定"
输出结果为:
、false
啊true
任true
何true
人true
决true
。false
〔false
比true
照true
〕false
年true
制true
定true
结果分析:该程序实现了判断中文字,但是对于中文标的符号等都进行了过滤。
//String
//String
[\xb0-\xf7]|[\xa0-\xfe]
gb2312一二级汉字区“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE
GB2312补充知识:
GB 2312中对所收汉字进行了“分区”处理,每区含有94个汉字/符号。这种表示方式也称为区位码。
01-09区为特殊符号。
16-55区为一级汉字,按拼音排序。
56-87区为二级汉字,按部首/笔画排序。
10-15区及88-94区则未有编码。
“高位字节”使用了0xA1-0xF7(把01-87区的区号加上0xA0),“低位字节”使用了0xA1-0xFE(把01-94加上 0xA0)。 由于一级汉字从16区起始,汉字区的“高位字节”的范围是0xB0-0xF7,“低位字节”的范围是0xA1-0xFE,占用的码位是 72*94=6768。其中有5个空位是D7FA-D7FE
- java抽取文件中的简体中文
- 抽取RPM SRC包中的文件
- 实现抽取java中的注释的代码
- 使用fsdbdebug抽取fsdb文件中的信号列表
- 改变ogg抽取进程检查点文件中的检查点
- 改变ogg抽取进程检查点文件中的检查点--相关实验
- 抽取wiki内容以及简体中文转换为繁体中文
- java繁体简体中文转换
- java环境下从apk文件中抽取应用图标
- java抽取PDF指定范围页做新的PDF文件
- 抽取网页中的主要内容
- 抽取参考文献中的标题
- 抽取word中的背景图
- 将繁体文件转成简体中文
- c语言文件抽取
- java读写应用(为了舒适的阅读小说,将一个2Mtxt文档中的小说的每个章节抽取出来分别放在html文件中)
- Java抽取网页信息
- 怎样用java抽取数字
- Active Directory
- 通向架构师的道路(第四天)之Tomcat性能调优-让小猫飞奔
- cloud foundry vmc 部分api
- Wordpress下创建自定义新页面的方法
- 在Win7的UAC下检查程序是否具有Admin权限及应用程序的权限切换
- java抽取文件中的简体中文
- 闲着无聊刷道题
- char array string
- 单片机:时钟周期,机器周期,指令周期
- iphone--UIWebView中打开或禁用超链接
- 文件上传下载功能的实现
- JAVA中的Vector, array, list, arraylist.的基本区别
- 使用jquery.form.js上传图片或文件
- 使用复制存储过程执行解决“事务复制中的表大量更新导致无法及时同步”的问题