Python处理中文文本字符时提取某个汉字或字符的方法
来源:互联网 发布:淘宝大麦网 编辑:程序博客网 时间:2024/05/22 15:37
最近学了python扒取网页论坛信息,其实python在处理字符串和文本时,其封装好的函数功能很强悍的,何以很方便的调用处理信息。废话不多说,我在爬取论坛信息时遇到一个回帖信息,上边二楼及以下楼层回帖信息上标注比如“2楼网友回复”“3楼网友回复”等等,我要获取楼层数,说白了就睡获取第一个字符,然后转换为int型就OK了,可是在网页源码中get_text(),扒取后获得的是 '2楼网友回复',是文本信息,我们可以用python里的repr()函数或str()函数,repr()返回的是一个对象的"官方"字符串表示(对python比较友好),绝大多数情况下可以通过求值运算(使用内建函数eval())重新得到该对象。即 obj= eval(repr(obj)),也有情况下,不能够通过eval()得到原来的对象,str() 生成一个对象的可读性好的字符串表示(对用户比较友好),它返回的结果通常无法用于eval()求值,但很适用于print语句输出。
再回到原来的问题,str1=“2楼回复”,str1.decode(‘utf-8’)进行解码,获得unicode形式的编码字符,然后repr(str1.decode(‘utf-8’))就实现了转换成了字符串形式,这时你可以用len函数求长度,获取其中某一个字符,对我而言我只需提取‘2’这个字符,int(repr(str1.decode(‘utf-8’)))转换成int型即可,运行结果见下附图。
0 0
- Python处理中文文本字符时提取某个汉字或字符的方法
- python--汉字字符处理
- 字符窜中提取中文的方法
- C# substring处理中文,让汉字二个字符的处理方法
- python处理中文字符
- Python处理中文字符
- 中文字符处理 python
- python处理中文字符
- 正则提取汉字字符
- Python检测文本字符编码的方法
- python处理中文字符的一点经验
- python re 处理中文字符的问题
- 中文字符,汉字处理,避免乱码
- C++读写汉字,C++处理中文字符
- MSSQL注入时对中文字符的处理方法
- Python中文字符处理解决方案
- python中文单字符处理
- URL中包括中文或&等特殊字符的处理方法
- SecureCRT SSH登录Linux乱码问题解决方案
- php中使用Ajax时出现Error(c00ce56e)的详细解决方案
- java 23种常用设计模式之解析器模式(Interpreter)
- cocos2dx 3.3 android开发环境搭建
- Nokia Lumia1330/1335首评发布,Nokia Lumia 1330/1335后壳现身 将支持LTE-A
- Python处理中文文本字符时提取某个汉字或字符的方法
- mupdf-qt
- POJ 1185 炮兵阵地 (状压DP)
- 电子商务系统的设计与实现(十四):菜单高亮
- openwrt Ubuntu14.04编译流程
- 前端验证js框架——jsValidate.js
- Linux学习笔记(4)-软件包管理
- "Host 'localhost' is not allowed to connect to this MySQL server" 的原因及解决办法
- Nokia Lumia 920亲测《CUBE 'n' TUBE》评测 空间感十足,3D光影