python处理中文字符串

来源:互联网 发布:2016电视盒子破解软件 编辑:程序博客网 时间:2024/05/29 19:30

使用tensorflow做聊天机器人时,处理数据时遇到一个问题,需要统计常用汉字,这样就需要读取中文字符串中的单个汉字并进行统计。而适用于英文字符串的方法并不适用于中文字符串,因此需要通过下述的方法来读取中文字符串中的单个汉字字符。

s = '今天天气非常好hhh'for i in s.decode('utf-8'):    print i#结果:#今#天#天#气#非#常#好#h#h#h

如果定义字符串时标明为unicode格式,则更简单。

s = u'今天天气非常好hhh'for i in s:    print i#结果如上