sklearn CountVectorizer按指定字符切分字符串
来源:互联网 发布:双色球选红球算法 编辑:程序博客网 时间:2024/05/29 17:06
在默认情况下,由于英文专有名词如People’s Republic of China(中华人民共和国)、World Economic Forum(世界经济论坛)默认就是按空格分开,而CountVectorizer构建关键词词频矩阵时,默认会把World Economic Forum分成3个关键词,有时并不符合需求,需要将World Economic Forum作为一个整体来处理。可通过一个正则表达式来按指定字符匹配关键词,分开字符串。
nn=[ "People's Republic of China@中华人民共和国。", "World Economic Forum@世界经济论坛" ]from sklearn.feature_extraction.text import CountVectorizer#默认token_pattern=r"(?u)\b\w\w+\b"vectorizer=CountVectorizer(token_pattern=r"(?u)\b[^@]+\b")wordFrequencyMatrix = vectorizer.fit_transform(nn)for f in vectorizer.get_feature_names(): print f#结果#people's republic of china#world economic forum#世界经济论坛#中华人民共和国
Tips:
1.每篇文章关键词按@分开
2.设置CountVectorizer按@切分每篇文章关键词
0 0
- sklearn CountVectorizer按指定字符切分字符串
- sklearn 中的Countvectorizer/TfidfVectorizer保留长度小于2的字符方法
- sklearn之sklearn.feature_extraction.text.CountVectorizer
- Java字符串切分转义字符
- sklearn CountVectorizer\TfidfVectorizer\TfidfTransformer函数详解
- CountVectorizer
- C# 按指定字符截取字符串 Split
- 删除字符串指定字符
- 字符串删除指定字符
- delphi中按指定字符重复生成指定长度字符串
- 以指定的符号对字符串进行切分,同时保留作为切分条件的分割符
- 切分字符串
- 字符串切分
- 按指定的字符把字符串分割为字符串数组
- Lua切割中文字符串,按指定字符,切割字符串
- 切分字符串(空格,换行,回车,空字符)
- 从指定字符串中删除指定字符
- 从指定字符串删除指定字符
- woowj
- Codeforces 777E 贪心
- Spring学习及整合遇到的问题(二)
- 开发一个好项目:九、android奔溃日记记录系统
- 解析Java的多线程机制
- sklearn CountVectorizer按指定字符切分字符串
- 2017.02.25:算法02(广搜)
- Android 框架Dileber :四、SelectDialog的使用
- Tomcat的配置【详解】
- RFDBs 一款轻量级的文件型Key-Value大容量存储的数据库
- 将两个或多个应用放到同一个进程的方法
- hdu 2896 病毒侵袭 AC自动机入门题
- Java自定义注解
- Ubuntu16.04安装Anaconda2和Anaconda3