sklearn CountVectorizer按指定字符切分字符串

来源：互联网发布：双色球选红球算法编辑：程序博客网时间：2024/05/29 17:06

　　在默认情况下，由于英文专有名词如People’s Republic of China(中华人民共和国)、World Economic Forum(世界经济论坛)默认就是按空格分开，而CountVectorizer构建关键词词频矩阵时，默认会把World Economic Forum分成3个关键词，有时并不符合需求，需要将World Economic Forum作为一个整体来处理。可通过一个正则表达式来按指定字符匹配关键词，分开字符串。

nn=[    "People's Republic of China@中华人民共和国。",    "World Economic Forum@世界经济论坛"    ]from sklearn.feature_extraction.text import CountVectorizer#默认token_pattern=r"(?u)\b\w\w+\b"vectorizer=CountVectorizer(token_pattern=r"(?u)\b[^@]+\b")wordFrequencyMatrix = vectorizer.fit_transform(nn)for f in  vectorizer.get_feature_names():    print f#结果#people's republic of china#world economic forum#世界经济论坛#中华人民共和国

　　Tips:
　　　1.每篇文章关键词按@分开
　　　2.设置CountVectorizer按@切分每篇文章关键词

0 0