sklearn CountVectorizer按指定字符切分字符串

来源:互联网 发布:双色球选红球算法 编辑:程序博客网 时间:2024/05/29 17:06

  在默认情况下,由于英文专有名词如People’s Republic of China(中华人民共和国)、World Economic Forum(世界经济论坛)默认就是按空格分开,而CountVectorizer构建关键词词频矩阵时,默认会把World Economic Forum分成3个关键词,有时并不符合需求,需要将World Economic Forum作为一个整体来处理。可通过一个正则表达式来按指定字符匹配关键词,分开字符串。

nn=[    "People's Republic of China@中华人民共和国。",    "World Economic Forum@世界经济论坛"    ]from sklearn.feature_extraction.text import CountVectorizer#默认token_pattern=r"(?u)\b\w\w+\b"vectorizer=CountVectorizer(token_pattern=r"(?u)\b[^@]+\b")wordFrequencyMatrix = vectorizer.fit_transform(nn)for f in  vectorizer.get_feature_names():    print f#结果#people's republic of china#world economic forum#世界经济论坛#中华人民共和国

  Tips:
   1.每篇文章关键词按@分开
   2.设置CountVectorizer按@切分每篇文章关键词

0 0
原创粉丝点击