从文本中构建词向量
来源:互联网 发布:淘宝店铺设置自动回复 编辑:程序博客网 时间:2024/05/31 04:03
词表到向量的转换函数:
def loadDataSet(): postingList = [['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'wprthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] #进行词条切分后的文档集合 classVec = [0, 1, 0, 1, 0, 1] #1表示侮辱性文字,0表示正常言论 return postingList, classVecdef createVocabList(dataSet): vocabSet = set([]) #创建一个空子集 for document in dataSet: vocabSet = vocabSet | set(document) #set子集并运算,创建一个不重复词列表 return list(vocabSet)#检查某个词是否在vocabList中def setOfWords2Vec(vocabList, inputSet): #vocabList词汇表,inputSet输入文档 returnVec = [0]*len(vocabList) #创建一个与vocabList等长的0向量 for word in inputSet: if word in vocabList: returnVec[vocabList.index(word)] = 1 #相应的位置置1 else: print("the word: %s is not in my Vocabulary!" % word) return returnVeclistOPosts, listClasses = loadDataSet()myVocabList = createVocabList(listOPosts)print(myVocabList)print(setOfWords2Vec(myVocabList, listOPosts[0]))>>['park', 'flea', 'dalmation', 'to', 'stop', 'love', 'dog', 'problems', 'posting', 'help', 'garbage', 'him', 'not', 'is', 'stupid', 'mr', 'buying', 'how', 'quit', 'I', 'food', 'ate', 'steak', 'cute', 'licks', 'wprthless', 'my', 'so', 'take', 'worthless', 'maybe', 'please', 'has']>>[0, 1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1]
阅读全文
0 0
- 从文本中构建词向量
- word2vec 构建中文词向量
- word2vec 构建中文词向量
- 文本数据挖掘-----词向量
- FastText 词向量与文本分类
- 从Facebook AI Research开源fastText谈起文本分类:词向量模性、深度表征和全连接
- 文本分类(三):文本转为词向量
- Spark中组件Mllib的学习14之从文本中读取带标签的数据,生成带label的向量
- 从源码中构建XWiki
- 从图片中提取文本
- 构建向量类Vecto4
- 朴素贝叶斯:从词向量计算概率
- word2vec词向量训练及中文文本相似度计算
- word2vec词向量训练及中文文本相似度计算
- 用word2vec训练文本摘要的词向量模型
- 文本深度表示模型—word2vec&doc2vec词向量模型
- 文本深度表示模型—word2vec&doc2vec词向量模型
- 词向量转换成句向量的文本相似度计算
- void main()和int main()
- windows远程桌面连接到Linux服务器(ubuntu系统)以及解决xrdp登录界面port问题
- [知了堂学习笔记]_jQuery Ajax
- linux 安装MySql 5.7.20
- mybatis官网参考文档-XML配置_typeHandlers(版本: 3.4.6-SNAPSHOT)
- 从文本中构建词向量
- tensor 和 numpy 的互相转换
- bzoj 1005: [HNOI2008]明明的烦恼
- 【1-5】LeetCode:Python解题
- linux下内存不足导致tomcat自动关闭原因分析
- ReactiveCocoa
- Redis在Linux下的安装与配置
- 三个数之间的比较大小
- shell中字符串截取技巧