基于tfidf 以及 lsi 的文本相似度分析
来源:互联网 发布:cgi python .value 编辑:程序博客网 时间:2024/05/22 02:53
本文主要为了计算文档之间的相似度。标准语聊为我们训练模型所需的,用户语料则用来测试与标准语聊的相似度
1、 数据预处理部分,见注释
对标准语聊进行处理如下
ws = open('d:/sentence.csv','r',encoding='gbk')times = 0import reimport jieba standard_data = [] ###标准语料map_value = {}seed = 0from zhon.hanzi import punctuationfor i in ws.readlines(): times += 1 if times == 1: continue newline = i.strip().split(',') newline = re.sub("[A-Za-z0-9\[\`\~\!\@\#\$\^\&\*\(\)\=\|\{\}\'\:\;\'\,\[\]\.\<\>\/\?\~\!\@\#\\\&\*\%\-\_]", "", newline[0]) newline = re.sub(' ','',newline) newline = re.sub("[%s]+" %punctuation, "", newline) standard_data.append(list(jieba.cut(newline))) seed += 1 map_value[seed-1] = newlinews.close()
2、tf-idf
from gensim import corpora, models, similarities # 生成字典和向量语料 dictionary = corpora.Dictionary(standard_data) # 通过下面一句得到语料中每一篇文档对应的稀疏向量(这里是bow向量) corpus = [dictionary.doc2bow(text) for text in standard_data] # corpus是一个返回bow向量的迭代器。下面代码将完成对corpus中出现的每一个特征的IDF值的统计工作 tfidf_model = models.TfidfModel(corpus) corpus_tfidf = tfidf_model[corpus] ####文档相似性的计算map_value_user = {}import jiebaimport reraw_data = []w = open('d:/user_content_v2.txt','r',encoding= 'utf-8')start = 0for line in w.readlines(): newline = line.strip() newline = re.sub(' ','',newline) newline2 = jieba.cut(newline) newline2 = list(newline2) map_value_user[start] = newline raw_data.append(newline2) start += 1w.close()index = similarities.MatrixSimilarity(corpus_tfidf) vec_bow =[dictionary.doc2bow(text) for text in raw_data] #把用户语料转为词包all_reult_sims = []times_v2 = 0 ###对每个用户语聊与标准语聊计算相似度for i in vec_bow: #直接使用上面得出的tf-idf 模型即可得出商品描述的tf-idf 值 sims = index[tfidf_model[i]] sims = sorted(enumerate(sims), key=lambda item: -item[1]) result_sims = [] for i,j in sims: result_sims.append([map_value_user[times_v2],map_value[i],j]) times_v2 += 1 all_reult_sims.append(result_sims[:20])
3、lsi
lsi = models.LsiModel(corpus_tfidf) corpus_lsi = lsi[corpus_tfidf] ####文档相似性的计算map_value_user = {}import jiebaimport reraw_data = []w = open('d:/user_content_v2.txt','r',encoding= 'utf-8')start = 0for line in w.readlines(): newline = line.strip() newline = re.sub(' ','',newline) newline2 = jieba.cut(newline) newline2 = list(newline2) map_value_user[start] = newline raw_data.append(newline2) start += 1w.close()index = similarities.MatrixSimilarity(corpus_lsi) vec_bow =[dictionary.doc2bow(text) for text in raw_data] #把商品描述转为词包all_reult_sims = []times_v2 = 0 for i in vec_bow: #直接使用上面得出的tf-idf 模型即可得出商品描述的tf-idf 值 sims = index[lsi[tfidf_model[i]]] sims = sorted(enumerate(sims), key=lambda item: -item[1]) result_sims = [] for i,j in sims: result_sims.append([map_value_user[times_v2],map_value[i],j]) times_v2 += 1 all_reult_sims.append(result_sims[:20])
阅读全文
0 0
- 基于tfidf 以及 lsi 的文本相似度分析
- 使用Gensim建立bow TFIDF LSI模型对文本相似度计算
- tfidf算法+余弦相似度算法计算文本相似度
- 文本分析系列——基于相似哈希信息指纹的文本相似度算法
- 词语相似度计算:4、提取文本tf、tfidf特征
- 计算两篇文档的余弦相似度(tfidf)
- lsi计算文档相似度
- gensim的LSI模型来计算文档的相似度
- gensim的LSI模型来计算文档的相似度
- 基于词的编辑距离文本相似度计算
- Gensim-TFIDF,LDA,LSI实战
- 文本分析之TFIDF/LDA/Word2vec实践
- [python] 基于k-means和tfidf的文本聚类代码简单实现
- [python] 基于k-means和tfidf的文本聚类代码简单实现
- 基于k-means和tfidf的文本聚类代码简单实现
- 《基于相似度分析的拼写校正器》
- HGSM——基于层级结构图的相似度分析
- 中文文本相似度算法分析与研究之改进算法----一种结合文本主题网络构建和语义分析的文本相似计算方法
- hadoop启动步骤
- Codeforces Round #425 (Div. 2)
- 你有22款高逼格免费字体请下载!
- 滑动css
- 关于toString方法的重写工具ToStringBuilder
- 基于tfidf 以及 lsi 的文本相似度分析
- Struts:@Action注解方法中如何调用另一个@Action注解的方法
- STM32之使用库函数驱动LED灯
- Xmind带你细数70,80,90三代人的不同
- Xml DI 和 注解DI
- cmake 添加头文件目录,链接动态、静态库
- Java中常见异常
- 【最小生成树】(一) kruskal求解 POJ1287
- 【面经笔记】函数调用过程