文本处理总结

来源:互联网 发布:比特币交易平台源码 编辑:程序博客网 时间:2024/06/06 01:03

理论基础

【算法与数学】阮一峰的网络日志

  • TF-IDF与余弦相似性的应用(一):自动提取关键词
  • TF-IDF与余弦相似性的应用(二):找出相似文章
  • TF-IDF与余弦相似性的应用(三):自动摘要

LDA原理介绍

【通俗易懂,原理】LDA-math-汇总 LDA数学八卦

  • 【经典】LDA-math-LDA 文本建模

【百度百科】LDA (LDA文档主题生成模型)
主题模型-LDA浅析
【4种】如何确定LDA的topic个数

LDA评价

LDA主题模型评估方法–Perplexity
LDA结果的实际意义: 取一些Topic下的前几名词,然后与所在方向相结合进行分析,确定其合理性。

文本预处理

总体流程

【科学网】文本分类的数据预处理相关知识介绍
【CSDN】文本挖掘预处理的流程总结

字符串处理

正则表达式 - 教程
python 正则表达式

相关的工具

自然语言工具

langdetect下载(工具,判断语言)
【stackoverflow】NLTK and language detection
【Python】Python文本处理中用langid工具包来对文本进行语言检测与判别
词形还原工具对比

NLTK工具

词干提取(stemming)和词形还原(lemmatization)
词形还原工具对比

Gensim

【CSDN】Gensim官方介绍翻译
Gensim 官方Tutorial
Gensim 官方API 文档
pythonNLP-Gensim安装
Python自然语言处理(一)–利用NLTK自带方法完成NLP基本任务
【我爱自然语言处理】如何计算两个文档的相似度(一)
【我爱自然语言处理】如何计算两个文档的相似度(二)
完整示例】【我爱自然语言处理】如何计算两个文档的相似度(三)
gensim使用方法以及例子(对语料,字典解释的不错)

相似性

语义相似度算法简介
向量空间模型(VSM)算法 一种简单的文本相似度算法

代码示例

pythonNLP-文本相似度计算实验汇总
基于gensim的文本主题模型(LDA)分析

1 0
原创粉丝点击
热门问题 老师的惩罚 人脸识别 我在镇武司摸鱼那些年 重生之率土为王 我在大康的咸鱼生活 盘龙之生命进化 天生仙种 凡人之先天五行 春回大明朝 姑娘不必设防,我是瞎子 10个月宝宝还没长牙怎么办 超敏c反应蛋白>5怎么办 怀孕才两个月肚子就大了怎么办 腰椎间盘突出腿疼厉害怎么办 打了促排卵针不排卵怎么办 孕34周隐血1十是怎么办 窦性心动过缓伴不齐怎么办 09年买的万科b怎么办 苹果5s手机打不开机怎么办 剖腹产后一年半后意外怀孕怎么办 考驾照挂了5次了怎么办 怀孕咳嗽一个月了好不了怎么办 孕妇餐后2小时血糖高怎么办 我想开网店但我不懂该怎么办 新开的淘宝店没生意怎么办 做肝胆b超喝了水怎么办 红米1s刷机失败怎么办 红米3x手机太卡怎么办 红米2a线刷失败怎么办 红米2用不了4g怎么办 小米红米3s卡顿怎么办 魅蓝4g网速很慢怎么办 lol装到c盘了会怎么办 急用钱又借不到怎么办小额信贷 花呗分期买手机额度不够怎么办 2个月婴儿脸皴了怎么办 掉头发怎么办怎样能让头发变多 11个月的宝宝大便干燥怎么办 1岁宝宝又拉又吐怎么办 怀孕八个月了不想要了怎么办 奶水不够宝宝又不喝奶粉怎么办 手机恢复出厂设置密码忘了怎么办 5s锁屏密码忘了怎么办 深圳房子卖了户口没地方迁怎么办 宝马1系130i烧机怎么办 小孩流清鼻涕怎么办最简单方法 孕3个月胎盘低置怎么办 孩子判逆不听家长的话该怎么办 香港购物超5000被海关扣怎么办 浅色衣服被深色衣服染色了怎么办 金立手机微信不能发语音怎么办