Keras---text.Tokenizer:文本与序列预处理
来源:互联网 发布:贪心算法背包问题代码 编辑:程序博客网 时间:2024/05/18 02:56
keras中文文档:http://keras-cn.readthedocs.io/en/latest/preprocessing/text/
1 简介
在进行自然语言处理之前,需要对文本进行处理。
本文介绍keras提供的预处理包keras.preproceing下的text与序列处理模块sequence模块
2 text模块提供的方法
- text_to_word_sequence(text,fileter) 可以简单理解此函数功能类str.split
- one_hot(text,vocab_size) 基于hash函数(桶大小为vocab_size),将一行文本转换向量表示(把单词数字化,vocab_size=5表示所有单词全都数字化在5以内)
3 text.Tokenizer类
这个类用来对文本中的词进行统计计数,生成文档词典,以支持基于词典位序生成文本的向量表示。
init(num_words) 构造函数,传入词典的最大值
3.1 成员函数
- fit_on_text(texts) 使用一系列文档来生成token词典,texts为list类,每个元素为一个文档。
- texts_to_sequences(texts) 将多个文档转换为word下标的向量形式,shape为[len(texts),len(text)] -- (文档数,每条文档的长度)
- texts_to_matrix(texts) 将多个文档转换为矩阵表示,shape为[len(texts),num_words]
3.2 成员变量
- document_count 处理的文档数量
- word_index 一个dict,保存所有word对应的编号id,从1开始
- word_counts 一个dict,保存每个word在所有文档中出现的次数
- word_docs 一个dict,保存每个word出现的文档的数量
- index_docs 一个dict,保存word的id出现的文档的数量
3.3 示例
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
4 sequence模块
4.1 模块提供的方法
- pad_sequences(sequences, maxlen, padding=’pre’, truncating=’pre’, value=0.) 将序列填充到maxlen长度,padding取值有pre|post,value指定用何值填充的值
4.2 示例
- 1
- 2
- 3
- 4
- 1
- 2
- 3
- 4
阅读全文
0 0
- Keras---text.Tokenizer:文本与序列预处理
- Keras学习之一:文本与序列预处理
- Keras 文本预处理
- boost——字符串与文本处理tokenizer
- tokenizer
- 文本预处理
- keras text classification
- split 与tokenizer的区别
- Keras学习---数据预处理篇
- 文本挖掘预处理之向量化与Hash Trick
- keras中LSTM文本挖掘
- 文本与序列的深度模型
- Perl 文本预处理
- 文本数据预处理系统软件
- 文本预处理小结
- NLP简介 & 文本预处理
- CSS3文字与字体:text-overflow 与 word-wrap、@font-face、文本阴影text-shadow
- 文本分类与聚类(text categorization and clustering)
- JUnit-4.12使用报java.lang.NoClassDefFoundError: org/hamcrest/SelfDescribing错误
- java中组合和继承的选择使用
- URL中“#” “?” &“”号的使用方法
- MyBatis插件的使用:mybatis-generator、mybatis-plugin、mybatis-pagehelper
- Redis cluster集群
- Keras---text.Tokenizer:文本与序列预处理
- linux mint 18.2 alt+f2 快速启动计算器
- 小程序开发实现0.1
- C# 关于如何将字符串的地址赋给char*使用
- 如何制作一个完美的错误提示信息
- 用dom4j实现对象和xml文件的互相转换
- 软件项目中的角色以及英文简称
- 【python Excel 合并】python合并同一个文件夹下所有excel文件
- 利用飞秋的udp用java语言进行震动攻击