Bag of Words(BOW)模型
来源:互联网 发布:windows可以开发ios吗 编辑:程序博客网 时间:2024/04/27 18:58
BOW (bag of words) 模型简介
文档二:Bob also likes to play football games.
基于这两个文本文档,构造一个词典:
Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”,8. “games”, 9. “Jim”, 10. “too”}。
这个词典一共包含10个不同的单词,利用词典的索引号,上面两个文档每一个都可以用一个10维向量表示(用整数数字0~n(n为正整数)表示某个单词在文档中出现的次数):
1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]
向量中每个元素表示词典中相关元素在文档中出现的次数。不过,在构造文档向量的过程中可以看到,我们并没有表达单词在原来句子中出现的次序(这是本Bag-of-words模型的缺点之一)。
Bag of words模型最初被用在文本分类中,将文档表示成特征矢量。它的基本思想是假定对于一个文本,忽略其词序和语法、句法,仅仅将其看做是一些词汇的集合,而文本中的每个词汇都是独立的。简单说就是讲每篇文档都看成一个袋子(因为里面装的都是词汇,所以称为词袋,Bag of words即因此而来),然后看这个袋子里装的都是些什么词汇,将其分类。如果文档中猪、马、牛、羊、山谷、土地、拖拉机这样的词汇多些,而银行、大厦、汽车、公园这样的词汇少些,我们就倾向于判断它是一篇描绘乡村的文档,而不是描述城镇的。举个例子,有如下两个文档:
文档二:Bob also likes to play football games.
基于这两个文本文档,构造一个词典:
Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”,8. “games”, 9. “Jim”, 10. “too”}。
这个词典一共包含10个不同的单词,利用词典的索引号,上面两个文档每一个都可以用一个10维向量表示(用整数数字0~n(n为正整数)表示某个单词在文档中出现的次数):
1:[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]
2:[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]
向量中每个元素表示词典中相关元素在文档中出现的次数。不过,在构造文档向量的过程中可以看到,我们并没有表达单词在原来句子中出现的次序(这是本Bag-of-words模型的缺点之一)。
0 0
- Bag of Words(BOW)模型
- Bag of Words--BOW模型
- Bag of Words(BOW)模型
- Bag of Words(BOW)模型
- Bag of Words(BOW)模型
- Bag of Words(BOW)模型
- Bag of Words(BOW)模型
- Bag of Words(BOW)模型
- Bag of visual words(Bag of Words(BOW)模型)
- Bag of visual words(Bag of Words(BOW)模型)
- Bag-of-words model (BoW模型)
- BOW (bag of words) 词袋模型
- BOW(bag of words)
- Bag of Words(BOW)
- BOW(Bag of Words)词袋模型理解
- 目标识别之Bag of words(BOW)
- Bag of words模型
- Bag of words模型
- PHP读取大文件小技巧
- HDU 2674 N!mod2009
- 转载华为测试题目
- Spring MVC 教程,快速入门,深入分析
- clock(), sleep(), Sleep()在windows和Linux的区别
- Bag of Words(BOW)模型
- Unity3D - 图形性能优化
- 筷子 解题报告
- IIS设置允许下载.exe文件解决方法
- C# 生成时间戳
- [LeedCode OJ]#190 Reverse Bits
- 2016年阿里C/C++开发笔试程序题二
- tomcat部署的四种方法
- 如何在mac上安装virtualBox(虚拟机)