小戴人工智能PurposeAI
来源:互联网 发布:刻碟用什么软件 编辑:程序博客网 时间:2024/05/01 08:44
这个工程是小戴人工智能,是开源项目
计算机如何处理文字,视频,音频
(本软件的授权是LGPL,没有担保)
(2015-12-21 更新)
A,文字,词
用离线阅读器从网上随机下载一些中文文本,有足够的量,10G以上,这里
演示用的是很少的。(英语文本可以用同样方法处理,需要修改源程序).
取出每一句话,对每一个字以及其后的所有排列存入内存(可能是之后的2
个字,3个字,或是某个数字,在演示中最大25个汉字),如果是重复
的把记数加1。
1个字的词算5分
2个字的词应该比2个一个字的词分数大,既>5+5,算为15
3个字的词应该比2个字的词加一个字的词大,既>15+5,算为25
4个字的词应该比3个字的词加一个字的词大,既>25+5,又比2个字的词加
2个字的词大,既>15+15,算为35
(3个字的词加一个字的词的分数,应该与2个字的词加2个字的词
的分数一样 )
5个字的词依此类推是45
更准确的公式如下:
AI number(人工智能数字) :
total(分数) 公式
n1-- 5 ---- (starter) = 5
n2--15 ---- n1+n1+5 =15
n3--25 ---- n2+n1+5 =25
n4--35 ---- n3+n1+5 =35
n5--45 ---- n4+n1+5 =45
把每一句话按照各种可能的词分解开来,重复的就是词,词有它的分数,
按照总体分数最大的方案分解一句话。
把所有的话分解出来。
这么多的文本分成了词,把所有的词提取出来构成了词库。
利用这个词库重新分解每一句话,这次不是利用重复,是利用词库。
这么多的文本分成了词,把所有的词提取出来构成了词库,新的词库与
原先的有很大的不同。(最后2步可以重复几次)
这种方法准确率80%
例子程序:
(Windows XP/Vista/7 +MSYS +MINGW )
在Work_dir
download目录下是离线阅读器下载的文件
运行 f3.bat (在目录Work_dir)(列出目录)
运行 WebFind_b 目录下的程序(拷贝到Work_dir)(提取文本)
运行 Webfind39 目录下的程序(拷贝到Work_dir,包括cb.txt )(去掉标点符号)
运行 Webfind4a 目录下的程序(拷贝到Work_dir)(去掉空行,重复的行)
运行 Webfind29e 目录下的程序 (根据重复分词)
运行 WebFind23c 目录下的程序 (g++)(拷贝到目录 Work_dir)
(把所有的词汇总,形成词库)
运行 WebFind24b 目录下的程序 (根据词库分词)
运行 WebFind25c 目录下的程序 (g++)(拷贝到目录 Work_dir)
(再次形成词库)
(2014- 3-21 版本增加了对词的重复次数的支持,改进了算法 )
(2015-12-21 版本修改了AI number,修改了文档,增加了bugfix和工具软件)
B,文字,语法
把一句话按照词分解开来,不仅保留总体分数最大的,也保留分数较小的
(用字数比较小的词分解一句话),这样可能的分解数量,短的句子
有30种可能,长的句子有200种可能。这样比较精确。
把所有的词的排列组合存入内存,总共装入5个文件,从001-005,
或002-006,重复的就是语法,每个语法有他的分数,一句话按照最
大分数的语法分解。
把所有的文本分解开来。
把所有的语法收集起来就是语法库。
利用语法库重新分解所有的文本。
再次把所有的语法收集起来就是新的语法库,估计和旧语法库有很大不同。
(最后2步可以重复几次)
分解文本不仅用词库,还用语法库,准确率会提高很多,估计95%
例子程序:
获得语法库需要 1000台PC 。如果没有这么多PC,可以为计算机制作
语法课件.
Windows XP/7 +MSYS +MINGW
源程序在目录:
WebFind37c (gcc)(拷贝到目录 Work_dir)
把一句话按照词分解开来,不仅保留总体分数最大的,也保留分数较小的 ,
WebFind37_4b (g++)(拷贝到目录 Work_dir,把文件 grammer_start_number.txt 也拷贝过去)
把所有的词的排列组合存入二叉树,重复的就是语法,一句话按照最大分数的语法分解。
WebFind37_6b (g++)(拷贝到目录 Work_dir)
把所有的语法收集起来
WebFind37_7b (g++)(拷贝到目录 Work_dir)
利用语法库重新分解所有的文本
WebFind37_8b (g++)(拷贝到目录 Work_dir)
再次把所有的语法收集起来
(2014-3-21 版本增加了对语法重复次数的支持,词重复次数的支持,改进了算法 )
C,图像
* 识别图像需要超级计算机,依靠海量计算能力。
* 需要建立视频数据库
* 可以用简单的条件增加分数,物理位置相近,颜色相近,向同一个方
向移动,纹理相近,可以用这些条件分出颜色块。
* 把这些图形元素,颜色块,分成各种组合,选取物理位置相近的组合,
或者选取相对独立运动的组合。
* 有些组合形成了材质感 (见后面),比如照片,有些组合没有,比如
多数绘画。
* 增加一些条件,亮度的高低,其他物体的遮挡覆盖,放大缩小,
旋转(3D),比列的变化。
* 与视频数据库所有对象比较,分数最大的就是结果。
* 建造视频数据库可以用计算机处理1000部电影或3000部电视剧,在不
同的视频片段中寻找重复特性的物体(这个视频片段中某个颜色
块的组合与另外一个视频片段中某个颜色块的组合有相似的外形
或相似特性),重复的就是一个物体。所有的这些物体构成了视
频数据库,用这个视频数据库重新分解视频,分解为不同的物体,
再次构成视频数据库,估计是这样的建造过程。
* 把多个物体组合在一起构成了场景,这是沙滩,这是森林,这是厨房,
这是办公室,识别这些场景可以帮助识别物体。
* 这样,词,语法,视频都有相似的处理过程。
D,音频
* 需要建立音频数据库,存储声音对象。
* 可以用1000部电影或3000部电视剧来建造。
* 音频是波浪,不同的频率,估计频率相近的可以增加分数,或音量
相近,或同时发生的音频可以增加分数。依靠这些条件分离声
音对象。
*3d 电影
在最开始的时候,计算机没有视频数据库,所以我们需要3d电影,就象人有2个
眼睛,也象每一种有眼睛的动物,我们没有很多3d电影,而且他们不是完
全3d的,他们是2.5d 或者2.75d,如果他们不够好,我们需要3d照相机拍摄
大量3d视频。
* 材质感
每一种物体的表面都有特定的材质感 ,
颜色,纹理,条纹,
光滑程度,细腻度,粗糙程度,颗粒度,
反光性,透明性,表面3D立体纹理,
特性重复的,形成一个概念,即某种材质感 ,包括 金属 木头 槊料 布 纸张
玻璃 水,
*课件
需要为计算机制作很多的课件,就象一个母亲教她的孩子,这是什么,那是什么。
*需要精确的语言为计算机描述物体
需要精确的语言为计算机描述物体,IBM的科学家说人类的语言是多么的含糊
不清,同样的一句话,在这种情况下是这个意思,在那个情况下是那个
意思,计算机可以使用精确的语言,减少出错的可能性,这样的语言可
以用在课件上,
(人一秒钟只能说1,2个词,计算机之间的连接可以是100Mbps)
*课件描述对象和计算机处理不同视频片段获得对象的区别
集中和分散,快和慢,简单和复杂,有人教和自己琢磨。
*精确语言制作课件,计算机反复和其他课件比较,逐渐明白各个概念的含义,
后面附上自然语言,告诉计算机这个对象(几个对象)如何用人类的语
言描述,人类语言的含义(人类语言描述的是什么)。
*如果课件不够明确,计算机可以提问。
下载源程序: http://download.csdn.net/detail/daipozhi1967/9477006
0 0
- 小戴人工智能PurposeAI
- 人工智能中的小思考
- 人工智能数据处理的小知识
- java语言编写的人工智能小测试
- 小总结大数据和人工智能
- 关于人工智能,不得不知的小知识
- 关于人工智能的小知识总结
- 人工智能小例子-人脸识别
- 《人工智能》
- 人工智能!
- 人工智能
- 人工智能
- 人工智能
- 人工智能
- 人工智能
- 人工智能
- 人工智能
- 人工智能
- YII2通过Composer安装方法
- 洛谷P1126 机器人搬重物
- 洛谷P1157 组合的输出
- JSP跳转页面的几种方式
- 洛谷P1189 逃跑的拉尔夫(SEARCH)
- 小戴人工智能PurposeAI
- 洛谷P1141 01迷宫
- 洛谷P1238 走迷宫
- 洛谷P1220 关路灯
- 解决 Android 软键盘挡住输入框的问题
- 如何通过网页方式将jar包上传到nexus
- 使用appium测试微博
- 洛谷P1294 高手去散步
- UVa232 Crossword Answers——C语言版本