数据科学:机器学习VS. 基于规则的系统
来源:互联网 发布:linux 查看ssh端口 编辑:程序博客网 时间:2024/05/29 13:28
数据科学:机器学习VS. 基于规则的系统(规则系统)
作者:Karthik Guruswamy, TERADATA
原文地址:
http://www.forbes.com/sites/teradata/2015/12/15/data-science-machine-learning-vs-rules-based-systems/#2715e4857a0b2c12cec35be6
译者:张某人ER
博客地址:http://blog.csdn.net/xinxing__8185
在过于的25年中,开发者在传统数据仓库上建立基于内嵌规则的实际操作模型。对于领域专家和顾问来讲,(数据(业务)中的)规则是相对容易归纳并易于开发的,只要依赖于他们的经验,并按其最佳实践,即可编码实现自动化的决策。
对于一个正在运行的系统,当有100个应用场景时,就需要写100条规则来应对。随着时间的推移,增长的需求,将需求更多的规则。这种方式的弊端是什么?想想税收法规和其它的规章制度!事情会变得庞大而笨重,尤其是我们已经跟不上数据的变化及其带来的规则的改变时。
在现行的遗留系统上,很少会有人能够真正的了解或是衡量其上的规则是否有效,或是其他规则例外的数目。无论是在归属服务【注释1】、反欺诈、网络安全等领域,在面对大数据(volume 数据量大velocity增长速度快 complexity and variety 数据复杂而具有多样性)时,传统的基于规则的系统则变得捉襟见肘。
用什么来替代基于规则的系统?
如果所有的情形都是已知的,遇到何种情形便有相应的应用决策,那么基于规则的系统会很高效地运行。在过去,由于数据相对结构化和约束性,所以制定规则相对容易。而如今,数据更加趋向于多结构化和无结构化。全面的规则制定变得不再那么可行了。
机器学习出现了。如果将数据分为二类------好和差,或分类为A,B,C,D等类别,机器学习算法能够辅助建立其中的规则。这一步叫做训练,而训练的结果是建立模型。而后,预测算法将会使用模型来分类未知数据,并作出合理的决策制定。
评价(Evaluation)vs 评分(Scoring) ----- 确定的(deterministic) vs 概率的(Probabilistic)
在基于规则的系统里,举个例子----“如果词Y出现在词X后,且距离不超过10,则出发一个警告”;这可以看做是一种确定性的方法。含有大量AND/OR的逻辑结构,也会出现在规则系统中。 但是一旦规则集中缺少了某个应用场景,则需要编程者(重新)编写相应的规则。
相较于此,机器学习系统在学习阶段从数据中学习(知识,规则)。而在预测阶段,当未知数据的得分(Scoring)大于某个阈值时,会触发相应警告。模型学习和评分规则的方式是非常多的,但其应都由数据驱动。当模型不正确时,或存在“学习问题”时,机器学习系统同样会得到较高的误判率。
机器学习算法中的例子
机器学习算法正以不同的方式代替着规则。一些算法可以很好的处理数值数据,一些处理文本数据或到处Yes/No的结论。目前在数据科学社区比较流行的算法有,决策树,隐马尔科夫,逻辑回归,贝叶斯,支持向量机,随机森林和深度学习。
为什么机器学习系统从长远看会更好
随着时间的推移,不断维护着一个规则系统,将会过于复杂,并需要过高的花费,因此变得不切实际且无法实现。
使用机器学习,可以通过清洗和预处理数据、改变或组合相应算法、调整算法参数等方式,迭代地获得不错的结果。现今数据科学工具的快速发展,使得机器学习的应用已更容易。
注:归属服务
它是在探讨当使用者做了一连串事情而导致“某一个结果”(譬如买下某商品),前面有很多事情可能“影响”他最终的决定,到底他看了哪些东西,或一群人看了哪些东西,造成个人或群体后面的结果,而这些东西的“重要性”不一,而“Attribution”这门学问,就是在研究并设定这种权重。
- 数据科学:机器学习VS. 基于规则的系统
- 机器学习:数据驱动的科学
- 机器学习:数据驱动的科学
- 数据科学之机器学习1:简介
- 数据科学之机器学习7: 决策树
- 人的数据科学与机器数据科学
- 基于机器学习的波动监控系统
- 数据科学的战争:R vs Python
- 分析,大数据,数据挖掘,数据科学,机器学习100个活跃的博客
- 基于机器学习的网络异常流量识别系统——数据篇
- Kaggle入门教程——机器学习和数据科学竞赛的大数据平台
- 一文读懂机器学习、数据科学、深度学习和统计学之间的区别
- 数据科学和机器学习中使用的最多的20个R语言包
- 基于规则和规则引擎的系统
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- Python的网页爬虫&文本处理&科学计&机器学习&数据挖掘工具集
- C#之数组
- on update cascade 和on delete cascade 的作用
- BC 68 Tree
- 控制器跳转之偷梁换柱
- swift Set(集合)
- 数据科学:机器学习VS. 基于规则的系统
- 单元测试之配置文件
- windows支持configdrive的vfat方式
- Git的使用(二)
- LightOJ 1074 Extended Traffic spfa+邻接表
- 文件操作案例-大文件加解密
- problem - 616B -codeforces
- 欢迎使用CSDN-markdown编辑器
- 2016-01-19 FFC