使用 Oracle Data Mining 解决业务问题(三)

来源:互联网 发布:火爆网络雅典娜是谁 编辑:程序博客网 时间:2024/06/03 18:00

12.要查看该树的结构,在 Build 步骤中单击 Result。

  

  13.您的结果可能与显示的结果有所不同,这是因为所采样的数据集较小。默认视图显示所有节点和用于确定分支的属性值。可以突出显示某个节点来显示将记录包括在该节点中的规则。预测值是该节点中多数记录的目标值。Confidence 是具有预测目标值的节点中的记录所占的百分比。Cases 是满足该节点规则的源数据中的实际事例数。Support 是满足该节点规则的源数据中的事例所占的百分比。

  点击放大此图片

  14.您可能只想查看终端节电(称为 Leaves)并消除中间节点。单击 Show Leaves Only 复选框。

  点击放大此图片

15.决策树在应用于新数据时对丢失值非常敏感。但是,如果分隔属性丢失,ODM Decision Tree Algorithm 提供将用在它的位置的称为 surrogate 的可选属性。如果分隔属性和它的 surrogate 丢失,在该树的父节点确定预测值。要查看该代理,突出显示一个节点并单击 Surrogate 单选按钮。

  点击放大此图片

  关闭 Build Results 窗口。

  16.要评估 Decision Tree Model,在 Test Metrics 步骤中单击 Result。

  

  17.单击 Accuracy 选项卡。

  点击放大此图片

18.单击 More Detail 按钮查看 Confusion Matrix。

  点击放大此图片

  19.Confusion Matrix 通过将该模型应用到测试活动的示例进行计算。AFFINITY_CARD 的值是已知的而且由行表示;列是 Classification Model 进行的预测。右上角和左下角单元格指示潜在预测错误。多数业务问题解决方案尝试最小化一种错误。例如,左下角单元格包含“错失的机会”数 — 该模型未正确识别的高利润客户的情形。单击 ROC 选项卡。

  点击放大此图片

  20.要探究该模型的参数中的可能更改,您可以通过单击图形右下角的箭头按钮前后滑动红线,并查看 Confusion Matrix 中的更改,直到这些值指示该问题的一个优秀解决方案。单击 Lift。

  点击放大此图片

21.可以查看两个显示升降计算的不同解释的图形。使用所选的 Cumulative Lift 单选按钮,这指示该模型比天真的猜想好得多。在本例中,Decision Tree 找到了比第一个分支中的机会敏感 2.5 倍的示例。选择 Cumulative Positive Cases 单选按钮。

  点击放大此图片

  21.该图形指示为了找到所需的积极示例数(即高利润客户),必须分析多少示例。

  点击放大此图片

  使用 Mining 活动应用一个预测模型

  当一个模型应用于新数据时,必须按照与准备 Build 活动的源代码相同的方式来准备和转换输入数据。Apply 活动基于 Build 活动。Build 活动传递到 Apply 活动,无论需要什么知识来适当准备输入数据。执行以下步骤:

  1.单击 Activity > Apply

  

2.单击 Next。

  点击放大此图片

  3.扩展 Classification 并选择您刚生成的 Build Activity。然后单击 Next。

  点击放大此图片

  4.单击 Select 链接选择 Apply 过程的输入数据。

  点击放大此图片

  5.展开 DMUSER1 并选择 MINING_DATA_APPLY_V。然后单击 OK。

  6.接受默认数据源。单击 Next。

  点击放大此图片

  7.将生成一个对于每个客户 Prediction 和 Probability 的表。可以选择要显示在结果中的附加属性。接受默认选项,然后单击 Next。

  点击放大此图片

  8.可以选择 Predictions 的格式。接受默认设置(包括 Target 值,其中每个事例具有最高的 Probability),然后单击 Next。

  点击放大此图片

  9.为活动输入一个名称,然后单击 Next。

  点击放大此图片

10.确保选中 Run upon finish 复选框。单击 Finish。

  点击放大此图片

  11.您的 Data Mining 活动正在运行。但完成后,单击 Result 链接。

  点击放大此图片

  12.对于每个客户(事例),包括 1(高利润)或 0(低利润)的预测,以及该 Prediction (Probability) 中的 Confidence。成本是预测值的另一个量度 — 低 Cost 意味着高 Probability。由于该模型是一个树形结构(其中每个分支表示一个规则),您可以突出显示一行并单击 Rule 查看如何进行地预测。

  点击放大此图片

  13.解释了规则逻辑。

  

  总结

  在本教程中,您学习如何:

  启动 Oracle Data Miner

  为数据挖掘准备数据

  使用挖掘活动指南

原创粉丝点击