训练预测模型时应避免的两个新手错误

  |   0 评论   |   0 浏览   |   给我丶鼓励

创建预测模型时,重要的是要测量准确性,以便能够清楚地表述模型的质量。本文讨论了在测量这些精度值时常犯的两个错误。

1.在用于训练的相同数据上测量准确性

犯下的一个常见错误是测量受过训练的相同数据的准确性。例如,假设您有 2017 年和 2018 年的客户流失数据。假设您提供所有这些数据以训练模型,然后使用相同的数据预测并将预测与实际结果进行比较。就像考试前给您提供了一份试卷,供您在家学习,考试第二天就给了您完全一样的试卷。显然,这个人在考试中会做得很好。

正确的方法是将数据分为两部分:培训和测试。在训练数据上训练模型,并在标记为测试的数据块上测试准确性,该算法在训练中从未见过。还有其他技术,例如交叉验证等,在本文范围内将跳过。

数据不平衡

让我们以欺诈检测为例。说您 95%的交易不是欺诈。如果该算法标记出每笔交易都不是欺诈,那么 95%的时间是正确的。因此,准确度是 95%,但错误的 5%可能会导致破产。这是难题的重要组成部分,并未在标准精度度量中体现出来。这就是需要处理其他指标(例如敏感性,特异性等)的地方,我们将在后续文章中介绍。另外,有几种技术可以处理不平衡数据。


标题:训练预测模型时应避免的两个新手错误
作者:给我丶鼓励
地址:https://blog.doiduoyi.com/articles/1592319413581.html

评论

发表评论