预测分析9大败局
- 来源:计算机世界 smarty:if $article.tag?>
- 关键字:预测,分析 smarty:/if?>
- 发布时间:2013-08-30 13:32
“大部分预测分析项目都漏洞百出,无论是预测分析领域的新手,还是拥有一定经验的行业专家,一不小心就会犯错。”数据挖掘公司Elder Research的CEO John Elder说。
Elder介绍:“由于预测模型得以改进,这些漏洞中通常不会对项目构成毁灭性的打击,但仍有一些项目遭遇惨败,让投入的巨额金钱和时间化为泡影。即使你拥有了一个好用的预测模型,项目实施过程还是存在其他障碍。”Elder所在公司中接受的项目中,有90%以上在技术上是成功的,其中只有65%最终落地实施。
本文采访了多位数据挖掘和咨询领域的专家,探寻导致预测分析失败的原因,专家们基于各自的经验,给出了9种项目实施中在技术和业务方面的典型错误。
1.没有目标 盲目开始。
一家企业或许意识到了预测分析的潜在价值,并且准备实施,此时,有一个关键问题却没有解决——没有具体的行动目标。
例如,一家大企业要求某咨询公司对其业务数据进行分析并做出预测,至于预测什么,则没有明确说明,管理层提到“只要能将预测结果应用到各个业务部门就行”。
咨询公司接手这项工作后,试图开发一个预测模型。“没有一个部门事前阐明他们的业务范围、销售目标等,可以预见,这个项目不会产生任何收益。”Elder Research公司的运营副总裁Jeff Deal说道。
Deal补充道:“熟悉公司状况的企业决策者在利用内部数据做决策时,对要实现何种目标,了然于胸。若借助第三方顾问发掘数据价值,就必须制定一个目标,方便咨询机构找到正确的方向。做预测分析需谨记的一项原则,就是不要等有了锤子后再去寻找钉子。”
2.项目目标过大。
一家大型制药企业抱着宏大的理想,启动了一项内部预测分析服务计划。当计划开始实施时,开发团队在项目启动会上宣称该服务将“引导医疗保健行业的一次大变革”。
但该项目的目标太过宏伟,需要巨额项目启动资金和持续不断的投资保障。如果投资不能起到立竿见影的效果,项目团队就没有理由让决策层持续投资。最终项目在野心的重压下溃败了。
Deal建议:“最好是设定小的、切合实际的目标,尽快实现它,然后以此为基础逐步进行扩展。”
3.忽略专家意见。
在为预测分析建模时,一个常见错误观念是:预测模型就像一个神奇的黑箱,在一端输入数据,转动手柄,准确的预测结果就在另一端输出。
Abbott Analytics曾为一家电脑维修企业构建预测模型。该企业想要基于客户呼叫的文字记录,预测维修人员应该带哪些电脑部件进行上门服务。但问题在于,由于谈话充满模棱两可的内容,谈话文本中很难提取出用于预测建模的关键词。因此,在最初构建的模型中,先要基于文本中出现的一部分关键词进行预测。
“我们要为每个关键词创建一个变量,将该变量转换成二进制编码。在跟语言专家沟通,我们决定将工作重点集中在几十个语义丰富的关键词上,并根据这些关键词改进模型,结合历史信息将这几十个变量与所需的维修零件联系起来。”Abbott Analytics 的总裁Dean Abbott解释:“为此,我们需要将某一关键词变量的出现频率与维修记录中所记载的某一零部件的维修概率联系起来。”
这个项目所带来的启示是:在构建预测模型时应听取相关行业专家的意见,而不是任由IT人员闭门造车,单纯地依靠算法构造出呆板模型。
4.不清晰的模型使用条件。
Abbott Analytics公司曾接手一个为快递业务设计预测模型的项目,用于预测读取到的邮件条形码的准确度。这个项目给出的难题是,为了保证信件通过读码器时被及时处理,判断需在1/500 秒内完成。
Abbott Analytics公司设计出一种精确算法,但因为它不能在规定的时限内产生判断结果,最终还是被淘汰了。模型不仅需要作出预测,还需在具体的时间框架内完成,这需要在算法设计之初就将其考虑在内。
预测分析常常要在精确与效率之间做出取舍。“模型必须足够简单,才能保证运算在短时间内完成,这就是我们面临的典型业务。同时,为了适应客户的业务约束,客户需要再模型构建之初就清晰地界定限制条件。但事实是,太多的人一心只想建立完美的模型,却忽略了模型实际上的使用条件有哪些。”Abbott说。
5.在缺乏数据支持的情况下构建模型。
债款催收公司若想成功完成每笔业务,最佳方案是依据欠款的不同特点,制定不同的行动步骤,但此举面临的困难是,由于公司对于债款催收流程有严格的规定,员工只能照章行事。
“数据挖掘是一门比较艺术,因为该公司针对不同业务采用相同的工作步骤,我们无法获悉采取哪种工作步骤是最佳方案,这就需要历史数据做为参考。”Abbott说。
如果难以获得这些历史数据,那就需要设计一系列的试验来获取数据。
例如,针对100笔催收业务,以书面形式通知其中50人还款,以电话形式通知另外50人还款,记录这些人各自的特征和还款行为,债务人的特征可能包括往期债务欠款额、还款日期,收入状况,居住地等。然后,据此来建立预测模型,预测具有哪类债务人适合书面催债、哪类适合电话催债,并在此基础上设计出行动指南。基于预测模型,催收机构可以针对不同债务人采用效率高、成本小的最佳策略。
“但这一切都要从试验开始。预测分析不能无中生有地创造信息,如果缺乏历史数据支持,就必须通过实验的方法获得有效数据。”Abbott强调。
6.等拥有完美数据才开始。
人们往往错误地认为,在开始预测分析前,他们掌握的数据必须是有序的、没有漏洞、没有缺失值的。
在Elder Research公司的客户总,一家全球化的石油化工公司近日启动了一项具有较高潜在回报的预测分析项目。很快,数据分析专家就发现该石化公司的数据状态比他们预想的要差很多,最令人头痛的就是一个关键事项的重要目标值缺失。如果要重新收集数据,项目将至少被推迟一年。
“面对这种情况,很多公司可能会让项目暂停,而这恰恰是导致预测项目失败的重要原因。我们早已习惯处理无序、不完整的数据,并找到相应的方法解决此类问题。所以,我们继续推进业务,最终发现了从其他变量推导缺失目标值的方法。”Elder Research公司的数据专家John Ainsworth介绍。
目前,该项目已经顺利完成,这家石化公司利用预测模型可以准确地识别需要预防性维护的生产环节,避免了代价高昂的停工,节省了大量成本。
“如果等到有了完整的数据再启动项目,那么上述目标可能永远都不能实现。”Deal说,“数据是活的,可以根据不同情况确定项目实施的优先级。”
7.被垃圾数据困扰。
Prediction Impact公司的咨询总监、《预测分析:预言谁会点击、购买、诈骗或者灭亡的力量》一书的作者Eric Siegel曾经与某位列财富1000强的金融服务公司合作,预测哪类呼叫中心工作人员会在这一岗位上工作较长时间。
“乍看之下,历史数据似乎表明:以至少在岗工作9个月为标准,没有高中文凭的员工的留岗率比其他教育背景的员工高2.6倍。我们差点就向客户建议优先招聘高中就辍学的员工了。”Siegel说。
但还有两个问题需要注意:第一,从应聘者的简历中录入数据时,两位数据录入员是按不同的标准录入的,一位数据录入员录入了所有的学历指标,而另一位录入员则屏蔽了高学历的样本;第二,由于数据提取的标签设计有问题,导致低学历人员的简历更容易被提取到,这种问题可以通过重新设定提取标签来避免。Siegel总结:“项目实施前,你必须确保数据是完整可靠的,避免出现垃圾数据。”
8.耗费过多时间在显而易见的现象上。
一家娱乐休闲酒店想要寻找招揽回头客、提高企业收入的方法。Abbott Analytics构建的分析模型表明,大部分顾客有95%的概率再次到店消费。
“该模型给出的结论都是一些显而易见的事。例如,有些顾客在连续几年内几乎每月都来,接着有几个月都没来,通常他还会再次光临,而不需任何促销干预。”Abbott说道。
酒店也逐渐意识到了它不需要什么模型来预测给予何种优惠措施吸引顾客再次消费。因为无论他们采取什么措施,总会有约5%的顾客不会再次光顾。
“如果模型能够识别哪一部分人构成了这5%,那它的作用是巨大的。”Abbott 建议酒店特别关注一下那些有较高概率会再来消费、实际上却没来的消费者,“既然我们能高精度地预测他们会来,那没来的人群就属于潜在顾客,对这些消费者的促销是很有必要的。若模型结果看起来是显而易见的,那就不必在此耗费过多时间,更需要将注意力集中在寻找导致反常现象的因素上。”
9.预测模型建好后,不关心如何实际应用。
当预测模型成功构建起来以后,接下来需要怎么做?很多企业关心的是要建什么样的模型和模型会带来什么样的投资回报,但很少注意到模型建成之后的具体部署、实施工作。
预测模型的部署策略,因企业环境不同而千差万别。公司需要花费5万~30万美元甚至更高,用于投资适当的分析软件;同时将分析结果融入可视化的商务智能工具,以便于业务人员方便地读取并分析结果。
“部署一个成功模型有时比构建模型本身还要费力,更重要的是部署策略可能需要不断调整,以适应用户需求的变化。” Deal说。
读完上文,如果你觉得做好预测分析的难度太大,不要担心,来听听咨询顾问们的见解。
Abbott Analytics的数据分析专家们认为,一路做、一路学,随时调整才能规避错误。所有的努力都是值得的,预测分析提供了不同于人类思维的看问题的角度,并且能够提供独辟蹊径的解决方案。
Elder 说:“预测分析确实很困难,但仍有企业在数据中获得了有价值的信息。如果能规避上述问题,你也一样可以做好预测分析。”
Robert L.Mitchell
