龙志勇 中国电信集团北京研究院技术部研发人员
摘 要 文章介绍了数据挖掘技术的相关知识及其在电信行业客户关系管理中的应用,并以客户流失分析作为实例,详细描述了数据挖掘的整个应用过程,最后对国内数据挖掘应用的现状进行了分析。
关键词 数据挖掘 客户关系管理 客户流失
随着国内电信市场竞争的日趋激烈,电信运营商的经营模式逐渐从“技术驱动”向“市场驱动”、“客户驱动”转化。这就要求运营商要采取以客户为中心的策略,根据客户的实际需求提供多样化、层次化、个性化的服务解决方案。因此,客户关系管理(CRM)成了电信运营商增加收入和利润,提高客户满意度、忠诚度的有效工具。在客户关系管理的流程中,为了准确、及时地进行经营决策,必须充分获取并利用相关的数据信息对决策过程进行辅助支持。近几年迅速发展起来的数据挖掘技术就是实现这一目标的重要手段。
一、数据挖掘的概念和过程
1.数据挖掘的概念
数据挖掘是根据企业的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示其中隐藏的规律,并将其模型化,指导并应用于企业的实际经营。
数据挖掘是建立在数据仓库基础上的高层应用,但数据挖掘跟数据仓库的其它一些应用如OLAP分析、预定义报表和即席查询等有很大的区别。后三者通常是用户根据已知的情况对所关心的业务指标进行分析;而前者则是在业务问题和目标明确但考察的问题不清楚时,对数据进行探索,揭示隐藏其中的规律性,进而将其模型化。
2.数据挖掘过程
数据挖掘是一个循环往复的过程,通常涉及数据准备、建立模型、评估和解释模型、运用和巩固模型等步骤。
(1)数据准备:数据准备工作包括数据的选择(选择相关和合适的数据)、探索(了解数据分布情况和异常数据等)、修正(包括缺失数据的插值等)和变换(离散值数据与连续值数据的相互转换,数据的分组分类,数据项的计算组合等)。
(2)建立模型:选取数据挖掘工具提供的算法并应用于准备好的数据,选取相应参数,生成模型。
(3)评估和解释模型:对模型进行比较和评估,生成一个相对最优模型,并对此模型用业务语言加以解释。
(4)运用和巩固模型:对模型在实际应用中的表现进行监控,如果模型表现不好,则对模型作进一步的考察和修正,以反映业务运作规律的变化。
二、数据挖掘在客户关系管理中的应用
电信运营商拥有许多成熟的数据库应用系统,如网管系统、财务系统、计费账务系统、112障碍管理系统、缴费销账系统等,并产生了大量的业务处理数据。如果针对客户关系管理相关决策分析的需求,对这些数据进行重组整合,就能充分利用这些宝贵的数据,体现信息的真正价值。
数据挖掘技术在电信行业客户关系管理的主要应用领域如下:
(1)客户消费模式分析
客户消费模式分析(如固话话费行为分析)是对客户历年来长话、市话、信息台的大量详单、数据以及客户档案资料等相关数据进行关联分析,结合客户的分类,可以从消费能力、消费习惯、消费周期等诸方面对客户的话费行为进行分析和预测,从而为固话运营商的相关经营决策提供依据。
(2)客户市场推广分析
客户市场推广分析(如优惠策略预测仿真)是利用数据挖掘技术实现优惠策略的仿真,根据数据挖掘模型进行模拟计费和模拟出账,其仿真结果可以揭示优惠策略中存在的问题,并进行相应的调整优化,以达到优惠促销活动的收益最大化。
(3)客户欠费分析和动态防欺诈
通过数据挖掘,总结各种骗费、欠费行为的内在规律,并建立一套欺诈和欠费行为的规则库。当客户的话费行为与该库中规则吻合时,系统可以提示运营商相关部门采取措施,从而降低运营商的损失风险。
(4)客户流失分析
根据已有的客户流失数据,建立客户属性、服务属性、客户消费情况等数据与客户流失概率相关联的数学模型,找出这些数据之间的关系,并给出明确的数学公式。然后根据此模型来监控客户流失的可能性,如果客户流失的可能性过高,则通过促销等手段来提高客户忠诚度,防止客户流失的发生。这就彻底改变了以往电信运营商在成功获得客户以后无法监控客户流失、无法有效实现客户关怀的状况。
三、数据挖掘的应用实例——客户流失分析
一个完整的数据挖掘过程可进一步细分为:业务问题定义,数据选择,数据清洗和预处理,模型选择与预建立,模型建立与调整,模型的评估与检验,模型解释与应用。
1.业务问题定义
针对客户流失的不同种类分别定义业务问题,进而区别处理。在客户流失分析中有两个核心变量:财务原因/非财务原因、主动流失/被动流失。客户流失可以相应分为四种类型,其中非财务原因主动流失的客户往往是高价值的客户,他们会正常支付服务费用,并容易对市场活动有所响应。这种客户是我们真正需要保住的客户。此外在分析客户流失时必须区分集团/个人客户,以及不同消费水平的客户,并有针对性地制定不同的流失标准。例如,平均月消费额2 000元的客户连续几个月消费额降低到500元以下,就可以认为客户流失发生了,而这个流失标准不适用于原来平均月消费额500元的客户。国外成熟的应用中通常根据相对指标来判别客户流失,例如大众的个人通信费用约占总收入的1%~3%,当客户的个人通信费用远低于此比例时,就认为发生了客户流失。
2.数据选择
数据选择包括目标变量的选择、输入变量的选择和建模数据的选择。
(1)目标变量的选择
客户流失分析的目标变量通常为客户流失状态。根据业务问题的定义,可以选择一个已知量或多个已知量的组合作为目标变量。实际的客户流失形式有两种:因账户取消发生的流失,因账户休眠发生的流失。对于因账户取消发生的流失,目标变量可以直接选取客户的账户状态(取消或正常);对于因账户休眠发生的流失,可以认为持续休眠超过一定时间长度的客户发生了流失。这时需要对相关的具体问题加以考虑:持续休眠的时间长度定义为多少?每月通话金额低于多少即认为处于休眠状态,或者是综合考虑通话金额、通话时长和通话次数来划定休眠标准?选择目标变量时面临的这些问题需要业务人员给予明确的回答。
(2)输入变量的选择
输入变量是模型中的自变量,在建模过程中需要寻找自变量与目标变量的关联。输入变量分为静态数据和动态数据。静态数据指不常变化的数据,包括服务合同属性(如服务类型、服务时间、交费类型)和客户的基本资料(如性别、年龄、收入、婚姻状况、学历、职业、居住地区);动态数据指频繁或定期改变的数据,如月消费金额、交费记录、消费特征。业务人员在实际业务活动中可能会感觉到输入变量与目标变量的内在联系,只是无法量化表示出来,这就给数据挖掘留下了发挥的空间。如果一时无法确定某种数据是否与客户流失概率有关联,应该暂时将其选入模型,并在后续步骤考察各变量分布情况和相关性时再行取舍。
(3)建模数据的选择
客户流失的方式有两种。第一种是客户的自然消亡,例如身故、破产、迁徙、移民而导致客户不再存在,或者由于客户服务的升级(如拨号接入升级为ADSL接入)造成特定服务的目标客户消失。第二种是客户的转移流失,通常指客户转移到竞争对手,并使用其服务。第二种流失的客户才是运营商真正关心的、具有挽留价值的客户。因此在选择建模数据时必须选择第二种流失客户数据参与建模,才能建立有效的模型。
3.数据清洗和预处理
数据清洗和预处理是建模前的数据准备工作,一方面保证建模数据的正确性和有效性,另一方面通过对数据格式和内容的调整,使数据更符合建模的需要。数据整理的主要工作包括对数据的转换和整合、抽样、随机化、缺失值处理等等。例如按比例抽取未流失客户和已流失客户,将这两类数据合并,构成建模的数据源。此外,模型在建立之后需要大量的数据来进行检验,因此通常把样本数据分为两部分,2/3的数据用于建模,1/3的数据用于模型的检验和修正。
4.模型选择与预建立
在模型建立之前,可以利用数据挖掘工具的相关性比较功能,找出每一个输入变量和客户流失概率的相关性,删除相关性较小的变量,从而可以缩短建模时间,降低模型复杂度,有时还能使模型更精确。现有的数据挖掘工具提供了决策树、神经网络、近邻学习、回归、关联、聚类、贝叶斯判别等多种建模方法。可以分别使用其中的多种方法预建立多个模型,然后对这些模型进行优劣比较,从而挑选出最适合客户流失分析的建模方法。此外数据挖掘工具还提供了选择建模方法的功能,系统可自动判别最优模型,供使用者参考。
5.模型建立与调整
模型建立与调整是数据挖掘过程中的核心部分,通常由数据分析专家完成。需要指出的是,不同的商业问题和不同的数据分布属性会影响模型建立与调整的策略,而且在建模过程中还会使用多种近似算法来简化模型的优化过程。因此还需要业务专家参与调整策略的制定,以避免不适当的优化造成业务信息丢失。
6.模型的评估与检验
应该利用未参与建模的数据进行模型的评估,才能得到准确的结果。检验的方法是使用模型对已知客户状态的数据进行预测,将预测值与实际客户状态作比较,预测正确率最高的模型是最优模型。
7.模型解释与应用
业务人员应该针对最优模型进行合理的解释。如发现开户时长与客户流失概率的相关度较高,利用业务知识可以解释为:客户在使用一定年限后需要换领新SIM卡,而这一手续的繁琐导致客户宁愿申请新号码,从而造成客户流失。通过对模型做出合理的业务解释,可以找出一些潜在的规律,用于指导业务行为。反过来,通过业务解释也能证明数学模型的合理性和有效性。
在模型应用过程中,可以先选择一个试点实施应用,试点期间随时注意模型应用的收益情况。一旦发生异常偏差,则立即停止应用,并对模型进行修正。试点结束后,若模型被证明应用良好,可以考虑大范围推广。推广时应注意,由于地区差异,模型不能完全照搬。可以先由集团总部建立一个通用模型,各省分公司在此基础上利用本地数据进行修正,从而得到适用于本省的精确模型。在模型应用一段时期,或经济环境发生重大变化后,模型的偏差可能会增大,这时应该考虑重新建立一个适用性更强的模型。
四、国内数据挖掘应用中存在的问题
(1)数据质量和完备性
国内电信运营商现有的、面向事务的数据在质量、完整性和一致性上存在许多问题,必须投入大量的精力去进行数据的抽取、净化和处理。此外,业务问题的相关数据有时难以全面收集。例如客户信用是客户价值评估中的关键因素,但由于国内未建立完善的信用体系,无法根据现有客户数据建立优质的信用评价模型,从而导致客户价值模型有效性的降低。
(2)相应的人员素质
在数据挖掘应用过程的多个环节中,人的主观辨识和控制是应用成败的关键,这就对系统使用人员提出了很高的要求。如果没有具备相应素质的使用和维护人员,必将导致分析系统与现实脱钩,无法达到预期效果。
(3)应用周期
数据挖掘存在一个较长的应用周期。技术本身不能给使用者解决任何问题,只能从数据中把一些潜在的情况呈现到使用者面前,由使用者采取相应措施。数据挖掘应用的有效方法是:从一个较小的、关键的问题出发,建立起相对有效的模型,并通过应用实践不断检验和完善模型,逐步替使用者解决问题。
摘自 信息网络