NCR(中国)有限公司数据仓库事业部 专业技术服务总监 王闯舟
现任NCR中国有限公司数据仓库事业部专业技术服务总监。他领导的部门由50余名专门从事数据仓库技术研究与项目实施的专业顾问组成,主要为国内客户提供有关NCR可扩展数据仓库解决方案的售前咨询与项目实施服务。他本人在IT行业有超过十年的丰富经验,主要专长在于NCR的数据仓库引擎Teradata RDBMS、项目管理、数据仓库项目实施方法论、数据仓库系统分析与应用规划等。
在电子商务中引入数据仓库解决方案的必要性
对于一个企业来说,要在竞争日益激烈的市场环境下保持自己的竞争优势,更好地与客户沟通并提供客户服务,引入电子商务解决方案是非常重要的一项措施。在企业众多的客户交互渠道中,WEB是最经济的,其涵盖范围也越来越广。但问题是,许多企业在开展电子商务时,简单地认为建立一个网站并且透过它进行产品的宣传与销售就足够了。目前电子商务领域的各种技术与方案也主要围绕在如何更好地进行网上交易,常常忽视了同样重要的另一个主题,即如何更全面地分析客户行为、更有效地与客户进行沟通并提供服务。
与分支机构、柜台等传统渠道不同,基于WEB的网上交易方式是完全电子化、无接触的,虽然比较经济,但不如传统渠道人性化和易于建立客户关系。国外一家咨询机构在一份2000年的统计与分析报告中指出,“84%的在线业务没有采取有效措施来跟进那些通过其网站进行采购的客户,90%的在线业务没有针对客户实施个性化的服务,75%的在线业务无法识别在其网站多次进行采购的客户”。由于这样的原因,企业与其网上交易客户之间的关系变得疏远和分离,形成所谓的“E-沟 (E-Gap)”。显然,“E-沟”是企业维持稳定与优质的客户群体的最大障碍。
随着Internet在全球的普及,并逐渐发展成为进行市场行销与商务活动的重要渠道,网站已经成为企业整体业务发展战略的重要组成部分。人们不再把网站当成简单的交易场所,而把它看成企业与客户之间的重要交互渠道,并通过该渠道来逐步建立与加强客户关系。在与客户的每一次交互中,都将通过页面访问与点击产生大量的数据。分散在不同系统中的这些数据需要通过清洗、整理、过滤、排序、合并等各种技术手段进行综合的处理,才能转变成有意义的业务信息与知识,从而帮助企业更好的洞察与了解客户行为。实现这种处理的最有效方法就是引入数据仓库技术。
通过在传统的电子商务中,引入基于数据仓库技术的WEB分析应用,可以帮助企业更好地了解与分析其客户行为,加强客户沟通并提供个性化服务,从而缩小并最终消除企业与客户之间的“E-沟”。
典型的WEB分析需求
曾经有一段时间,企业对其网站成功与否的评估只是看客户对其网站的访问率与点击率,而忽视了许多更全面、更深入的内在分析。事实上,从客户的流览、点击与购买等数据中可以分析出许多非常有用的信息。如:客户真正需要的是什么?支付的难易程度和安全性直接决定着客户是否选择该WEB等问题。
电子商务对数据仓库平台的挑战
信息周刊(Information Week)在其一份分析报告中指出,“电子商务系统中产生了大量关于客户行为与消费模式的有价值信息,对这些数据的综合分析与处理为企业带来了前所未有的商机,但同时也是对现代数据库系统的极大挑战”。
我们都很清楚,从大量的网上交互数据中获取业务信息,从而全面和深入了解在线客户,这对电子商务的成功是必不可少的。但需要注意的是,网站本身正变得越来越复杂。许多企业的网站由多个分布在不同地域的服务器组成,包含了许多的应用方案,如广告服务器、应用服务器、内容管理系统等,为网站访客提供更丰富、更动态、更个性化的服务,尽最大努力把这些访问者转变成自己的客户。同时,越来越多的企业把一些传统业务移动网站上,并把网站与后台系统进行连接。这样的信息结构将产生越来越多、越来越复杂的基础数据,对于很多企业来说,这些基础数据都在呈指数级增长。
随着网站复杂性的增加、数据源的分离、以及迅速增长的原始数据量,给许多厂商的数据仓库解决方案带来了极大的挑战,很多系统无法针对基础数据进行完整、精确的分析,它们往往只是基于一些经过汇总处理的数据提供一些统计报表而已,这样的分析系统很难为企业带来真正的业务价值。
另外需要注意的是,网站只是企业众多渠道中的一种,客户与企业的接触不可能只限于WEB这样一种方式。因此在构造数据仓库解决方案时,不要孤立地只考虑网站上产生的数据,还应包括企业其它渠道以及相关的客户信息。这些数据的引入,会进一步增加系统的复杂性,同时加大了对数据库管理系统的负载。
这些特点对数据仓库基础平台提出了非常高的要求,具体来说,主要有以下几个方面:
1、 线性扩展能力
原始数据对任何一个数据仓库来说,都是最主要的负载之一。随着数据量的增长,系统性能会逐渐下降。为了维持合理的业务查询响应时间,要求数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。一些系统的扩展能力非常有限,当数据量增长到一定规模时(比如TB级以上)已经很难满足日常的业务分析要求,不得不将数据分离,最后建立多个小规模的数据集市,无法在整个企业范围内提供统一的信息视图。
2、并行处理能力
由于客户行为的不确定性、市场环境的动态变化等诸多因素,使得数据仓库系统中的许多业务查询与分析都是动态(Ad-hoc Query)的。数据库传统的索引技术对动态查询和模糊查询的帮助不大。系统只有具有非常好的并行处理能力,才能满足这种复杂的、动态的分析需求。
3、简单的系统管理
对于大型的数据仓库应用系统而言,如何能有效而简单地进行系统管理是非常重要的。特别是当数据量不断扩大时,如果没有一种有效而且简单的系统管理措施,那么系统的运行费用将会很高。系统管理包括很多方面,举例来说,在有些数据库系统中,数据库重组就是一项非常繁重的系统管理工作。所谓数据库重组,是指系统在运行一段时间后,由于数据分配不均衡而导致系统整体性能下降。这时必须将数据库中的数据备份出来,对整个存储区域重新规划和分区,然后重新加载数据。这个过程就称之为数据库重组。它不仅需要经验丰富的数据库管理员,增加了系统的维护费用,而且减少了系统的对外服务时间。
NCR电子商务动态数据仓库解决方案
长期以来,NCR一直专注于数据仓库技术的研发与项目实施,已经在全球范围成功实施了三千多个数据仓库系统,其中容量在1TB以上的有三百多个,是大型数据仓库领域无可争辩的领导厂商。其主要特点是系统的线性扩展能力非常强,可以从很小规模(GB级)线性扩展到很大规模(TB级),目前已经投产的最大数据仓库达170TB。另外,NCR数据仓库系统还具有非常好的复杂业务问题分析能力、动态查询处理能力、管理简单等特点,因此在大型数据仓库领域的应用案例非常多。
NCR利用其数据仓库系统的优势,结合电子商务的特点和需求,推出了电子商务动态数据仓库解决方案(E-Business Teradata)。
整个解决方案由以下几个部分组成:
1、 ETL
ETL是数据抽取(Extraction)、转换(Transformation)和加载(Loading)的缩写。利用ETL流程,把各种相关的源数据按照数据模型的定义和描述加载到数据仓库,从而形成统一的信息视图。在实施数据仓库时,由于外部数据源的分离和复杂性,ETL一般都比较耗时耗力,有时会占到总个系统实施工作量的70%以上。
来自于WEB网站的数据源主要包括:
■ Cookie信息
■ 广告服务器数据库 (Ad Server Database)
■ 注册数据库 (Registration Database)
■ WEB日志(WEB Logs)
■ 商业应用数据库 (Commerce Application Database)
WEB数据在进行ETL时需要进行许多分析与转换处理,如:
■ 对Cookie信息进行分解,以便跟踪重复访客
■ 分析并过滤网络黑客信息(包括Spider, Crawler, Robot等)
■ 根据不同访问类型进行整理与排序(如注册用户、匿名用户等)
■ 企业不同WEB服务器中WEB日志的关联分析
■ 不同格式WEB日志的关联分析(IIS,Apache等)
2、 E-LDM
逻辑数据模型(LDM)是整个数据仓库系统中非常重要的一个部分,它描述了各种数据实体及其相互之间的业务关系。数据仓库中的逻辑数据模型是按照主题来设计的。NCR的E-LDM是专门针对电子商务数据仓库应用而设计的,它有机地整合了来自WEB的在线数据以及其它与客户相关的离线数据。
3、Teradata动态数据仓库 (Teradata Active Data Warehouse)
Teradata动态数据仓库是一个线性可扩展的、具有优良的业务分析处理性能的决策支持系统。著名的评估机构Gartner Group从1999年推出应用服务评估模型ASEM (Application Server Evaluation Model),用来评估各家供应商所提供解决方案分别在OLTP与数据仓库领域的综合性能。NCR的动态数据仓库解决方案已经连续四年在数据仓库领域被评为总分第一名。
Teradata动态数据仓库解决方案的主要特点是:
■ 线性可扩展能力,可以从很小的GB级数据仓库扩展到大规模的TB级数据仓库
■ 优良的并行处理能力与复杂业务分析处理能力
■ 系统管理简单,降低了整体拥有成本TCO(Total Cost Ownership)
■ 提供标准接口,可以方便地与第三方应用工具集成
4、 前端应用
前端应用主要分成以下四个部分:
■ Teradata E-Business Analytics for Customers:针对客户的各种交易与事件,提供相关的分析报表。分析内容主要分成:客户利润贡献度(Profitability)、客户轮廓分析(Profiling)、客户忠诚度(Loyalty)、客户获取(Acquisition)。
■ Teradata E-Business Analytics for Campaigns:对于各种促销活动(Campaign)及其行销结果进行分析,包括:促销前活动与结果(Pre-Campaign activity and results)、促销后活动与结果(Post-Campaign activity and results)、并发的促销活动与结果(Concurrent Campaign activity and results)。
■ Teradata E-Business Analytics for Web Sites:主要针对WEB网站的各种活动与事件进行分析,包括:网络流量(Traffic)、访问引用与连接(Referral)、客户(Customers)。
■ Teradata E-Business Analytics for Advertising:对于网站广告的效果进行分析,分析内容包括:网络广告容量(Ad Network Capacity Analysis)、广告效果分析(Ad Performance Analysis)、广告发行者分析(Pub)。
小结
与早几年相比,现在的企业已经把WEB完全集成到其业务基础设施中,WEB已经不再是简单的产品宣传与销售渠道,而是企业信息与客户关系的门户。利用WEB,可以为企业提供7X24的商业环境。引入基于数据仓库技术的商业智能解决方案后,客户对其网站的每一次访问,都是企业加强客户关系、影响客户购买行为、增强企业品牌与形象的一次机会。
摘自《通信市场》