BIFan的博客 http://blogger.org.cn/blog/blog.asp?name=BIFan BIFan的博客 blogger.org.cn W3CHINA Blog webmaster@blogger.org.cn <![CDATA[Excel实现的一个决策树]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42968 BIFan 2009/2/11 15:06:48 http://www.geocities.com/adotsaha/CTree/CtreeinExcel.html

报告发现一个超级经典的决策树，excel实现！太直观太精辟了，哈哈，适合初学者。

]]> <![CDATA[统计学主要流派(转)]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42961 BIFan 2009/2/11 10:29:52 不能确定出处，所以也不能断定是否严谨与科学，但可以参考：

1. 可识别性、统计诊断、因果分析学派；

2. 波动性、稳健性研究、稳定性分析、Fiducial (信仰) 学派；

3. 协调性、Bayes 学派；

4. 功能性、频率学派；

5. 经济性、风险函数、效用损失、判决理论。

]]> <![CDATA[Bootstrap———自助法]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42954 BIFan 2009/2/11 9:46:17 Bootstrap———自助法

简明扼要的用中文来说，就是：1970年代的时候，Efron等人发表了一系列的论文作为诞生的标志, 然后经过几代statisticians 们的努力, 理论基础已经被打好，并且还在蓬勃的发展中, 各种相关的方法,以及定理不断涌现，成为统计学发展史上20世纪下半年最为令人心醉的里程碑。英文原意指的是Being or relating to a process that is self-initiating or self-sustaining. Idea 是非常Intuitive的, 有了这个Idea之后把统计学的发展大大推进了一步, 和计算机的结合又紧密了很多.。

直观上就是：在已知数据的基础上, 通过用计算机来模拟N趋近于无穷大时候的情况, 把已知的DATA不断的重新SAMPLING, 从而在新的数据中得出原始数据的信息。再说的更简单更直观就是：就是给你100个数据, 但是你觉得100个数据没办法真实反映样本的全貌, 你就把这100个数据重新随机的SAMPLE1000次, 这样你就有了100*1000个数据点了. 你的样本量就会增大很多。

]]> <![CDATA[商业银行建立客户流失预测模型的方法研究]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42952 BIFan 2009/2/11 0:06:42 商业银行建立客户流失预测模型的方法研究

http://www.studa.net/bank/081209/16274759.html
来源：中国论文下载中心 [ 08-12-09 16:27:00 ] 作者：江瑜

[摘要] 客户流失是竞争日益激烈的市场中银行面临的一大难题。通过分析银行客户流失的原因，提出了建立客户流失预测模型的方法。利用模型，发现预测流失群体，预测流失趋势，进而制定有效的控制策略，最大限度地降低客户流失率。为客户流失预测提供了一种新的研究思路和分析方法。
　　[关键词] 客户流失流失预测模型数据挖掘
　　随着我国加入WTO，国内银行正酝酿着有史以来最为深刻的变革，不仅面临着同业之间的激烈竞争，还有来自非同业与国外银行的激烈竞争。随着竞争的日趋激烈，在行业中获得一个新客户的开支越来越大，因而保持原有客户、防止客户流失的工作也越来越有价值。客户已成为银行至关重要的商业资源。目前国内对客户流失的研究主要集中在提供个性化服务、实行“一对一”营销，以吸引客户，提高客户忠诚度上，但这不能从根本上解决问题。本文探讨的是直接对客户流失数据进行建模，通过对当前客户数据库中的客户基本信息及客户的行为数据进行分析，建立客户流失预测模型。利用该模型，发现预测流失群体，预测流失趋势，进而制定有效的控制策略，最大限度地降低客户流失率。
　　
　　一、客户流失原因分析
　　
　　1.客户流失的类型。所谓客户流失是指客户不再重复购买，或终止原先使用的服务。导致银行客户流失的具体原因有很多，通常根据客户流失原因可将流失客户分成以下几种类型：
　　(1)自然流失。这种类型的客户流失不是人为因素造成的，比如客户的搬迁和死亡等。这样的客户流失是不可避免的，应该在弹性流失范围之内。自然流失所占的比例很小，银行可以通过提供网上服务等方式，让客户在任何地方、任何时候都能方便快捷地使用银行的产品和服务，减少自然流失的发生。
　　(2)竞争流失。由于竞争对手的影响而造成的流失称为竞争流失。竞争突出表现在价格战和服务战上。如：客户找到了收益更高的产品而转移购买；竞争对手服务质量的提高；竞争对手产品技术手段的更新而使客户转向购买技术更先进的替代产品，等等，这些都可导致客户的流失。
　　(3)过失流失。过失流失是由于银行自身工作中的过失引起客户的不满意而造成的。比如，企业形象不佳、服务态度恶劣，客户对银行的产品和服务质量感到不满，并通过直接或间接的渠道投诉却得不到解决，这些都会使客户转而投向竞争对手。过失流失在客户流失总量中所占的比例较高，但同时也是企业可以通过采取一些有效手段来防止的。
　　2.客户流失原因分析。有市场竞争就有市场退出，在银行之间的竞争过程中，原有客户的流失相当正常，关键在于必须找到客户流失的原因，进而制定有效的控制策略。导致客户流失的因素主要有以下几种：
　　(1)金融服务品种单一。在同等的外部条件下，银行的竞争力取决于每一家银行所能提供的业务品种和服务手段。金融服务产品的相对单一，不能随时根据市场变化和用户需求，推出新的金融服务品种和调整金融发展战略，必然导致客户的流失。因此完善金融服务品种和手段、提供实时创新的金融产品和增加个性化服务品种有利于银行固定一批优质客户，降低银行的客户流失率。
　　(2)服务与客户关怀不够。客户的流失或保留取决于对产品或服务的评价，客户的抱怨和询问如果不能得到妥善的处理会造成他们的离去。要建立多种渠道反馈客户对产品和服务的意见，让他们感觉到自己受到了尊重。这样做不仅可以提高客户的满意度和忠诚度，而且还能从客户那里收集到免费的建议，以便不断改善银行的产品和服务。银行应将投诉看作是完善企业服务的捷径。
　　(3)银行内部员工的流失。银行内部员工的流失，可能导致和它长期保持联系的重要客户的流失。频繁的员工流动不仅增加了银行员工培训的成本，还会使客户不得不重新认识和熟悉新的接触对象，这可能增加了他们的不适而导致流失的发生。
　　(4)不注重企业形象。良好的企业形象会增加客户的信赖感。银行应该在各方面尽量避免产生负面的社会影响，以优质的产品和多元化的服务、良好的企业文化、完善的售后服务机制和积极进取的企业目标来赢得客户的信赖，从而减少流失的发生。
　　
　　二、客户流失预测模型的建立
　　
　　客户流失是一种理性消费的选择，它的发生具有非常明显的因果关系，这种因果关系往往体现在过去的消费记录中。建立客户流失预测模型就是通过对流失客户的数据进行分析后得出的，包括基本模型和行为模型。建立客户流失基本模型的目的是找出描述客户的基本数据与客户流失之间的关联，发现描述流失客户基本特征的关键属性集合。市场营销部门可以根据流失基本模型随时监控客户流失的可能性，如果客户流失的可能性高于事先划定的一个限度，就可以通过多种促销手段提高客户的忠诚度，防止客户流失的发生，从而可以大大降低客户的流失率；建立客户流失的行为模型，则可识别出流失客户的典型行为，以此用作流失趋势的预测，进而制定有效的控制策略。
　　客户流失模型的建立和应用过程如下：
　　1.数据采样。从银行的各业务数据库中采集样本数据。数据选择包括目标变量的选择、输入变量的选择和建模数据的选择等多个方面。目标变量的选择：在客户流失分析系统中，实际面对的流失主要有账户取消发生的流失和账户休眠发生的流失两种形式。对于不同的流失形式，我们需要选取不同的目标变量。输入变量的选择：输入变量用于在建模时作为自变量寻找与目标变量之间的关联。在选择输入变量时，我们通常选择两类数据：静态数据和动态数据。静态数据指的是通常不会经常改变的数据，包括客户的基本信息(如性别，年龄，婚姻状况，职业，居住地区等)。动态数据指的是经常或定期改变的数据，如每月存取记录、消费金额、消费特征等等。建模数据的选择：由于银行客户的流失主要是自然流失、竞争流失和过失流失三种，自然流失是由于客户的迁徙等原因导致的客户流失，而竞争流失和过失流失是竞争对手的优惠政策和客户对目前的服务不满意而导致的客户流失，显然第二、三种流失的客户才是银行真正关心的，对银行具有挽留价值的客户。因此，我们在选择建模数据时必须选择第二、三种流失的客户数据参与建模，才能建立出较精确的模型。
　　2.数据分析与建模。数据分析就是对采样后的数据进行初步分析，试图寻找出不同变量之间的关联度，以及不同变量对于客户流失的影响程度。并非所有输入变量都是同样的重要，部分因子可能同客户流失无关，删除那些和客户流失概率相关性不大的变量，减少建模变量的数量。这样不仅可以缩短建立模型的时间，减小模型的复杂程度，而且可使建立的模型更加精确。
　　建立客户流失模型，必须遵循数据挖掘模型的建立与分析方法。运用相关的数据挖掘工具，数据挖掘工具能够提供包括决策树、贝叶斯判别、神经网络、近邻学习、回归、关联、聚类等多种建模方法。通过使用多种建模方法，预建立多个模型，再比较这些模型的优劣，从而选择出最适合客户流失分析的建模方法。整个建模过程实际上是一个不断循环的过程，一个模型分析的结果可能是另一个模型的输人变量。
　　3.模型的评估及应用。一个模型在建立之后，需要用大量的数据对其进行评估和验证。只有经过实际数据检验并被证明正确的模型才能得到充分的相信。模型的验证是数据挖掘成败的关键，不但要验证流失模型的过程正确，同时使用这些模型的其他输入和输出过程也要正确。验证的方法是在建模之前，我们把样本数据分为两部分：三分之二的数据用来建模，三分之一的数据用来评估和验证。输入用于检验的样本数据，比较通过该模型数据挖掘得到结果与已知历史结果的差异，如果差异很大，就要考虑改进模型或重新建立新的模型。

一旦模型确定后，即可以应用于当前的客户和业务活动中。通过客户流失基本特征模型在当前客户数据库中发现预测流失的群体；运用客户流失行为模型对当前客户数据库中客户的行为进行分析，预测流失趋势。进而制定有效的控制策略，以防止和减少客户的流失。
　　
　　三、客户流失预测
　　
　　建立客户流失模型的目的就是为了发现预测流失的目标群体和预测流失趋势。识别流失控制的目标群体，是银行客户流失预测的首要任务，为了识别流失控制的目标群体，必须引入客户价值分析，客户价值分析的意义在于：
　　1.对任何银行来说，不同的客户带来不同的利润回报，具有不同的价值。银行应当不再简单地追求客户数量，而应是更多地寻求客户的质量。客户价值分析可以帮助企业找到最有价值的客户群体。在银行的业务数据库中有三个要素能够作为客户价值分析的重要指标，这三个要素是：最近一次购买、购买频率和购买金额。最常购买的客户也是满意度最高的客户，增加客户购买的次数意味着从竞争对手处抢占了更多的市场占有率。
　　2.任何银行的资源都是有限的，为了在维持低成本的前提下获得高回报，银行要将有限的资源向重点客户倾斜。而实现这些策略的前提是对客户进行价值分析，了解客户的价值差异。按照客户价值以及其在所有客户中所占的比例，可将客户在价值维度上划分为VIP客户(大约占1%)、主要客户(约占4%)、普通客户(约占15%)和小客户(剩余80%)。针对不同的客户细分群采取差异化的服务策略，以减少客户流失率。
　　确定了流失控制的目标群体，客户流失预测的第二个任务就是，银行应根据客户流失的行为模型，跟踪和发现客户的流失趋势，及早采取预防措施，最大限度地降低客户流失率。面对激烈的市场竞争，银行一般可以采取3种策略：
　　(1)进攻策略：集中力量，发挥自身优势，主动发起攻势。加大科技投入，开发技术含量更高的产品，最大限度的满足客户需求，使客户的收益最大化，从而在保留住自己现有的客户的基础上，增加市场份额，去吸引和争取新的客户，抢夺竞争对手的用户。
　　(2)防守策略：如果企业自身能力有限，就应当努力提高服务水平和质量，采取优惠政策，尽量保持和巩固现有市场。防守策略有两个基本形式：提高用户满意程度，一个满意的顾客会引发8笔潜在的生意，其中至少有1笔成交，而一个不满意的顾客会影响25个人的购买意愿；设置转变壁垒(Switching Barriers)，所谓转变壁垒是指，用户转变到竞争对手的银行时，用户需要付出成本。
　　(3)撤退策略：对某一产品或服务，如果银行通过市场分析或前景预测，感到前景对自己不利，就干脆放弃这种产品或服务品种，以腾出资源开发新产品、占领新市场。
　　
　　四、结束语
　　
　　客户流失的根源在于市场竞争，通过建立流失预测模型，使银行能从源头上控制客户流失，防患于未然，从而有效的防止客户流失。在日益激烈的市场竞争中，防范客户流失不是银行经营中亡羊补牢式的被动行为，而应是贯穿银行经营管理始终的营销策略，防范客户流失同开发新市场、发展新客户具有同等重要的意义，甚至从营销效率考虑，防范客户流失比发展新客户更经济。

]]> <![CDATA[Data Mining的十种分析方法]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42951 BIFan 2009/2/11 0:01:02 zz from http://www.dmresearch.net/data-mining-other/200901/124401.html

1.记忆基础推理法（Memory-Based Reasoning；MBR）

　　记忆基础推理法最主要的概念是用已知的案例（case）来预测未来案例的一些属性（attribute），通常找寻最相似的案例来做比较。

　　记忆基础推理法中有两个主要的要素，分别为距离函数（distance function）与结合函数（combination function）。距离函数的用意在找出最相似的案例；结合函数则将相似案例的属性结合起来，以供预测之用。记忆基础推理法的优点是它容许各种型态的数据，这些数据不需服从某些假设。另一个优点是其具备学习能力，它能藉由旧案例的学习来获取关于新案例的知识。较令人诟病的是它需要大量的历史数据，有足够的历史数据方能做良好的预测。此外记忆基础推理法在处理上亦较为费时，不易发现最佳的距离函数与结合函数。其可应用的范围包括欺骗行为的侦测、客户反应预测、医学诊疗、反应的归类等方面。

2.市场购物篮分析（Market Basket Analysis）

　　购物篮分析最主要的目的在于找出什么样的东西应该放在一起？商业上的应用在藉由顾客的购买行为来了解是什么样的顾客以及这些顾客为什么买这些产品，找出相关的联想（association）规则，企业藉由这些规则的挖掘获得利益与建立竞争优势。举例来说，零售店可藉由此分析改变置物架上的商品排列或是设计吸引客户的商业套餐等等。

　　购物篮分析基本运作过程包含下列三点：

　　（1）选择正确的品项：这里所指的正确乃是针对企业体而言，必须要在数以百计、千计品项中选择出真正有用的品项出来。
　　（2）经由对共同发生矩阵（co-occurrence matrix）的探讨挖掘出联想规则。
　　（3）克服实际上的限制：所选择的品项愈多，计算所耗费的资源与时间愈久（呈现指数递增），此时必须运用一些技术以降低资源与时间的损耗。

购物篮分析技术可以应用在下列问题上：

　　（1）针对信用卡购物，能够预测未来顾客可能购买什么。
　　（2）对于电信与金融服务业而言，经由购物篮分析能够设计不同的服务组合以扩大利润。
　　（3）保险业能藉由购物篮分析侦测出可能不寻常的投保组合并作预防。
　　（4）对病人而言，在疗程的组合上，购物篮分析能作为是否这些疗程组合会导致并发症的判断依据。

3.决策树（Decision Trees）

　　决策树在解决归类与预测上有着极强的能力，它以法则的方式表达，而这些法则则以一连串的问题表示出来，经由不断询问问题最终能导出所需的结果。典型的决策树顶端是一个树根，底部有许多的树叶，它将纪录分解成不同的子集，每个子集中的字段可能都包含一个简单的法则。此外，决策树可能有着不同的外型，例如二元树、三元树或混和的决策树型态。

4.基因算法（Genetic Algorithm）

　　基因算法学习细胞演化的过程，细胞间可经由不断的选择、复制、交配、突变产生更佳的新细胞。基因算法的运作方式也很类似，它必须预先建立好一个模式，再经由一连串类似产生新细胞过程的运作，利用适合函数（fitness function）决定所产生的后代是否与这个模式吻合，最后仅有最吻合的结果能够存活，这个程序一直运作直到此函数收敛到最佳解。基因算法在群集（cluster）问题上有不错的表现，一般可用来辅助记忆基础推理法与类神经网络的应用。

5.群集侦测技术（Cluster Detection）

　　这个技术涵盖范围相当广泛，包含基因算法、类神经网络、统计学中的群集分析都有这个功能。它的目标为找出数据中以前未知的相似群体，在许许多多的分析中，刚开始都运用到群集侦测技术，以作为研究的开端。

6.连结分析（Link Analysis）

　　连结分析是以数学中之图形理论（graph theory）为基础，藉由记录之间的关系发展出一个模式，它是以关系为主体，由人与人、物与物或是人与物的关系发展出相当多的应用。例如电信服务业可藉连结分析收集到顾客使用电话的时间与频率，进而推断顾客使用偏好为何，提出有利于公司的方案。除了电信业之外，愈来愈多的营销业者亦利用连结分析做有利于企业的研究。

7.在线分析处理（On-Line Analytic Processing；OLAP）

　　严格说起来，在线分析处理并不算特别的一个数据挖掘技术，但是透过在线分析处理工具，使用者能更清楚的了解数据所隐藏的潜在意涵。如同一些视觉处理技术一般，透过图表或图形等方式显现，对一般人而言，感觉会更友善。这样的工具亦能辅助将数据转变成信息的目标。

8.类神经网络（Neural Networks）

　　类神经网络是以重复学习的方法，将一串例子交与学习，使其归纳出一足以区分的样式。若面对新的例证，神经网络即可根据其过去学习的成果归纳后，推导出新的结果，乃属于机器学习的一种。数据挖掘的相关问题也可采类神经学习的方式，其学习效果十分正确并可做预测功能。

9.区别分析（Discriminant Analysis）

　　当所遭遇问题它的因变量为定性（categorical），而自变量（预测变量）为定量（metric）时，区别分析为一非常适当之技术，通常应用在解决分类的问题上面。若因变量由两个群体所构成，称之为双群体 — 区别分析（Two-Group Discriminant Analysis）；若由多个群体构成，则称之为多元区别分析（Multiple Discriminant Analysis；MDA）。

　　（1）找出预测变量的线性组合，使组间变异相对于组内变异的比值为最大，而每一个线性组合与先前已经获得的线性组合均不相关。
　　（2）检定各组的重心是否有差异。
　　（3）找出哪些预测变量具有最大的区别能力。
　　（4）根据新受试者的预测变量数值，将该受试者指派到某一群体。

10.罗吉斯回归分析（Logistic Analysis）

　　当区别分析中群体不符合常态分配假设时，罗吉斯回归分析是一个很好的替代方法。罗吉斯回归分析并非预测事件（event）是否发生，而是预测该事件的机率。它将自变量与因变量的关系假定是S行的形状，当自变量很小时，机率值接近为零；当自变量值慢慢增加时，机率值沿着曲线增加，增加到一定程度时，曲线协率开始减小，故机率值介于0与1之间。

]]> <![CDATA[开篇语]]> http://blogger.org.cn/blog/more.asp?name=BIFan&id=42939 BIFan 2009/2/10 14:22:23 以此日志建立一个以BI为主题交流平台，与大家一起讨论BI的相关理论与知识。

也把自己积累的一些资料放这里与大家分享。

]]>