IDMer (数据挖掘者)--缺失值和特殊值：数据分析的烦扰

首页(175)　数据挖掘研究(27)　数据挖掘实践(53)　数据挖掘介绍(25)　杂谈(59)　管理页面写新日志退出关于IDMer

Blog信息
	blog名称:IDMer (数据挖掘者) 日志总数:175 评论数量:848 留言数量:119 访问次数:2591846 建立时间:2005年6月24日

日志更新
	数据挖掘中易犯的10大错误古镇河边闲读，清明偷闲饮茶 Google提供免费的在线Web分析课程自我介绍升职为Principal Consult 分析能力的8个等级开源数据挖掘软件 KNIME 2.0.0 【转】互联网CEO学历与籍贯，50%硕博

我的相册

最新评论
	回复:数据挖掘中易犯的10大错误回复:数据分析/数据挖掘人员的专业社交网回复:Weka入门教程（3）回复:决策树学习回复:“Friends”英文字幕下载

留言板
	签写新留言请教建决策树中碰到的问题数据挖掘中的分类 help 求教数据挖掘的路线

链接

LightsOcean
IDMer on sohu
IDMer on Livespace
IDMer on Google notebook
KDnuggets *****
DMReview *****
StatSoft ****
CRM Community ****
CustomerThink ****
DMG ****
ACM SIGKDD *****
Jiawei Han****
SAS
SPSS
KXEN
Weka中文站
RapidMiner
SAS中文论坛
中国统计网
数据挖掘研究院
数据库专委会
LAMDA机器学习与数据挖掘研究组
--------------------------
Business Analysis in China
CRMSKY
DMman 数据挖掘青年
Focus on BI
走吧

联系方式

日志搜索

公告

“数据挖掘者”博客已经搬家，欢迎光临新博客网址：http://idmer.blog.sohu.com
我的新浪微博：@张磊IDMer

网络日志

	缺失值和特殊值：数据分析的烦扰

	数据挖掘者发表于 2007/4/14 22:20:33

	转自：http://abbottanalytics.blogspot.com/2007/03/missing-values-and-special-values.html IDMer：对于数据挖掘和分析人员来说，数据准备（Data Preparation，包括数据的抽取、清洗、转换和集成）常常占据了70%左右的工作量。而在数据准备的过程中，数据质量差又是最常见而且令人头痛的问题。本文针对缺失值和特殊值这种数据质量问题，进行了初步介绍并推荐了一些处理方法。值得注意的是，这里所说的缺失值，不仅包括数据库中的NULL值，也包括用于表示数值缺失的特殊数值（比如，在系统中用-999来表示数值不存在）。如果我们仅有数据库的数据模型，而缺乏相关说明，常常需要花费更多的精力来发现这些数值的特殊含义。而如果我们漠视这些数值的特殊性，直接拿来进行挖掘，那么很可能会得到错误的结论。还有一种数值缺失的情况，是因为我们要求统计的时间窗口并非对所有数据都适合。例如，我们希望计算出“客户在以前六个月内的最大存款余额”，对于那些建立账户尚不满六个月的客户来说，统计出来的数值与我们想要得到的就可能存在差距。一般来说，对缺失值的填充方法有多种，用某个常数来填充常常不是一个好方法。最好建立一些模型，根据数据的分布来填充一个更恰当的数值。（例如根据其它变量对记录进行数据分箱，然后选择该记录所在分箱的相应变量的均值或中位数，来填充缺失值，效果会更好一些） Tuesday, March 13, 2007 Missing Values and Special Values: The Plague of Data Analysis Every so often, an article is published on data mining which includes a statistic like "Amount of data mining time spent preparing the data: 70%", or something similar , expressed as a pie chart. It is certainly worth the investment of time and effort at the beginning of a data mining project, to get the data cleaned up, to maximize model performance and avoid problems later on.Two related issues is data preparation are missing values and special values. Note that some "missing values" are truly "missing values" (items for which there is a true value which is not present in the data), while others are actually special values or undefined (or at least poorly defined) values. Much has already been written about truly missing values, especially in the statistical literature. See, for instance:Dealing with Missing Data, by Judi SchefferMissing data, by Thomas LumleyWorking With Missing Values, by Alan C. AcockHow can I deal with missing data in my study?, by Derrick A. BennettAdvanced Quantitative Research Methodology, G2001, Lecture Notes: Missing Data, by Gary KingImportant topics to understand and keywords to search on, if one wishes to study missing data and its treatment are: MAR ("missing at random"), MCAR ("missing completely at random"), NMAR ("not missing at random"), non-response and imputation (single and multiple).Special values, which are not quite the same as missing values, also require careful treatment. An example I encountered recently in my work with bank account data was a collection of variables which were defined over lagged time windows, such as "maximum balance over the last 6 months" or "worst delinquency in the last 12 months".The first issue was that the special values were not database nulls ("missing values"), but were recorded as flag values, such as -999.The second issue was that the flag values, while consistent within individual variables, varied across this set of variables. Some variables used -999 as the flag value, others used -999.99. Still others used -99999.The first and second issues, taken together, meant that actually detecting the special values was, ultimately, a tedious process. Even though this was eventually semi-automated, the results needed to be carefully checked by the analyst.The third issue was the phenomenon driving the creation of special values in the first place: many accounts had not been on the system long enough to have complete lagged windows. For instance, an account which is only 4 months old has not been around long enough to accumulate 12 months worth of delinquency data. In this particular system, such accounts received the flag value. Such cases are not quite the same as data which has an actual value which is simply unrecorded, and methods for "filling-in" such holes probably would provide spurious results.A similar issue surrounds a collection of variables which relies on some benchmark event- which may or may not have happened, such as "days since purchase" or "months since delinquency". Some accounts had never purchased anything, and others had never been delinquent. One supposes that, theoretically, such situations should have infinity recorded. In the actual data, though, they had flag values, like -999.Simply leaving the flag values makes no sense. There are a variety of ways of dealing with such circumstances, and solutions need to be carefully chosen given the context of the problem. One possibility is to convert the original variable to one which represents, for instance, the probability of the target class (in a classification problem). A simple binning or curve-fitting procedure would act as a single-variable model of the target, and the special value would be assigned whatever probability was observed in the training data for those cases.Many important, real circumstances will give rise to these special values. Be vigilant, and treat them with care to extract the most information from them and avoid data mining pitfalls. Labels: missing data, missing values, special values posted by Will Dwinnell at 5:52 PM 2 Comments: Dean Abbott said... Ahhh. I'm dealing with missing values on a project this week, so this is exactly up my alley!One book I really like too on missing values is by Paul Allison,2001 Missing Data. Thousand Oaks, CA: Sage Publications. It's from a statistical perspective (so it spends time on maximum likelihood techniques as one example, something that data miners rarely do in my experience), but it is still excellent.I also like Dorian Pyle's book on Data Preparation -- he persuaded me in the book to consider imputing to a distribution as an improvement over mean/median imputation, and I've actually used it on many occasions.As one other extreme, something I haven't seen written up anywhere, but one I've used as well (and is related to Pyle's technique), rather than randomly imputing from a distribution, like a normal, Poisson, or other distribution, us one matches your data. Just grab a random value from your actual training data--this is particularly good when you don't have a clean distribution.But when possible, I prefer something smarter like building models to impute missing values--even when the models stink, they are almost always better than random or constant-value imputation. 8:02 PM Will Dwinnell said... I agree. Filling in missing values with global constants is almost never a good idea, unless perhaps the proportion of missings is extremely small.All imputation methods are, essentially, models. I've found that dividing up the data by deciles of even one (but preferably multiple) other variable, and filling in locally with the local mean or median is relatively inexpensive and much better than filling in with global constants. 转自：http://www.t1soft.com/6-2/d2-060521.htm 关于数据缺失问题的总结作者：enova　摘自:《计算机科学论坛》　　　造成数据缺失的原因在各种实用的数据库中，属性值缺失的情况经常发全甚至是不可避免的。因此，在大多数情况下，信息系统是不完备的，或者说存在某种程度的不完备。造成数据缺失的原因是多方面的，主要可能有以下几种： 1）有些信息暂时无法获取。例如在医疗数据库中，并非所有病人的所有临床检验结果都能在给定的时间内得到，就致使一部分属性值空缺出来。又如在申请表数据中，对某些问题的反映依赖于对其他问题的回答。　2）有些信息是被遗漏的。可能是因为输入时认为不重要、忘记填写了或对数据理解错误而遗漏，也可能是由于数据采集设备的故障、存储介质的故障、传输媒体的故障、一些人为因素等原因而丢失了。　3）有些对象的某个或某些属性是不可用的。也就是说，对于这个对象来说，该属性值是不存在的，如一个未婚者的配偶姓名、一个儿童的固定收入状况等。　4）有些信息（被认为）是不重要的。如一个属性的取值与给定语境是无关的，或训练数据库的设计者并不在乎某个属性的取值（称为dont-care value）[37]。　5）获取这些信息的代价太大。　6）系统实时性能要求较高，即要求得到这些信息前迅速做出判断或决策。　　　数据缺失机制　　在对缺失数据进行处理前，了解数据缺失的机制和形式是十分必要的。将数据集中不含缺失值的变量（属性）称为完全变量，数据集中含有缺失值的变量称为不完全变量，Little 和 Rubin定义了以下三种不同的数据缺失机制[38]：　　1）完全随机缺失（Missing Completely at Random，MCAR）。数据的缺失与不完全变量以及完全变量都是无关的。　　2）随机缺失（Missing at Random，MAR）。数据的缺失仅仅依赖于完全变量。　　3）非随机、不可忽略缺失（Not Missing at Random,NMAR，or nonignorable）。不完全变量中数据的缺失依赖于不完全变量本身，这种缺失是不可忽略的。　　　空值语义　　对于某个对象的属性值未知的情况，我们称它在该属性的取值为空值(null value)。空值的来源有许多种，因此现实世界中的空值语义也比较复杂。总的说来，可以把空值分成以下三类[39]：　　1)不存在型空值。即无法填入的值，或称对象在该属性上无法取值，如一个未婚者的配偶姓名等。　　2)存在型空值。即对象在该属性上取值是存在的，但暂时无法知道。一旦对象在该属性上的实际值被确知以后，人们就可以用相应的实际值来取代原来的空值，使信息趋于完全。存在型空值是不确定性的一种表征，该类空值的实际值在当前是未知的。但它有确定性的一面，诸如它的实际值确实存在，总是落在一个人们可以确定的区间内。一般情况下，空值是指存在型空值。　　3)占位型空值。即无法确定是不存在型空值还是存在型空值，这要随着时间的推移才能够清楚，是最不确定的一类。这种空值除填充空位外，并不代表任何其他信息。　　　空值处理的重要性和复杂性　　数据缺失在许多研究领域都是一个复杂的问题。对数据挖掘来说，空值的存在，造成了以下影响：首先，系统丢失了大量的有用信息；第二，系统中所表现出的不确定性更加显著，系统中蕴涵的确定性成分更难把握；第三，包含空值的数据会使挖掘过程陷入混乱，导致不可靠的输出。　　数据挖掘算法本身更致力于避免数据过分适合所建的模型，这一特性使得它难以通过自身的算法去很好地处理不完整数据。因此，空缺的数据需要通过专门的方法进行推导、填充等，以减少数据挖掘算法与实际应用之间的差距。　　　空值处理方法的分析比较　　处理不完备数据集的方法主要有以下三大类：　　（一）删除元组　　也就是将存在遗漏信息属性值的对象（元组，记录）删除，从而得到一个完备的信息表。这种方法简单易行，在对象有多个属性缺失值、被删除的含缺失值的对象与信息表中的数据量相比非常小的情况下是非常有效的，类标号（假设是分类任务）缺少时通常使用。然而，这种方法却有很大的局限性。它是以减少历史数据来换取信息的完备，会造成资源的大量浪费，丢弃了大量隐藏在这些对象中的信息。在信息表中本来包含的对象很少的情况下，删除少量对象就足以严重影响到信息表信息的客观性和结果的正确性；当每个属性空值的百分比变化很大时，它的性能非常差。因此，当遗漏数据所占比例较大，特别当遗漏数据非随机分布时，这种方法可能导致数据发生偏离，从而引出错误的结论[40]。　　（二）数据补齐　　这类方法是用一定的值去填充空值，从而使信息表完备化。通常基于统计学原理，根据决策表中其余对象取值的分布情况来对一个空值进行填充，譬如用其余属性的平均值来进行补充等。数据挖掘中常用的有以下几种补齐方法[41,42]：　　(1)人工填写（filling manually）　　由于最了解数据的还是用户自己，因此这个方法产生数据偏离最小，可能是填充效果最好的一种。然而一般来说，该方法很费时，当数据规模很大、空值很多的时候，该方法是不可行的。　　(2)特殊值填充（Treating Missing Attribute values as Special values）　　将空值作为一种特殊的属性值来处理，它不同于其他的任何属性值。如所有的空值都用“unknown”填充。这样将形成另一个有趣的概念，可能导致严重的数据偏离，一般不推荐使用。　　(3)平均值填充（Mean/Mode Completer）　　将信息表中的属性分为数值属性和非数值属性来分别进行处理。如果空值是数值型的，就根据该属性在其他所有对象的取值的平均值来填充该缺失的属性值；如果空值是非数值型的，就根据统计学中的众数原理，用该属性在其他所有对象的取值次数最多的值(即出现频率最高的值)来补齐该缺失的属性值。另外有一种与其相似的方法叫条件平均值填充法（Conditional Mean Completer）。在该方法中，缺失属性值的补齐同样是靠该属性在其他对象中的取值求平均得到，但不同的是用于求平均的值并不是从信息表所有对象中取，而是从与该对象具有相同决策属性值的对象中取得。这两种数据的补齐方法，其基本的出发点都是一样的，以最大概率可能的取值来补充缺失的属性值，只是在具体方法上有一点不同。与其他方法相比，它是用现存数据的多数信息来推测缺失值。　　(4)热卡填充（Hot deck imputation，或就近补齐）　　对于一个包含空值的对象，热卡填充法在完整数据中找到一个与它最相似的对象，然后用这个相似对象的值来进行填充。不同的问题可能会选用不同的标准来对相似进行判定。该方法概念上很简单，且利用了数据间的关系来进行空值估计。这个方法的缺点在于难以定义相似标准，主观因素较多。　　(5)K最近距离邻法（K-means clustering）　　先根据欧式距离或相关分析来确定距离具有缺失数据样本最近的K个样本，将这K个值加权平均来估计该样本的缺失数据。　　(6)使用所有可能的值填充（Assigning All Possible values of the Attribute）　　这种方法是用空缺属性值的所有可能的属性取值来填充，能够得到较好的补齐效果。但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大，可能的测试方案很多。另有一种方法，填补遗漏属性值的原则是一样的，不同的只是从决策相同的对象中尝试所有的属性值的可能情况，而不是根据信息表中所有对象进行尝试，这样能够在一定程度上减小原方法的代价。　　(7)组合完整化方法（Combinatorial Completer）　　这种方法是用空缺属性值的所有可能的属性取值来试，并从最终属性的约简结果中选择最好的一个作为填补的属性值。这是以约简为目的的数据补齐方法，能够得到好的约简结果；但是，当数据量很大或者遗漏的属性值较多时，其计算的代价很大。另一种称为条件组合完整化方法（Conditional Combinatorial Complete），填补遗漏属性值的原则是一样的，不同的只是从决策相同的对象中尝试所有的属性值的可能情况，而不是根据信息表中所有对象进行尝试。条件组合完整化方法能够在一定程度上减小组合完整化方法的代价。在信息表包含不完整数据较多的情况下，可能的测试方案将巨增。　　(8)回归（Regression）　　基于完整的数据集，建立回归方程（模型）。对于包含空值的对象，将已知属性值代入方程来估计未知属性值，以此估计值来进行填充。当变量不是线性相关或预测变量高度相关时会导致有偏差的估计。　　(9)期望值最大化方法（Expectation maximization，EM）　　EM算法是一种在不完全数据情况下计算极大似然估计或者后验分布的迭代算法[43]。在每一迭代循环过程中交替执行两个步骤：E步（Excepctaion step,期望步），在给定完全数据和前一次迭代所得到的参数估计的情况下计算完全数据对应的对数似然函数的条件期望；M步（Maximzation step，极大化步），用极大化对数似然函数以确定参数的值，并用于下步的迭代。算法在E步和M步之间不断迭代直至收敛，即两次迭代之间的参数变化小于一个预先给定的阈值时结束。该方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。　　(10)多重填补（Multiple Imputation，MI）　　多重填补方法[44]分为三个步骤：①为每个空值产生一套可能的填补值，这些值反映了无响应模型的不确定性；每个值都被用来填补数据集中的缺失值，产生若干个完整数据集合。②每个填补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个填补数据集的结果进行综合，产生最终的统计推断，这一推断考虑到了由于数据填补而产生的不确定性。该方法将空缺值视为随机样本，这样计算出来的统计推断可能受到空缺值的不确定性的影响。该方法的计算也很复杂。　　(11)C4.5方法　　通过寻找属性间的关系来对遗失值填充[45]。它寻找之间具有最大相关性的两个属性，其中没有遗失值的一个称为代理属性，另一个称为原始属性，用代理属性决定原始属性中的遗失值。这种基于规则归纳的方法只能处理基数较小的名词型属性。　　就几种基于统计的方法而言，删除元组法和平均值法差于hot deck、EM和MI；回归是比较好的一种方法，但仍比不上hot deck和EM；EM缺少MI包含的不确定成分[46]。值得注意的是，这些方法直接处理的是模型参数的估计而不是空缺值预测本身。它们合适于处理无监督学习的问题，而对有监督学习来说，情况就不尽相同了[47]。譬如，你可以删除包含空值的对象用完整的数据集来进行训练，但预测时你却不能忽略包含空值的对象。另外，C4.5和使用所有可能的值填充方法也有较好的补齐效果[42]，人工填写和特殊值填充则是一般不推荐使用的。　　补齐处理只是将未知值补以我们的主观估计值，不一定完全符合客观事实，在对不完备信息进行补齐处理的同时，我们或多或少地改变了原始的信息系统。而且，对空值不正确的填充往往将新的噪声引入数据中，使挖掘任务产生错误的结果。因此，在许多情况下，我们还是希望在保持原始信息不发生变化的前提下对信息系统进行处理。这就是第三种方法：　　（三）不处理　　直接在包含空值的数据上进行数据挖掘。这类方法包括贝叶斯网络[48]和人工神经网络[49]等。　　贝叶斯网络是用来表示变量间连接概率的图形模式，它提供了一种自然的表示因果信息的方法，用来发现数据间的潜在关系。在这个网络中，用节点表示变量，有向边表示变量间的依赖关系。贝叶斯网络仅适合于对领域知识具有一定了解的情况，至少对变量间的依赖关系较清楚的情况。否则直接从数据中学习贝叶斯网的结构不但复杂性较高（随着变量的增加，指数级增加），网络维护代价昂贵，而且它的估计参数较多，为系统带来了高方差，影响了它的预测精度。当在任何一个对象中的缺失值数量很大时，存在指数爆炸的危险。　　人工神经网络可以有效的对付空值，但人工神经网络在这方面的研究还有待进一步深入展开。人工神经网络方法在数据挖掘应用中的局限性，本文在2.1.5节中已经进行了阐述，这里就不再介绍了。　　总结：大多数数据挖掘系统都是在数据挖掘之前的数据预处理阶段采用第一、第二类方法来对空缺数据进行处理。并不存在一种处理空值的方法可以适合于任何问题。无论哪种方式填充，都无法避免主观因素对原系统的影响，并且在空值过多的情形下将系统完备化是不可行的。从理论上来说，贝叶斯考虑了一切，但是只有当数据集较小或满足某些条件（如多元正态分布）时完全贝叶斯分析才是可行的。而现阶段人工神经网络方法在数据挖掘中的应用仍很有限。值得一提的是，采用不精确信息处理数据的不完备性已得到了广泛的研究。不完备数据的表达方法所依据的理论主要有可信度理论、概率论、模糊集合论、可能性理论，D-S的证据理论等。

	阅读全文(8498) \| 回复(1) \| 编辑 \| 精华

	回复:缺失值和特殊值：数据分析的烦扰

	hehe(游客)发表评论于2007/11/16 7:46:33

	请问你有EM算法的C++源程序吗?

	个人主页 \| 引用回复 \| 主人回复 \| 返回 \| 编辑 \| 删除

» 1 »

发表评论：

昵称：
密码：
主页：
标题：

验证码： (不区分大小写,请仔细填写,输错需重写评论内容！)

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.031 second(s), page refreshed 144832762 times.
《全国人大常委会关于维护互联网安全的决定》《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号