|
« | July 2025 | » | 日 | 一 | 二 | 三 | 四 | 五 | 六 | | | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 | 19 | 20 | 21 | 22 | 23 | 24 | 25 | 26 | 27 | 28 | 29 | 30 | 31 | | | |
|
blog信息 |
blog名称:DMFighter(数据挖掘斗士) 日志总数:102 评论数量:527 留言数量:17 访问次数:909615 建立时间:2007年8月22日 | |
|
|
[商业智能]中国离"啤酒与尿布"还有多远?  |
中国离"啤酒与尿布"还有多远?自从"啤酒和尿布"的故事在中国广泛流传之后,数据仓库在中国也热闹了一阵子,我们曾对它抱以极大的希望,但时隔不久数据仓库应用就进入了"冬眠期"?数据仓库技术在中国的应用受到了哪些因素的制约?
数据仓库是在数据库基础上发展而来的,它通常有三个部分:数据仓库(Data Warehousing)、联机分析处理(OLAP)及数据挖掘 (Datamining),它们之间具有极强的互补关系。
1、市场环境压力大小决定数据战略时间迫切程度 数据仓库是为了满足人们在高度数据积累基础上进行数据分析的需要而产生的,但由于目前中国在基础数据的积累方面存在不足,导致数据仓库技术的应用没能推 广开来。这种技术如何被多数人所接受呢?而不至于被认为是"只为报表而存在"。我认为要使数据仓库被多数人接受,首先需要解决的问题就是数据挖掘技术如 何与现有商业技术的结合。
目前市场上已有多种适用解决所有商业模式的通用数据挖掘系统,但实际上这些系统极其不好用,只有那些非常熟悉数据挖掘技术的人才能够理解和使用它们,而 普通用户是很难应用这些技术来解决自己的商业问题。
但数据战略最大的屏障则是企业中竞争意识、服务意识不强,对于决策分析的需求不迫切,或只是挂在嘴上,没有实际的实施可能。其深层的现象是,目前企业没 有建立起一个管理机制来推动数据的共享,不论是对人的能力、企业的组织制度还是数据质量都没有一个连续的管理机制,要在这样的基础之上建立好用的数据分 析是非常困难的。
实际上,在国外市场竞争非常激烈,每个企业为了自身的生存,已经想尽了办法,很多能够被人工发现的规律早就发现了,在这种情况下,使用数据挖掘技术来解 决问题是一个很正常的想法。而国内企业,正处于传统经济转向到市场经济的浪潮中,从管理者、到实施者均尚没有认识到"生存"的真正压力,小小的"聪 明"就能"博出位"。
2、数据挖掘远非听起来这么简单 数据挖掘工具并不能直接告诉决策者应该把啤酒和尿布摆在一起卖。实际上,数据仓库之上的数据挖掘更像一个过程,一个用户逐步认识自己、提高自己的过程, 数据仓库与业务系统并不是平行的关系,它应该是基于所有业务系统之上的,对业务信息进行采集、分析、整理和发布等,应该是一个稳定的、带有时间参数的数 据集合。
数据仓库是企业进行数据分析的基础,它的主要工作是将数据库中的原始数据进行归纳整理,聚集成一个可供高层次使用的数据集合。在数据仓库的基础上有两类 分析工具,一类是做分析型工作的OLAP,另一类是做预测型工作的数据挖掘。所以,数据仓库最大的客户应该是企业的商业智能部门,或以商业智能为中心的 数据营运分析中心。
我们总是希望自己能在企业数据中,发现像"啤酒和尿布"这样具有关联性的规律,并为企业创造价值,但目前这套技术体系,无论在中国还是在世界其他国家, 应用都受到一定制约,最主要的原因是,你不是一个数据库专家、统计学专家以及人工智能专家,你将很难用好这样的分析工具。
3、数据仓库与数据挖掘商用价值趋向 从先进国家的经验中我们发现,联机交易处理系统(OLTP)和企业数据信息网两项信息化基础设施是必备的信息技术条件,竞争环境越激烈就越需要数据系 统,企业需要了解客户的需求、需要发现经营风险同时还需要进行经营分析和管理,所有这些分析都属于大数据量的分析,采用传统的信息技术将会产生很多局限性,必须依靠一个TB级的数据仓库系统才能解决以上问题。
我个人一直找思考,数据仓库之上的BI应用,思考数据仓库与数据挖掘的商业应用方向,数据仓库并不能直接告诉决策者应该把啤酒和尿布摆在一起,所以企业 不能将所有的"宝"都压在数据仓库上。如果说数据仓库是一支好"枪",那么决策者就应该是"玩枪的人"。
数据仓库中有两大类的应用,分别是在线分析和数据挖掘,在线分析侧重于对所有事务进行多角度的展现,而数据挖掘则侧重于对事务中蕴涵的未知规律进行发 现。从业务上看,两者都可以用来发现和总结规律,一种是通过验证某些猜想来发现规律,另一种则是通过数据来找寻隐含的未知规律。
数据挖掘的成功取决于对数据的合理处理及算法,它并不是对任何规则都能够去发现的万能工具,所以使用者对自己的业务越熟悉,就越能够给数据挖掘提供完善 的帮助和指导,盲目地使用数据挖掘,或是与OLAP的排序统计概念混淆,只能留下对数据挖掘技术的遗憾。
文章引用自: http://blog.sina.com.cn/tbbi
以下为TTNN主编刘庆的回复:
对于BI的这些技术为什么难以应用,我认为还是在于缺乏简洁而满足需求的应用模式,这是无法造成BI应用井喷的关键所在。
一直以来,BI似乎没什么突破性,在技术上,数据仓库可以算是在传统关系数据库上考虑多维建模,以及专门用于海量数据存储、访问的硬件。OLAP,历史也已经很¬悠久,也有几十年,多位数据库看起来到是一种突破。数据挖掘,大部分是将别的学科,诸如统计、人工智能的技术堆起来,套上方法论。历史上,革命大多是由应用的突¬破引起的。
比如电的这个东西很早有人发现,富兰克林、伏特、法拉第都有贡献。其中最晚的法拉第已经是19世纪中期,那时候已经有电池的雏形,已经有物理电力线的概念,不过¬还是等到爱迪生把电灯发明以后,大概也是比法拉第的发现晚几十年以后吧。大家看这东西实在是好,才有需求井喷,然后再广泛布线,普及了。
在看看计算机的发展,也是如此。早先的大型机,都是高端应用,也只有那些学院里面的教授们才能忍受从纸带上读取信息。还是等待PC的出现,才让计算机需求井喷,¬从而让计算机技术飞速发展。
还有网络的例子。互联网雏形早已存在,但也是给学术、军事上面用的,90年web出现了,不过也是小范围内使用。他算是一种基于互联网的应用,但仍然,他还是不¬是面向最终使用者的应用,直到95年网景推出netscape,那家伙,想当猛,互联网上一下子诞生多少页面啊。
这样的例子举不胜举。有些技术停滞不前,那是因为缺乏简洁的应用,无法带动需求。BI差不多就是这一类型的,不是技术不好,而是真的能够看出好出来吗?如果一个¬BI系统,能够让你准确预测股市走势,那BI就火了。可是咱们现在看不出来他的好来,就像在电灯之前看电,pc之前看计算机一样,总认为那是个虚无飘渺的东西,¬跟我们老百姓没啥关系。
数据仓库是应用吗?OLAP是应用吗?数据挖掘是应用吗?都不是,都是技术。恐怕最贴近应用的还算是OLAP了,不过他还是太复杂,谁愿意在决策的时候钻来钻去¬,想到一个新的分析角度它又无能为力了。那个啤酒加尿布的故事,忽悠了不少人,可是它算什么应用,只是一个可以说事儿的点。它是数据挖掘吗?不是,它是可能是挖¬掘的结论,而且恐怕还不是直接结论,是从业务上进一步解读的结果,这个解读是人的大脑作出的判断。沃尔马和teradata忽悠了这个案例,无非还是说,我们有¬比较牛比的工具,我们是成功的。这是从利益出发的,大家可以将他看作是广告。
BI,就像现在要死不活的样子,还是生存和死亡的问题,to be or not to be。如果这些技术不能产生简洁而满足需求的应用,那么BI就得歇菜,这些技术打包到其他领域生存。要不就诞生一种牛比应用,BI继续活下去,滋润地很。 可谁知道这牛比应用是什么呢?这就是得突破了,天天构思如何建数据仓库,如何挖掘恐怕是难以突破的,还是得盯住需求,盯住决策者的行为。对此,我想对于BI界同¬仁来说,确实是BI兴亡,匹夫有责。对于这个问题的思索和不断尝试,也将是ttnn努力去追寻的。
http://groups.google.com/group/ttnn/browse_thread/thread/98f076809ba9a219/ae4fc751d7f8ed65?hl=zh-CN#ae4fc751d7f8ed65 | |
|
|
|