«July 2025»
12345
6789101112
13141516171819
20212223242526
2728293031

公告

欢迎到我的另一个家:http://haonan917.blog.163.com/ 。You can contact me at 163.com@haonan917.


导航
首页(102)
ComputerBy-talk(5)
商业智能(19)
English(6)
JAVA(5)
数据库(5)
读书笔记(1)
我爱电影(2)
数据挖掘(40)
开心一刻(5)
天下杂谈(14)
网易之道(3)

最新更新
国际版淘宝--速卖通多个职位虚位以待!
我的新浪微博,欢迎关注与交流
互联网产品数据化运营(一)氛围
一个合格数据分析人员的能力
TTNN BI观点 线下活动聚会——北京
网络用户行为挖掘的营销应用小结(转载)
新书介绍:Avinash的《网站分析2.
网站流量数据分析技巧【转】
libsvm-2.88中文帮助文档
2008,商业智能从业者曾如是说

新回复
回复:Apriori-java实现源码
回复:终于成功安装带EM的SAS9.1.
回复:终于成功安装带EM的SAS9.1.
回复:终于成功安装带EM的SAS9.1.
回复:终于成功安装带EM的SAS9.1.
回复:Apriori-java实现源码
回复:终于成功安装带EM的SAS9.1.
回复:互联网产品数据化运营(一)氛围
回复:互联网产品数据化运营(一)氛围
回复:终于成功安装带EM的SAS9.1.

留言
签写新留言

毕业论文
硕士论文写的什么方向,借点光
学习交流
1111
zzzzzz
急死我了
求助
请教
联系
请联系我

blog信息
blog名称:DMFighter(数据挖掘斗士)
日志总数:102
评论数量:527
留言数量:17
访问次数:909372
建立时间:2007年8月22日

链接

 我的HappyFranc

BICubes商务智能社区

     TTNN

SAS中文论坛

数据挖掘者博客

数据挖掘青年的博客

挖掘与人生

神威智能挖掘中心

神威异度空间

陆振波个人空间

Jerome's BI BLOG

Junelf's BLOG

Focus on BI'Blog

weka中文站论坛

weka英文站

数据挖掘讨论组

DataSciencesAnalyticsWebolg

数据挖掘研究院

ACM KDD Group

DataMining Course

中国商业智能网

 
















 


 把数据转化成智慧,并执行之

本站首页    管理页面    写新日志    退出

[数据挖掘]关于DM的一点总结【转】
DMFighter 发表于 2007/8/22 13:25:02

用IBM的IM做过一段时间的电信客户挖掘,由于时间不是很长,做的挖掘模型效果还有待提高应朋友要求简单总结几点(水平有限,也希望经验丰富的朋友给些建议): 1、挖掘工具主要分商业数据产品和集成数据挖掘产品两类:商业数据挖掘产品具有代表性的SPSS Clementine,SAS Enterprise Miner,IBM Intelligent Miner;SQL Server2005属于集成了挖掘模型类的,挖掘算法与SQL数据库产品密不可分,你甚至可以把自己实现的数据挖掘算法跟SQL进行集成,Oracle也类似,DB2的BI功能没怎么用,不是很清楚。   2、数据挖掘过程的重点绝对是数据预处理,一般认为预处理工作会占60%-80%时间不等,为什么预处理会如此重要,大家都知道garbage in garbage out的道理,这在整个BI领域都是成立的。商业智能-既然提到智能层面,那就不只是展现,还要做分析和预测(不过现阶段很多BI项目确实只是在做展现,最多加点多维分析)。BI概念提出之初就是辅助战略决策的产物,当然向操作型BI发展的趋势这里不做过多介绍,经验告诉我们战略决策是基于历史和别人现成经验的,怎样从历史数据的展现和分析过程中得到有用知识,不管你是通过报表或多维分析得到企业各领域指标相关性,还是通过挖掘模型的实施来根据历史数据预测企业未来发展,这一切都是基于企业历史数据的。没有数据质量基础的保证,展现得多华丽的走势图表都是垃圾。 (1)如果是基于数据仓库或者数据集市的挖掘,那么可直接在仓库或者数据集市中建立挖掘模型源输入(也可叫临时宽表,这个表是根据挖掘业务需求对其他维度表属性的一个综合提取,合适的时间窗口在这里是个要考虑的关键因素);如果是没有仓库或集市这一数据基础,那么就需要一个针对挖掘业务需求字段属性的简单ETL(提取/变换/装入)过程了。 (2)上面只是挖掘源数据的建立,接下来才进入数据预处理的核心阶段,由于源数据(临时宽表)里面很多数据是有偏差的,比如空值,错误值,异常值等...这就需要根据每个业务字段属性的规范标准来进行处理,这步是一个繁杂的工程,数据预处理技术各式各样,比较有代表性的有数据清理、数据集成、数据变换、数据归约、离散化和概念分层等等;而且针对不同字段数据特征,不同的数据处理技术往往会导致挖掘的结果差异。虽然商业数据挖掘产品都提供了常用的数据预处理技术,但要用好,除了需要一些统计学,数据分布等知识外,对该字段对应的业务理解和挖掘过程的数据预处理方法差异的经验积累才是关键因素。就拿属性归约来将,很多挖掘产品有因子分析工具,貌似可以自动对所有属性字段做一个挖掘相关重要性因素从大大小的排序,但这也不能全信,毕竟工具是死的,它只能从数据本身的数理特征去理解和自动分析,例如有些业务字段可能数据分布的特征不符合因子分析的重要性条件,但对该数据挖掘模型贡献确是很大的。这样的情况虽说不多,却是值得注意的地方。   3、经过上面两步,挖掘模型数据输入算是初步建立起来了。接下来需要对所应用的挖掘模型有个初步理解,有朋友赞成挖掘模型是“黑匣子”的观点,有朋友赞成需要对挖掘模型的专业理解。我保持中庸的观点:如果不是做算法研究的朋友,只是做挖掘模型应用,却需要对挖掘模型算法有专业理解是不现实的,毕竟公司讲的效益和效率,不像是在实验室,有的是时间让你查资料,折腾进而对模型有个深入全面的理解;但完全黑匣子也是不妥的,一个对该挖掘模型完全不理解的人,指望能利用该模型挖掘出有用知识是不可能的。一是他不可能对挖掘结果有很好的理解;二是参数的调整是最大障碍,挖掘过程本来就是迭代过程,对算法完全不了解的参数设置乱设一通就指望得出较优模型更是天方夜潭。个人认为对挖掘模型大致原理是有必要了解的,再就是每个参数的范围及所代表的意义和对模型所起作用也是需要了解的。   4、数据规模也是个关键因素,训练数据,测试数据,验证数据?训练数据是选连续五个月加起来10万条记录,还是选连续三个月加起来6万条记录;测试数据是选两个月加起来2万条记录还是只选一个月?如果一个月数据就有几十万条记录,那么采取那种方式抽取几万条记录,是随机取还是写个简单选择算法?10万条记录挖掘模型跑了一晚上才出来结果,用5万条记录跑出来效果跟用10万条记录的差异大不大?抽取几千条记录完全可以用统计模型实现,为什么还要抽取上万记录用复杂的挖掘模型呢?这些因素很难说有个统一标准,相信很多人还是相信自己的经验多一点,像我等菜鸟们也只能指望经验丰富的老鸟们多出几本数据挖掘指南了。   5、不管是需求分析还是挖掘模型的评估及应用,和业务人员和决策者们的充分沟通交流是完全必要的。闭们造车的数据挖掘模型是脆弱的...   [Nirvana 发表于 2007-6-26 21:37:00]   http://210.76.106.31/blog/user1/105/archives/2007/1515.html  

阅读全文(3282) | 回复(0) | 编辑 | 精华



发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)
                                                                                                                                                 
                                                                                                                                     

                                                                      

站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.250 second(s), page refreshed 144761113 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号