本站首页    管理页面    写新日志    退出

公告

You are all my reasons! 

桃李花林又一在

淫荡一日同风起,风骚直上九万里

仙子凌波微步罗衫飘忽十步一回头

我的最爱:网游,程序,文学

QQ:89636669


我的分类(专题)

日志更新

最新评论

留言板

链接

Blog信息
blog名称:一维空间
日志总数:163
评论数量:248
留言数量:33
访问次数:651464
建立时间:2007年10月24日




 [数据挖掘]关于数据挖掘的术语

dskongenius 发表于 2007/10/24 21:37:14

数据挖掘一些相关术语(Glossary)人工神经网络(Artificial Neural Networks)一种非线性预测模型,通过训练和在结构上模仿生物神经网络来学习。分类和衰退树(CART Classification and Regression Trees)一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个两路分化对一个数据集进行分段。较CHAID 技术,它需要较少的数据准备。正方自动交互发现(CHAID Chi Square Automatic Interaction Detection)一种用于数据集分类决策树技术。它提供一套也可用于一个新的未分类的数据集的规则,以预测哪些记录将有一个给定的结果。通过创建一个“多路分化”对一个数据集进行分段。较 CART 技术,它需要较多的数据准备。分类(classification)一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与你正在试图预测的指定变量有关。例如:一个典型的分类问题是把一个有关公司的数据库按其信用值分组为“好与坏”,使他们尽可能与实际信用度相符。簇化/聚类(clustering)一种把数据集分为互斥组的处理,每组中的成员之间尽可能“接近”,而不同的组之间尽可能“远离”,其中距离的测量与所有可用的变量有关。数据清洗(data cleansing)一个确保数据集中所有数值是一致的和被正确记录的处理过程。数据挖掘(data mining)从一个大数据库中隐藏的预测信息的抽提过程。数据导航/浏览(data navigation)在一个多维数据库的不同的维度、切片、分层的细节等信息的观察过程。参见在线分析处理 OLAP。数据可视化(data visualization)对多维数据的各种复杂关系的可视化解释过程。数据仓库(data warehouse)一种储存和交付大量数据的数据库系统。决策树(decision tree)代表一系列决策的树状结构。这些决策为数据集的分类生成规则。参见 CART 和 CHAID.维度(dimension)在一个平面的或关系数据库中,记录中的每一个字段代表一维。在多维数据库中,一维是一相似实体的集合;例如,在一个多维的销售数据库中会包括产品、时间和城市维。探测性数据分析(exploratory data analysis)使用图形化和描述性的统计技术去“学习”一个数据集的结构。遗传算法(genetic algorithms)一种使用类似在一个基于自然进化概念的设计中的遗传组合、变异和自然选择等处理方法的优化技术。线性模型(linear model)一种分析模型,它假定考虑的各变化因素是线性的关系。非线性模型(non-linear model)一种分析模型,它不假定正在考虑的各变化因素是线性的关系。线性衰退(linear regression)一种用于在目标变量和其预测因子间找出最合适的线性关系的技术。对数衰退(logistic regression)A linear regression that predicts the proportions of a categorical target variable, such as type of customer, in a population.最近邻居(nearest neighbor)A technique that classifies each record in a dataset based on a combination of the classes of the k record(s) most similar to it in a historical dataset (where k 3 1). Sometimes called a k-nearest neighbor technique.多维数据库(multidimensional database)一种设计用于在线分析处理的数据库系统。其结构为多维的超立方体,其中每轴一维。在线分析处理(OLAP On-line analytical processing)可参考面向数组的数据库应用系统,它允许用户观察、穿插导航、操作和分析多维数据库。数据警戒(outlier)指一个数据项,其值超出一个样本上的其他大部分项的相应值的边界时,称其为警戒项。这时会预示着数据反常,需要仔细核实;他可能携带着重要信息。预测模型(predictive model)一个用于在数据集上预测指定变量的值的结构和处理流程。预期数据分析(prospective data analysis)基于历史的数据分析,它包括预测未来趋势、行为或事件。回顾数据分析(retrospective data analysis)对已经发生的事情做数据分析,它提供趋势、行为或事件的洞察。规则归纳(rule induction)对基于统计意义上的数据,抽提有用的“IF-THEN”规则。时间序列分析(time series analysis)按一定时间片对某个度量所做的序列分析。时间通常是数据的主要维度。


阅读全文(2292) | 回复(1) | 编辑 | 精华

 


 回复:关于数据挖掘的术语

数据挖掘青年发表评论于2007/11/9 16:17:18

分类和衰退树(CART Classification and Regression Trees) ***********把“回归”译成“衰退”,看来又是个外行翻译的。《数据挖掘:实用机器学习技术》中还把JavaBean翻译成Java豆,真是不敢恭维了这年头,外行真是害死人啊.. 以下为blog主人的回复:  是啊,我们宿舍有一个曾经在网上找兼职,就是翻译原版书,有规定的页数,在规定的时间完成,价格一万一


个人主页 | 引用回复 | 主人回复 | 返回 | 编辑 | 删除

 


» 1 »

发表评论:
昵称:
密码:
主页:
标题:
验证码:  (不区分大小写,请仔细填写,输错需重写评论内容!)



站点首页 | 联系我们 | 博客注册 | 博客登陆

Sponsored By W3CHINA
W3CHINA Blog 0.8 Processed in 0.047 second(s), page refreshed 144773096 times.
《全国人大常委会关于维护互联网安全的决定》  《计算机信息网络国际联网安全保护管理办法》
苏ICP备05006046号