网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > 数据库 > SQL技巧
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
数据库:数据库教程,数据库技巧,Oracle教程,MySQL教程,Sybase教程,Access教程,DB2教程,数据库安全,数据库文摘
本月文章推荐
.使用T_SQL脚本创建SQLServer2000.
.借助两个开发包在PL/SQL中实现多.
.SQL Server 2000 sp4与数据链接池.
.获取SQL Server元数据的几种方法.
.使用 SQL Server 2005 数据库镜像.
.MS-SQL中多个表或结果集的组合的.
.利用SQL Server 2005减轻生产服务.
.分页存储过程2005 .
.用SQL一次插入多条数据.
.详细介绍查询优化技术在现实系统.
.特殊数据(SQL).
.DBA:巧用ora2html收集Oracle数据.
.Informix数据库记录数过多引起的.
.如何恢复系统数据库如何恢复系统.
.如何修改Syabse服务器端的默认字.
.SQL Script tips for MS SQL Ser.
.Link Server的语法.
.微软SQL Server 2008 CTP版的特性.
.用SQL Server为Web浏览器提供图像.
.检查数据库数据字段命名规范与合.

深入讲解数据挖掘中的“数据归约技术”

发表日期:2008-2-26


一、数据归约基本知识:

对于小型或中型数据集,一般的数据预处理步骤已经足够。但对真正大型数据集来讲,在应用数据挖掘技术以前,更可能采取一个中间的、额外的步骤-数据归约。本步骤中简化数据的主题是维归约,主要问题是是否可在没有牺牲成果质量的前提下,丢弃这些已准备和预处理的数据,能否在适量的时间和空间里检查已准备的数据和已建立的子集。


对数据的描述,特征的挑选,归约或转换是决定数据挖掘方案质量的最重要问题。在实践中,特征的数量可达到数百,如果我们只需要上百条样本用于分析,就需要进行维归约,以挖掘出可靠的模型;另一方面,高维度引起的数据超负,会使一些数据挖掘算法不实用,唯一的方法也就是进行维归约。预处理数据集的3个主要维度通常以平面文件的形式出现:列(特征),行(样本)和特征的值,数据归约过程也就是三个基本操作:删除列,删除行,减少列中的值。


在进行数据挖掘准备时进行标准数据归约操作,我们需要知道从这些操作中我们会得到和失去什么,全面的比较和分析涉及到如下几个方面的参数:


(1)计算时间:较简单的数据,即经过数据归约后的结果,可减少数据挖掘消耗的时间。


(2)预测/描述精度:估量了数据归纳和概括为模型的好坏。


(3)数据挖掘模型的描述:简单的描述通常来自数据归约,这样模型能得到更好理解。

 


数据归约算法特征:


(1)可测性


(2)可识别性


(3)单调性


(4)一致性


(5)收益增减


(6)中断性


(7)优先权

 


二、数据归约方法:

1、特征归约:

 

用相应特征检索数据通常不只为数据挖掘目的而收集,单独处理相关特征可以更有效,我们希望选择与数据挖掘应用相关的数据,以达到用最小的测量和处理量获得最好的性能。特征归约处理的效果:


(1)更少的数据,提高挖掘效率


(2)更高的数据挖掘处理精度


(3)简单的数据挖掘处理结果


(4)更少的特征。


和生成归约后的特征集有关的标准任务有两个:


(1)特征选择:基于应用领域的知识和挖掘目标,分析者可以选择初始数据集中的一个特征子集。特征排列算法,最小子集算法


(2)特征构成:特征构成依赖于应用知识。


特征选择的目标是要找出特征的一个子集,此子集在数据挖掘的性能上比得上整个特征集。特征选择的一种可行技术是基于平均值和方差的比较,此方法的主要缺点是特征的分布未知。最优方法的近似:


(1)只对有前景的特征子集进行检查


(2)用计算简单的距离度量替换误差度量


(3)只根据大量数据的子集选择特征。

特征归约处理期望达到的效果:


(1)提高模型生成过程和所得模型本身的性能


(2)在不降低模型质量的情况下减少模型维度


(3)帮助用户可视化有更少维数的可能结果,改进决策。

 

 


2、主成分分析:

 

主成分分析是大型数据集归约的一种统计方法。是将以向量样本表示的初始数据集转换为一个新的导出维度的向量样本集,转换的目标是将不同样本中的信息集中在较小的维度中。


一个n维向量样本集X={x1,x2,x3,…,xm},转换为另一个相同维度的集Y={y1,y2,…,ym}


Y把大部分信息内容存在前几个维中,可以让我们以低信息损失讲数据集减小到较小的维度。


Y=A*X

 

 


3、值归约:

 

特征离散化技术:减少已知特征的离散值数目,将连续型特征的值离散化,使之成为少量的区间,每个区间映射到一个离散符号。这样就简化了数据描述并易于理解数据和最终数据挖掘的结果。


(1)分割点选择


(2)怎样选择区间描述


几种自动离散化技术:


(1)特征离散化


ChiMerge算法:


a.对已知特别数据进行升序排列


b.定义初始区间,使特征的每个值都在一个单独的区间内


c.重复进行直到任何两个相临区间的X2都不小于阈值。

 

 


4、案例归约:

 

初始数据集中最大和最关键的维度数就是案例或样本的数目。在案例规约之前,我们消除了异常点,有时也需要消除有丢失值的样本。取样误差是固有的。


取样方法分类:


(1)普通用途取样


a.系统化取样


b.随机取样:不回放/回放


基本形式有增量取样,平均取样,


c.分层取样


d.逆取样


(2)特殊用途取样

上一篇:SQL Server 2008新功能─传递表值参数 人气:1246
下一篇:深入讲解有关数据挖掘的10个常见问题 人气:1473
浏览全部数据挖掘的内容 Dreamweaver插件下载 网页广告代码 祝你圣诞节快乐 2009年新年快乐