网络编程 | 站长之家 | 网页制作 | 图形图象 | 操作系统 | 冲浪宝典 | 软件教学 | 网络办公 | 邮件系统 | 网络安全 | 认证考试 | 系统进程
Firefox | IE | Maxthon | 迅雷 | 电驴 | BitComet | FlashGet | QQ | QQ空间 | Vista | 输入法 | Ghost | Word | Excel | wps | Powerpoint
asp | .net | php | jsp | Sql | c# | Ajax | xml | Dreamweaver | FrontPages | Javascript | css | photoshop | fireworks | Flash | Cad | Discuz!
当前位置 > 网站建设学院 > 网络编程 > 数据库 > SQL技巧
Tag:注入,存储过程,分页,安全,优化,xmlhttp,fso,jmail,application,session,防盗链,stream,无组件,组件,md5,乱码,缓存,加密,验证码,算法,cookies,ubb,正则表达式,水印,索引,日志,压缩,base64,url重写,上传,控件,Web.config,JDBC,函数,内存,PDF,迁移,结构,破解,编译,配置,进程,分词,IIS,Apache,Tomcat,phpmyadmin,Gzip,触发器,socket
网络编程:ASP教程,ASP.NET教程,PHP教程,JSP教程,C#教程,数据库,XML教程,Ajax,Java,Perl,Shell,VB教程,Delphi,C/C++教程,软件工程,J2EE/J2ME,移动开发
数据库:数据库教程,数据库技巧,Oracle教程,MySQL教程,Sybase教程,Access教程,DB2教程,数据库安全,数据库文摘
本月文章推荐
.SQL Server导出表到EXCEL文件的存.
.金额阿拉伯数字转换为中文的自定.
.SQL SERVER 和EXCEL的数据导入导.
.SQL Server 2005安装失败的处理方.
.80040e37对象名ydsztpwen无效的解.
.mssql锁基础教程.
.特殊sql语句及优化原则.
.另类解读SQL Server中的DateTime.
.MDF文件在SQL Server数据库中恢复.
.SQL Server 某些条件下求某日的日.
.SQL Server不允许进行远程连接的.
.SQL Server数据库动态交叉表的参.
.带有ODS的体系结构中数据仓库的设.
.在IE中直接连接SQL数据库 .
.一种通过sql server的作业调度+存.
.数据库查询结果的动态排序(5).
.SQL Server 2005数据转换服务设计.
.sql server 2000中的触发器使用.
.关于Sql server数据库日志满的快.
.SQL语句中的一些参数如何用变量来.

个人经验总结:数据挖掘与数据抽样概述

发表日期:2008-7-1


前段时间在做一个挖掘模型时,模型的特征决定了选择的数据是严重有偏的,怎样在这样的数据上进行抽样,得到能比较好地反映真实情况的数据样本是很关键的。自己对统计学仅仅限于大学课程的学习,很少做过实验,在做数据预处理走了一些弯路。下面对数据挖掘中的抽样发表一点浅见。

在数据挖掘的数据预处理过程中,宽表数据往往是几十万,上百万级记录的。要对所有数据进行训练,时间上很难满足要求,因此对数据进行抽样就很必要了,不同的数据抽样方法对训练结果模型的精度有很大影响。可以考虑用一些数据浏览工具,统计工具对数据分布做一定的探索,在对数据做充分的了解后,再考虑采用合适的数据抽样方法,抽取样本数据进行建模实验。对一般的模型,比如客户细分,主要是数据的聚类,我在做抽样时用了随机抽样,也可以考虑整群抽样;而做离网预警模型或者金融欺诈预测模型时,数据分布是严重有偏的,而且这种有偏数据对这类模型来说恰恰是至关重要的。一般采用分层抽样和过度抽样结合有不错的效果,分层抽样和过度抽样的区别自己也不是很了解,现在只能是做个概述了。

几种常用的抽样方法:

1.简单随机抽样(simple random sampling)

将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。

优点:操作简单,均数、率及相应的标准误计算简单。

缺点:总体较大时,难以一一编号。

2.系统抽样(systematic sampling)

又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距从每一部分各抽取一个观察单位组成样本。

优点:易于理解、简便易行。

缺点:总体有周期或增减趋势时,易产生偏性。

3.整群抽样(cluster sampling)

先将总体依照一种或几种特征分为几个子总体(类.群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本

优点:便于组织、节省经费。

缺点:抽样误差大于单纯随机抽样。

4.分层抽样(stratified sampling)

将总体样本按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位,合起来组成样本。有按比例分配和最优分配(过度抽样是否就是最优分配方法?)两种方案。

特点:由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各类别之间差异较大(比如金融客户风险/非风险样本的差异),类别较多的情况。

优点:样本代表性好,抽样误差减少。

上一篇:深入探讨数据仓库缓慢变化维的解决方案 人气:866
下一篇:最简单的SQL Server数据库存储过程分页 人气:2431
浏览全部数据挖掘的内容 Dreamweaver插件下载 网页广告代码 祝你圣诞节快乐 2009年新年快乐