[BigData] 数据缺失 Missing Value

博客首页 » BigData 数据缺失 Missing Value

发布于 08 Jun 2015 00:43
标签 blog
数据缺失及其填补方法综述
http://wenku.baidu.com/link?url=XVRCbFPV2cVmfFaKLjlkWSJ71iFfrtFQYWD7kbrvzShCFec3g_XtNwOm7R9a2akiSXMz49d4FyAWvKX2jh9XrVNJRfzoGl3AxP6s-RPHU6a
完全随机缺失
随机缺失
非随机缺失

SPSS缺失值处理说明
http://zhidao.baidu.com/link?url=KZYg4yonmHjAY72LrjgfgUhwibQOGoPfWBkY_hKYA7NskDWphciKQLJs1LM2REKgoYnpl07SijaIr6xVyb1wrsPSucND6wI9e2FjQ8VsD9O

多元线性回归模型中缺失数据填补方法的效果比较
http://www.docin.com/p-358599531.html

R语言缺失值
http://zhidao.baidu.com/link?url=I2W5rKPD48luA4iUwihB1KX9kD6pZt0Hv80pgfjqnTClTXngR1QRJR8FbbX23B3rT8f7qoQ0gPju-XAsXjfiq5kkL3AB7Aup0Q8D8Cm5aM3
各位大神,谁能给提点一下怎么在R语言中实现缺失值的处理,不是简单地删除,而是用其他的方法进行填补,数据集为一excel数据,大约1000条数据的样子。求问啊,再网上找了下,把网上的方法粘在这里吧,不过貌似不太对,用不了。求问各路大仙还有没有其他的方法?谢谢啦,急用!网上方法如下:
三、处理缺失数据

删除缺失数据样本,其前提是缺失数据的比例较少,而且缺失数据是随机出现的,这样删除缺失数据后对分析结果影响不大。
用变量均值或中位数来代替缺失值,其优点在于不会减少样本信息,处理简单。但是缺点在于当缺失数据不是随机出现时会产成偏误。
多重插补法(Multiple imputation):多重插补是通过变量间关系来预测缺失数据,利用蒙特卡罗方法生成多个完整数据集,再对这些数据集分别进行分析,最后对这些分析结果进行汇总处理。在R语言中实现方法是使用mice包中的mice函数,生成多个完整数据集存在imp中,再对imp进行线性回归,最后用pool函数对回归结果进行汇总。汇总结果的前面部分和普通回归结果相似,nmis表示了变量中的缺失数据个数,fmi表示fraction of missing information,即由缺失数据贡献的变异。


library(mice)
imp=mice(sleep,seed=1234)
fit=with(imp,lm(Dream~Span+Gest))
pooled=pool(fit)
summary(pooled)

数据预处理中数据缺失填补算法的研究与应用
http://www.docin.com/p-152225107.html

任意缺失模式缺失数据不同填补方法效果比较
http://www.cnki.com.cn/Article/CJFDTotal-ZGWT201305019.htm

一种基于近邻规则的缺失数据填补方法
http://wenku.baidu.com/link?url=btmfXL5sC-kB6V5REKAyl41-czEJ-csO97dIauSa7S_kYlS7TqwmHeOQZYs_YoT-drd7xM3Ra5Igo5jTjsf9r0JxLC42YtYnWePw8kVKPAK

缺失数据统计处理方法的研究进展
http://wenku.baidu.com/link?url=BdCVdZ69x1Rho8xPQNoDPRgPaLBAEK8ZeACgXRB3yfzbpQ_L9LCof-x6o0Mo_NSq234Whlf0EeVugKtOq05gKGqlZsJkvR0wjvDMyBWkJ6W

一种基于支持向量机的缺失值填补算法
http://www.doc88.com/p-8435599253083.html

处理缺失值的二阶锥规划模型及其应用
http://www.docin.com/p-707611154.html

不完全数据中缺失值填充关键技术研究
http://www.docin.com/p-977425367.html

知乎数据挖掘
http://www.zhihu.com/topic/19553534?utm_campaign=weekly129&utm_medium=email&page=7&utm_source=weekly-digest

机器学习十大算法的每个算法的核心思想、工作原理、适用情况及优缺点
http://m.blog.csdn.net/blog/jirongzi_cs2011/9617033

高维数据子空间聚类算法研究
http://www.docin.com/p-791382876.html

混合型数据的缺失数据的填补
http://www.docin.com/p-830844736.html


本页面的文字允许在知识共享 署名-相同方式共享 3.0协议和GNU自由文档许可证下修改和再使用,仅有一个特殊要求,请用链接方式注明文章引用出处及作者。请协助维护作者合法权益。


系列文章

文章列表

  • BigData 数据缺失 Missing Value

这篇文章对你有帮助吗,投个票吧?

rating: 0+x

留下你的评论

Add a New Comment