MIT CSAIL实验室新算法:能在损坏数据中寻找模式
游客
2025-07-15 20:02:06
65
包括 MIT 计算机科学与人工智能实验室(MIT CSAIL)的研究员在内一组团队创造出了一系列新算法,能够高效的在高维数据中拟合概率分布。
数据分析,尤其是大数据分析,大多是将数据拟合到数学模型的问题,最熟悉的例子就是线性回归,也就是找到数据点近似分布的线。将数据拟合到概率分布,比如贝尔曲线,也很常见。
然而,如果数据集只有一些损坏的条目,也就是说损坏的难以测量,标准的数据拟合技术就不行了。该问题在高维数据或带有许多变量的数据中更为严重,而这类数据在数字化时代又是普遍存在的。
众所周知,从 20 世纪 60 年代早期开始,就有一些算法能够除掉高维数据中的损坏数据(corruption),但过去 50 年提出的算法没有一个在变量超过 12 的时候很实用。
该进行改变了。在本月初,来自 MIT CSAIL 实验室、南加州大学、加州大学圣迭戈分校的一组研究人员在 IEEE Symposium on Foundations of Computer Science 上展示了一系列新的算法,能够高效的在高维数据中拟合概率分布。
引人注目的是,在同一会议上,来自 Georgia Tech 的研究人员提出了一个非常类似的算法。
在能够忍受损坏数据的「稳健统计」或统计方法上的首创工作是由统计学家完成的,但新的论文都来自一堆计算机科学家。这可能反射出该领域内注意力的转向,开始注意模型拟合技术的计算效率。
MIT Rockwell International Career Development 助理教授 Ankur Moitra 说,「从理论计算机科学的优势来看,很明显一个能被有效解决的问题有多稀少。如果你从假设作为开始,就会很糟糕,因为这是低效的。你应该从你知道你能高效进行的事情开始,并搞清楚如何将它们合在一起从而更稳健。」Moitra 也是 MIT-USC-UCSD 项目的领导者之一。
为了理解稳健统计之后的原理,Moitra 解释说想想正态分布,贝尔曲线,数学的说法也就是一维高斯分布。一维高斯分布完全由两个参数所描述:平均值和方差。
如果数据集中的数据(假设是给定人群的身高)能被高斯分布很好的描述,那平均值就是算术上的平均。但假设你有一个包含 100 位女性身高的数据集,其中大部分身高是 64 英寸,一些很高,一些很低。其中一人的身高因某些原因达到 1000 英寸。用算术平均得到女性平均身高是 6.4 英尺,不是 5.4 英尺。
一种避免这种荒谬结果的方法是评估平均值,不采用数据的算术平均,而是找到其中值。使用中值评估平均值的算法要更为稳健。
中值只是平均值的近似值,而且随着变量的增多该近似的准确率会急剧下降。大数据分析可能需要测试千个甚至百万个变量。在这种情况下,平均值的中值近似法基本不能用。
一种将高维数据集中的损坏数据清除掉的方法是采用数据图的 2-D 交叉界面,并观察它们看起来是否像高斯分布。如果不是,你可能置入了一类假的数据点,比如 80 英尺高的女人,这些数据点可被轻易的切除。
问题是,将先前已知的算法应用到该方法时,找到损坏数据所需要的交叉界面的数是维度量的一个指数函数。相比之下,这组研究人员发现一种算法,这种算法的运行时间随着数据维度的数量以更合理的比率增长(计算科学术语来讲就是 polynomially)。
他们的算法依赖两种洞见。首先是在测量数据集离分布范围(近似同样的形状)多远时使用什么 metric。这能让他们分别是否淘汰了足够的损坏数据,从而更好的拟合。
另一种洞见是如何识别界面开始交叉时的数据的区域。为了做到这一点,研究人员依靠被称为分布的峰态(kurtosis of a distribution)来测量其 tails 的大小,或者说是数据距离平均值降低的速率。再次强调,有多种从数据样本中推断 Kurtosis 系数的方法,选择正确的一个是该算法的核心。
研究人员的这种方法能结合高斯分布,也能结合其他常见的分布——乘积分布(product distribution)。他们相信该方法可被扩展到其他类型的分布上,在接下来的研究中,他们将主要关注将该技术用到真实数据上。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 3561739510@qq.com 举报,一经查实,本站将立刻删除。
转载请注明来自专注SEO技术,教程,推广 - 8848SEO,本文标题:《MIT CSAIL实验室新算法:能在损坏数据中寻找模式》
- 上一篇: DeepMind论文:调控运动控制器的学习和迁移
- 下一篇: 专栏 | 中文分词工具测评
- 搜索
- 最新文章
-
- 9月1日起,电动车、三轮车、四轮车上路“3禁5罚”新规,车主注意
- 如何在两个月内将新网站权重提升到4(实用技巧帮助新站点快速提升权重)
- 企业优化四步轻松搞定(用科技赋能企业,提升效率与利润)
- 网站内部优化策略——提升用户体验的最佳途径(实用技巧与案例分析,助你打造用户友好的网站)
- 《捕风追影》全球票房破1亿美元,大赚1亿人民币,北美贡献很少
- 如何优化单页网站,提升用户体验和转化率(掌握单页网站优化技巧,轻松提升流量和销售额)
- 如何通过SEO优化让网站排名靠前?(掌握SEO的关键技巧提升网站排名)
- 探究为什么SEO优化也要收费(SEO优化的价值与成本分析)
- 中国智能手机市场洗牌:华为第五,小米重回第二,第一名遥遥领先
- 响应式网站的设计与实现(让你的网站适配不同设备)
- 热门文章
-
- 苹果20周年大招来了!首款曲面屏iPhone曝光,居然长这样?
- 小米HyperOS3.0即将发布,流畅度与影像功能大幅升级
- 预算1600左右!红米Note15Pro+还是Turbo4Pro?关键就是这两点
- 0.92GB大更新!鸿蒙5.1持续推送3款机型先尝鲜,多款APP日常更新
- 大满贯单打冠军确定!产生2个意想不到和2个事实,世界乒坛新格局
- 天津,未来一周持续多雨,气温逐步下降!25号~30号天气预报!
- OPPO与荣耀手机怎么选?多维度对比帮你理清需求
- 0.95GB!vivo持续推送新版本覆盖更多机型OriginOS6好消息不断
- 华为Mate40更新鸿蒙4.2.0.180,1个多G的大包,老机型又回春?
- 女子两次举报鲁迅夹烟墙画,身份被扒,当地文旅回应网友拍手叫好
- 8岁男孩北海走失后续:走失9天,知情人曝惊人线索,最后画面揪心
- 14号台风趋向华南?新一轮超强降雨来袭,暴雨波及10省市
- 9月1日起,电动车、摩托车、三轮车上路“5必查”,违者处罚明确
- 提高网站收录的小技巧(15种有效方法让你的网站快速被搜索引擎收录)
- OPPO超大杯旗舰曝光:6.8x直屏+2亿主摄+双潜望,或明年3月发布
- 苹果13、14、15、16手机升级ios18.6.2系统,续航测试结果反馈。
- 网页标签在SEO优化中的重要性(如何利用网页标签提升网站排名)
- 如何将SEO优化推广应用于不同行业中(掌握SEO优化策略,实现行业营销效果的最大化)
- 河南!本轮高温确定已完成,明天8月27号天气预报,重点分布如下
- 彻底告别续航焦虑?真我15000mAh新机曝光,或8月28日发布!
- 热门tag