博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Data Leakage 因果性
阅读量:6035 次
发布时间:2019-06-20

本文共 585 字,大约阅读时间需要 1 分钟。

参考这篇:

https://blog.csdn.net/jiandanjinxin/article/details/54633475

 

 

存在和利用这种倒‘因’为‘果’的feature的现象,叫数据竞赛中的Data Leakage。

 

Data Leakage的原因 

以此我们可以看出,Data Leakage 基本都是在准备数据的时候,或者数据采样的时候出了问题,误将与结果直接相关的feature纳入了数据集。这样的纰漏,比较难以发现。

 

 

必须重视因果性 

我们再把讨论往前推一步:大数据,是要相关性,还是因果性?

《大数据时代》是本大毒草 —— Professor M from Computer Science in University of Michigan

数据应用学院专门组织过讨论,集中批判一本畅销书《大数据时代》。这本书的主要观点就是,在大数据时代,要放宽对因果性的要求,充分利用相关性去挖掘数据的价值。我们上面的案例分析再一次证明,这样的观点是危险的。

 

而且,在数据科学家的Skillset中,为什么除了计算机技能,统计分析外,还要加一个“行业知识”?这其实是要求数据科学家能够利用行业知识来判断数据模型中的因果关系是否有价值,还是落脚到因果关系上。

 

转载于:https://www.cnblogs.com/charlesblc/p/8638899.html

你可能感兴趣的文章
Delphi 中的 XMLDocument 类详解(5) - 获取元素内容
查看>>
差异分析定位Ring 3保护模块
查看>>
2013年7月12日“修复 Migration 测试发现的 Bug”
查看>>
vim文本编辑器详解
查看>>
学习vue中遇到的报错,特此记录下来
查看>>
CentOS7 编译安装 Mariadb
查看>>
32位系统和64位系统的选择
查看>>
01配置管理过程指南
查看>>
jstl格式化时间
查看>>
一则关于运算符的小例
查看>>
centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署
查看>>
cronexpression 详解
查看>>
一周小程序学习 第1天
查看>>
小孩的linux
查看>>
SpringMVC、MyBatis声明式事务管理
查看>>
开发者详解:端游及手游服务端的常用架构
查看>>
JavaScript History对象
查看>>
在 Windows 下安装 Oracle 11g XE (Express Edition)
查看>>
ListView优化
查看>>
【原创】 PostgreSQL 实现MySQL 的auto_increment 字段
查看>>