Default

介绍

特征交互是要衡量两组特征之间的相关性,即在特征1 和特征2 分别取某个值时,对模型结果是否有特殊的影响。

基本假设:当两个特征完全独立,即没有任何相关性时,我们认为$PD_{jk}(j,k)=PD_j(j) + PD_k(k)$,特征有一定相关性时,等号不成立。那么就可以用等号前后的两个函数的差异,衡量特征之间的相关性。

那么就可以用一下公式来衡量两个特征的相关性: \(H_{j,k}^2=\frac{\sum_{i=1}^n[PD_{j,k}(x_{j}^{(i)},x_{k}^{(i)})-PD_j(x_{j}^{(i)})-PD_k(x_{k}^{(i)})]^2}{\sum_{i=1}^nf(x)^2}\) 使特征 k = all - j,就可衡量特征 j 与其他所有特征的相关性。

案例

1)计算每个特征与其他所有特征的相关性,挑出相关性最强的特征。

2) 从第一步挑出的特征中,两两计算相关性,挑出相关性最强的组合。

优缺点

优点

  1. 可以统计任何形式的特征关系
  2. 可以统计 >= 3 维的特征关系

缺点

https://christophm.github.io/interpretable-ml-book/interaction.html