- 网格矩阵图可以查看多个变量的关系,但是如果要查看的变量两两之间的关系过多,网格矩阵图就会变得非常庞大而难以观察。
- 这种情况下,想要快速查看变量两两之间的相关性,还有一种方法就是使用热力图,具体来讲是变量相关性热力图。
在讲解变量相关性热力图之前,我们首先要学习生成相关系数矩阵。如果数据是DataFrame对象,那么,生成相关系数矩阵比较简单,直接调用DataFrame对象的corr()方法即可。比如,我们要生成单价和房价之间的相关系数矩阵,可以单独提取这两个变量,然后调用corr()方法:
bj[["房价","单价","面积"]].corr()
- 可以看到房价和单价相互之间的相关系数为0.5107,相关性不大。而面积和房价的相关系数比较高,达到0.726.
- 那么,接下来,把上面生成的相关系数矩阵表,放在sns.heatmap()画图函数中即可。
sns.heatmap(bj[["房价","单价","面积"]].corr());
那么这样,我们就可以根据颜色深浅一目了然地判断变量之间的关系。
尝试在右上角的代码框,快速生成bj表中所有数值型变量的相关系数热力图。