分类分布图
如果不希望使用直方图估算分类型变量的分布,也不希望使用分类散点图详尽地把样本点描绘,而是希望把与变量分布特征相关的关键统计指标以图形的形式来呈现,可以使用箱形图或者小提琴图。
- sns.boxplot: 绘制箱形图以显示类别的分布。
- sns.violinplot: 小提琴图, 绘制箱线图和内核密度估计值的组合。
我们首先介绍箱形图。
sns.boxplot()
sns.boxplot()绘制箱形图以显示类别的分布,其参数与本节介绍的其他画图函数一样,我们看看使用箱形图效果如下:
sns.boxplot(data=bj, x='城区', y='单价');
- 这样,我们就能看到北京不同城区商品房单价的分布情况。比如大兴区房价中位数接近5万,第一四分位数大概在4万左右。离群值中,有价格特别低的,大概1.5万左右,也有特别高,8万多。
- 当然,和其他统计软件一样,离群值范围由上下须线的1.5倍的四分位距来界定。如果希望改变1.5这个参数,可以通过参数whis来设定。
sns.violinplot()
- 小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。
- 这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。跟箱形图类似,但是在密度层面展示更好。
参数不变,我们把上面的函数sns.boxplot()换成sns.violinplot(),效果如下:
sns.violinplot(data=bj, x='城区', y='单价');
很明显,小提琴图兼备了快速估算变量分布特征统计指标以及呈现概率密度的优势,在数据量非常大、不方便一个一个展示的时候小提琴图特别适用。
尝试在右上角的代码框使用箱体图以及小提琴图查看不同城区的面积分布。
你发现和商品房单价相比,面积分布有什么特别?