3.2 描述数据
问题描述
查看数据帧的一些属性。
解决方案
在加载完数据之后,我们能做的最简单的事之一就是使用head查看前几行数据:
也可以查看行和列的数量:
或者,也可以使用describe来获取任何数值型列的描述性统计量:
讨论
加载数据后,最好了解一下它的结构以及包含了什么类型的信息。理想的情况是直接查看全部数据。但是在现实中,很多情况下数据都会包含成千上万的行和列。这时,我们可以选取一些样本来查看一小部分数据,也可以利用样本来计算数据的描述性统计量。
在上述解决方案中,我们用到了由泰坦尼克号的乘客记录组成的玩具数据集。使用head可以查看数据集的前几行(默认查看前5行),使用tail可以查看最后几行;使用shape可以查看数据帧中包含了多少行和多少列;最后,使用describe能查看任何数值型的列的基本描述性统计量。
值得注意的是,描述性统计量并不一定能全面反映数据的情况。例如,pandas将Survived和SexCode视为数值型的列,因为它们包含了很多0和1。然而,在本例中,数值型的值代表的是分类(例如,如果Survived等于1,就表示乘客在此次海难中幸存)。由于这个原因,一些描述性统计量,比如SexCode(代表乘客的性别)列的标准差,不能提供很直观的结论。
本书评论