站点图标 多伦多书苑

Python机器学习手册:从数据预处理到深度学习

3.3 浏览数据帧

问题描述

从一个数据帧中挑出单个数据或一部分数据。

解决方案

使用loc或iloc能选择一个或多个数据,也能选择一行或多行数据:

可以使用冒号“: ”来定义想要选择哪些行。比如选择第2、3、4行:

我们甚至还能获取到某一行为止的所有行,比如获取到第4行为止的所有行:

数据帧的索引不必非得是数值型。只要某一列在数据帧中每一行的值是唯一的,就可以将其设置为索引。举个例子,我们可以将乘客的名字设置为索引,然后通过名字来选择行:

讨论

pandas的数据帧中所有的行都会有一个唯一的索引值。默认情况下,这个索引是一个整数,它标明了这一行在数据帧中的行的位置。然而,索引不一定必须是这样的一个整数。数据帧的索引可以被设置成一个唯一的字母与数字组成的字符串或自定义数字。为了能选择一行或者部分行,pandas提供了两个方法:

● 当数据帧的索引是一个标签时(例如,一个字符串),loc比较常用。

● iloc并不是根据索引来查找数据的,而是根据行号来查找的,行号从0开始,逐次加1。举个例子,不管索引是一个整数还是一个标签,iloc[0]都将返回第1行的数据。

由于在数据清洗时会频繁使用loc和iloc,所以有必要熟悉它们。

Author:

退出移动版