2.3 加载CSV文件
问题描述
加载以逗号为分隔符(Comma-Separated Values,CSV)的文件。
解决方案
使用pandas库的read_csv来加载一个本地或远端的CSV文件:

讨论
在加载CSV文件时,有两件事值得注意。第一,在加载数据前快速地浏览一下文件内容会很用,这便于你事先了解数据集的结构以及在加载文件时需要设置什么参数。第二,read_csv的参数超过了30个,因此读文档会是一件很痛苦的事情。幸运的是,那些参数大部分是用来处理不同的CSV格式的。举个例子,读取CSV文件的字段时常依赖于一个假设,即值是由逗号分隔的(例如,可能有一行数据为2,"
),但是对于CSV文件来说,使用其他的字符作为分隔符也很常见,比如制表符。pandas的sep参数可以设置文件的定界符。CSV文件一般会有一个固定的格式(虽然也有例外):文件的第一行指定列的数据头(例如,上述解决方案中的integer、datetime、category)。header参数可以指定是否存在数据头这一行以及它的位置。如果没有这一行,则需要设置header=None。



本书评论