2.1 加载样本数据集
问题描述
加载已有的样本数据集。
解决方案
scikit-learn中预置了大量的流行数据集可供使用:
讨论
在研究某个机器学习算法或者方法时,大部分人都不愿意把时间花在加载、转换、清洗从现实生活中得到的数据集上。幸运的是,scikit-learn预置了一些很容易加载的常见数据集。这些数据集被称为“玩具(toy)”数据集,因为它们比现实中的数据集要小得多、干净得多。
scikit-learn中比较流行的玩具数据集有:
load_boston
包含503个波士顿房价的观察值。这是一个用于研究回归算法的优质数据集。
load_iris
包含150个鸢尾花尺寸的观察值。这是一个用于研究分类算法的优质数据集。
load_digits
包含1797个手写数字图片的观察值。这是一个用于研究图像分类算法的优质数据集。
延伸阅读
● scikit-learn的玩具数据集(http://bit.ly/2HS6Dzq)
● 手写数字数据集(http://bit.ly/2mNSEBZ)
本书评论