2.0 简介
只要涉及机器学习,第一个步骤都是把原始数据加载到系统中。原始数据可能是日志文件、数据集文件或者数据库。此外,从多个源获取数据也很常见。本章讲解如何从不同的源(包括CSV文件和SQL数据库)加载数据,同时也会介绍几种生成符合需求的仿真实验数据的方法。尽管在Python生态体系中有很多加载数据的方法,但本书会着重使用pandas库的一些方法来加载外部数据,并使用scikit-learn(Python中的一个开源的机器学习库)来生成仿真数据。
只要涉及机器学习,第一个步骤都是把原始数据加载到系统中。原始数据可能是日志文件、数据集文件或者数据库。此外,从多个源获取数据也很常见。本章讲解如何从不同的源(包括CSV文件和SQL数据库)加载数据,同时也会介绍几种生成符合需求的仿真实验数据的方法。尽管在Python生态体系中有很多加载数据的方法,但本书会着重使用pandas库的一些方法来加载外部数据,并使用scikit-learn(Python中的一个开源的机器学习库)来生成仿真数据。
本书评论