人工智能低代码机器学习工具

作者：闻数起舞来源：今日头条点击数：1706发布时间： 2020-11-06 10:13:26

低代码机器学习工具。中国人工智能发展迅猛，中国政府也高度重视人工智能领域的发展。预计到2020年，中国人工智能产业规模将超过1500亿元，带动相关产业规模超过1万亿元。2017年全球新兴人工智能项目中，中国占据51%，数量上已经超越美国。但全球人工智能人才储备，中国却只有5%左右，人工智能的人才缺口超过500万。

通常，要开发机器学习模型并将该模型部署到可以在操作上使用的状态，需要对编程有深入的了解，并且需要充分了解其背后的算法。

机器学习有潜力帮助解决企业和整个世界范围内的各种问题。通常，要开发机器学习模型并将该模型部署到可以在操作上使用的状态，需要对编程有深入的了解，并且需要充分了解其背后的算法。

这将机器学习的使用限制在一小部分人中，因此也限制了可以解决的问题数量。

幸运的是，在过去的几年中，涌现了许多库和工具，这些库和工具减少了模型开发所需的代码量，或者在某些情况下完全消除了代码开发。这为非数据科学家(如分析师)发挥了利用机器学习功能的潜力，并允许数据科学家更快地对模型进行原型制作。

这是一些我最喜欢的用于机器学习的低代码工具。

PyCaret

PyCaret是Python的包装器，用于流行的机器学习库，例如Scikit-learn和XGBoost。它使仅需几行代码就能将模型开发为可部署状态。

可以通过pip安装Pycaret。有关更详细的安装说明，请参阅PyCaret文档。

PyCaret具有公共数据集的存储库，可以使用pycaret.datasets模块直接安装。完整列表可在此处找到，但出于本教程的目的，我们将使用一个非常简单的数据集来解决称为"葡萄酒"数据集的分类任务。

PyCaret库包含一组模块，用于解决所有常见的机器学习问题，其中包括：

要创建分类模型，我们需要使用pycaret.classification模块。创建模型非常简单。我们只需调用将Model ID作为参数的create_model()函数即可。您可以在此处找到支持的型号及其对应ID的完整列表。或者，您可以在导入适当的模块后运行以下代码以查看可用模型的列表。

> A snapshot of models available for classification. Image by Author.

在调用create_model()之前，您首先需要调用setup()函数来为您的机器学习实验指定适当的参数。在这里，您可以指定诸如测试序列拆分的大小以及是否在实验中实施交叉验证之类的内容。

create_model()函数将自动推断数据类型并使用默认方法处理这些数据类型。运行create_model()时，您将收到以下输出，其中显示了推断的数据类型。

> Image by Author.

PyCaret将使用一组默认的预处理技术来处理诸如分类变量和估算缺失值之类的事情。但是，如果您需要更定制的数据解决方案，则可以在模型设置中将它们指定为参数。在下面的示例中，我更改了numeric_imputation参数以使用中位数。

对参数满意后，请按Enter键，模型将最终确定并显示性能结果网格。

> Image by Author.

PyCaret还具有plot_model()函数，该函数显示模型性能的图形表示。

> Image by Author.

本教程刚刚展示了使用PyCaret库进行模型训练的基础。还有更多功能和模块可提供完整的低码机器学习解决方案，包括功能工程，模型调整，持久性和部署。

BigQuery ML

Google在2018年发布了一个名为BigQuery ML的新工具。 BigQuery是Google的云数据仓库解决方案，旨在为数据分析师和科学家提供快速访问大量数据的途径。 BigQuery ML是一种工具，可让仅使用SQL从BigQuery数据仓库直接开发机器学习模型。

自从发布以来，BigQueryML已经发展到可以支持大多数常见的机器学习任务，包括分类，回归和聚类。您甚至可以导入自己的Tensforflow模型以在工具中使用。

根据我自己的经验，BigQueryML是用于加速模型原型制作的极其有用的工具，并且还可以用作基于生产的系统来解决简单的问题。

为了简要介绍该工具，我将使用称为成人收入数据集的数据集来说明如何在BigQueryML中建立和评估逻辑回归分类模型。

该数据集可以在UCI机器学习存储库中找到，我正在使用以下Python代码以CSV文件的形式下载。

url_data = 'https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data'
column_names = ['age', 'workclass', 'fnlwgt', 'education', 'educational-num','marital-status',
'occupation', 'relationship', 'race', 'gender','capital-gain', 'capital-loss',
'hours-per-week', 'native-country','income']
adults_data = pd.read_csv(url_data, names=column_names)
adults_data.to_csv('adults_data.csv')