7种自动机器学习框架
这些年来,ML 的使用正日益增加。ML 为他们带来的一系列机会给企业留下了深刻的印象。但是,由于过程的持续时间长且复杂,他们仍在努力部署 ML 模型。
当企业必须提出对特定数据集的预测时,传统方法包括执行以下操作:
- 处理数据
- 定义技术特征
- 选择型号
- 优化超参数
- 训练这些参数
没有适合所有任务的算法,数据分析人员必须为每个特定任务选择和配置算法。
此外,要准备数据,需要:
- 确定列的类型,语义内容
- 检测集群分配及其排名
通常,似乎所有时间和金钱消耗过程对于企业来说从来都不是优势。
在这里,自动 ML 框架开始发挥作用。
Auto Machine Learning Frameworks
这些框架将使所有或几乎所有步骤自动化,从而为企业提供准确的预测。
Auto ML 的最大好处是可以将业务和数据分析员从上面提到的漫长的日常任务中解放出来,并给他们更多的时间来从事项目的创造性工作。
Gartner 报告的数据表明,到 2020 年,AutoML 将取代 40%的数据专家在机器学习应用程序的预测中。这就需要我们更深入地研究自动机器学习框架,以选择最佳模型并配置所需的参数。
ML Box
ML Box 是一个基于 Python 的数据库,具有以下功能:
- 读取,预处理,清理和格式化数据
- 选择特定功能并检测泄漏的可能性
- 优化超参数
- 分类和回归用于预测的最新模型
- 进行预测和模型解释
从缺点来看,它更适合 Linux 操作系统,而 Windows 和 Mac 用户在安装时会遇到一些困难。
Auto Sklearn
Auto Sklearn 是一个基于贝叶斯优化,元学习和集成构建的自动机器学习框架,可以查找相似的数据。
该软件包包括 15 种分类算法和 14 种用于特征预处理的函数,以定义正确的算法并以 0.98 以上的精度优化其参数。Auto Sklean 适用于中小型数据集,但是,它不能为大型数据集提供足够的可伸缩性。
TPOT
在 2018 年 8 月,TPOT 被列入 GitHub 上最受欢迎的自动机器学习框架列表中。该框架使用遗传编程来搜索用于特定任务实现的模型。它可以分析成千上万的管道,并为其中的管道提供 Python 代码的最佳选择。
与 Auto Sklearn 相比,TPOT 提供了自己的回归和分类算法。但是由于它是基于遗传编程的,因此每次运行该模型时,它都能为同一任务提供不同的结果。
H2O AutoML
对于正在寻找深度学习机制的人们来说,H2O AutoML 框架是最佳选择。它可以同时执行需要许多代码行的许多任务。
H2O 使用统计和 ML 算法以及梯度增强机器和复杂的学习系统。
Auto Keras
它是一个基于网络形态学的开源深度学习框架,可促进贝叶斯优化。该框架可以自动搜索复杂模型的体系结构和超参数。它通过神经体系结构搜索(NAS)算法进行搜索,而无需深度学习工程师。
Google Cloud Auto ML
Google Auto ML 是具有神经网络架构的基于 Google 的框架。图形用户界面(GUI)易于用于处理模型,从而使 Google Cloud Auto ML 完全适用于对 ML 知识了解有限的开发人员来处理业务需求所需的模型。
但是,Google Cloud Auto ML 不是像其他框架一样的开源库,因此需要为使用付费。成本取决于训练模型所花费的时间以及要发送以进行预测的图像数量。研究是免费的。
TransmogrifAI
它是 Salesforce 的一个库,它基于 Apache Spark 框架,可处理用 Scala 编写的结构化数据。
它可以帮助实现深度学习模型的准确预测,同时将过程减少 100 倍。该框架支持数据集的处理,该数据集包含数百万行,并且能够与 Scala 上的群集虚拟机一起使用。
结论
毫无疑问,自动 ML 是企业的必不可少的工具,这些企业正在努力提高性能并以 x 倍的速度预测模型。
现在,在了解了最重要的 7 种自动机器学习框架之后,就可以根据业务需求和运营规模选择一种,并使重复的任务自动化。