Tecton将DevOps引入机器学习

模型需要算法和数据,而当涉及到数据时,机器学习模型的胃口尤其大。然而,当涉及到将数据转换为模型所消耗的特性时,数据科学家常常不得不重新发明轮子,因为特性生成缺乏与模型工作流相关的配置管理和自动化过程。

Tecton是一家刚刚脱离隐形状态的初创公司,它正在推出一种基于云的服务,旨在解决这一瓶颈。在特性生成方面,他们正在努力引入与Informatica在其创建之初将自动数据转换引入数据仓库世界时一样的可维护性和可重用性。

该公司的联合创始人来自优步,他们负责公司的机器学习平台米开朗基罗项目。

在优步,米开朗基罗负责ML的整个生命周期,从管理数据到培训、评估和部署模型,再到做出和监控预测。在开发Michelangelo平台的经验教训中,特性生成缺少模型开发的严格的生命周期自动化程度。通常情况下,数据科学家在生成特性时必须不断地重新发明轮子,而这种自动化的开端已经被植入到了平台中。

这些都是公司创始人创建Tecton时学到的经验。它解决了影响数据科学家的部分问题:他们经常花费太多时间执行数据工程。几年前,在Ovum(现在的Omdia)和Dataiku联合赞助的一项调查中,我们发现,即使在最好的情况下,数据科学家仍可能花费多达一半的时间与数据角力。

在公司博客中,Tecton详细地列出了这个问题。许多云自动服务可以自动化算法开发和特性选择,以及将模型从培训转移到部署和生产的工作流,但它们缺乏为模型提供数据的特性工程的自动化。

Tecton将同样的DevOps自动化应用到特性开发中,这是为模型逻辑编码的标准。构建特性的所有相关工件(例如数据源、转换和处理配方)都存储在Git存储库中并进行版本控制,就像建模逻辑一样。

其结果是,与创建和部署用于生成特性的数据管道相关的跑腿工作是自动化的。这并不意味着数据科学家不再需要数据工程师,但他们可以减少对工程师的依赖。在构建连接数据源的特性的开始阶段,仍然需要数据工程师。但它随后允许数据科学家在他们的Python笔记本上工作,以设计特征转换逻辑。下一步是指定配置信息(例如,指定数据源、转换的频率,以及是在线还是离线批量提供特性)。所有这些工件都存储在一个Git存储库中,可以对其进行版本控制、共享和重用。

可操作的概念是,数据科学家不应该陷入设计、部署和运行数据管道的业务中,他们不应该在每次必须设计新特性或运行另一项工作时打扰数据工程师。一旦该特性被开发出来,Tecton将自动执行管道的操作,触发适当的执行引擎,如用于批处理的Spark,或用于流处理的Flink或Kafka流。这解决了模型部署瓶颈的一部分,因为数据科学家不必担心连接正确的执行引擎。

为了跟踪生命周期并支持可重用性,Tecton保留了数据沿袭数据,并使元数据可在“功能商店”目录中搜索。同样的管道可以用于培训和实时生产数据,通过对这些管道进行版本控制,数据科学家可以在修改或生成新特性时,在自服务的基础上对它们进行迭代。

在过去的几个月里,Tecton的产品从隐形状态中显现出来,目前正在AWS上运行私人预览版。如前所述,它管理和自动化特征管道,并包括用于存储历史特征和标签数据的特征存储;包括用于检索培训数据的SDK;加上一个基于web的UI,用于跟踪特性和监控数据质量和数据漂移问题。一旦AWS的服务正式发布,Tecton将随后推出其他云服务。对我们来说,这将是对云自动服务的有益补充,帮助他们自动处理丢失的数据。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时候联系我们修改或删除,多谢