拜耳(Bayer)旗下的农业部门——Bayer Crop Science正在开发一个基于AWS的新数据科学平台,该平台融合了生成式AI功能,将有助于推动“新颖”的农业解决方案。
Bayer Crop Science将生成式AI视为使数千名数据科学家和工程师能够为全球农民提供创新农业解决方案的关键催化剂。
Bayer Crop Science全球数据资产负责人Will McQueen表示,作为生命科学跨国企业拜耳旗下的农业部门,Bayer Crop Science正在开发一个基于Amazon SageMaker Studio 的新数据科学平台。他说,该平台融合了Amazon Bedrock和Amazon Q的AI功能,旨在促进和加快打造“新型”农产品。
大约18个月前,来自拜耳、Amazon和Slalom Consulting的约10名工程师和高管组成了一支紧密的团队,制定了“Decision Science Ecosystem”的蓝图,并花费了大约一年的时间构建该平台。McQueen表示,拜耳的数据科学家已经在这个新平台上开发了几种生成式AI模型的概念验证,这些模型仍处于“功效”的发现和评估阶段,他补充说,这些模型要到2025年才会投入生产。
“目前,研发流程是高度保密的,”他说。但可以说,先进的生成式AI有朝一日可能会创造出杂交种子或新种子,从而改变和增加食品供应链。“我们公司使命的核心就是养活整个世界,”McQueen说。
McQueen表示,Bayer Crop Science现有的数据科学平台是在大约七年前基于名为Domino的许可平台开发的,现在已经不再适用了,需要为现代AI时代而升级换代。Decision Science Ecosystem的第一个主要版本计划在未来几个月内发布。
和大多数企业一样,Bayer Crop Science将首先使用基于AWS的开箱即用型生成式AI工具来实现基本业务流程的自动化,例如内部技术文档的制作。构建平台的核心工程师已经利用此功能加快了流程。他指出,在整个部门提供此功能将有助于展开更强大的实验和创新。
“在此功能之前,个别工程师必须根据他们编写的代码和其他开发内容创建自己的文档。AWS的开箱即用功能取代了这种手动工作,使我们的工程人员效率更高,能够比以前更快地交付价值,”McQueen说。
即将推出的数据科学平台将被拜耳的工程师和数据科学家采用,还具有与Amazon Bedrock的增强连接和集成、使用自然语言编写代码的能力、以及强大的测试和安全护栏。
Bayer Crop Science团队还在数据科学平台上开发了独特的功能,包括模型注册表,一个自定义的AI模型目录和模型生命周期功能,可以跟踪模型从发现到测试、部署和生产每个阶段的需求。McQueen说,模型注册表还使数据科学家能够把同事开发的代码利用起来。
他说:“从加速的角度来看,我们看到的是使用生成式AI和Bedrock创造机会的复用方面,随着模型在其生命周期中移动,它具有不同的阶和强制执行这些阶段的要求。”
发起变革
Bayer Crop Science部门通过开发这一技术平台,将生成式AI方面的工作和AWS的合作关系提升到了一个新的水平,该平台不仅可以促进模型的开发,还可以培训数据科学家和工程师掌握快速工程技术和应用先进数据技术来创造新的商业产品。
在最近的峰会上,AWS将Bayer Crop Science作为推动生成式AI创新的企业客户之一,此外还有Exscientia的先进药物发现平台和EvolutionaryScale的ESM3,后者为科学家和生物学家提供了一个快速工程平台,用于构建各种用于实验的蛋白质。
这种创新是Bayer Crop Science科学家和工程师DNA中的一个组成部分,但使用生成式AI平台所涉及的变革管理(即使对于高技能人员来说)也是很复杂的,需要“进行深思熟虑的评估”,McQueen强调说。
“要接受以完全不同的方式开展工作并利用AI,是需要一点时间来适应的,”他说。
McQueen表示,生成式AI的基本功能(例如文档摘要和内容创建)已经提高了数据科学平台的质量并缩短了上市前的时间。但随着时间的推移,拜耳的创新者和农业科学家将能够更好地结合该平台独特的工具和功能,以前所未有的方式展开创新。
McQueen表示:“这将有助于员工更快地上手我们的生成式AI平台,更好地了解其构建模型的能力,这是附加的价值。”
尽管如此,这样做也是需要严格监督和严格质量控制程序的,他承认,试水这种地球上最先进的科学工具会带来一些风险。
为此,Bayer Crop Science团队已经建立了保护措施,以防止专有数据从平台中泄露——或者更糟的是,向Bayer Crop Science所覆盖的全球农业人口部署有希望但未经测试的解决方案。
一种开放的方法
Bayer Crop Science运营着一个多云环境,但McQueen表示,由于AWS的平台更灵活、更开放,因此他选择与AWS在生成式AI方面展开更紧密的合作。基于Bedrock的平台让拜耳的数据科学家和工程师可以访问来自Hugging Face等市场中现有的各种开源大型语言模型。
Amazon的AI平台还使拜耳等客户能够使用他们所选的数据平台,这是开发生成式AI模型的一个关键方面。McQueen指出,在Bayer Crop Science的案例中,使用的就是Google BigQuery的数据仓库。
“我们很早就发现,AWS能够提供灵活的技术功能,这样我们就可以开发一个更加组件化的架构,使我们能够插入来自不同提供商的不同模型,”他说。
例如,Bedrock的生成式AI模型目录中包括了来自合作伙伴的开源模型和封闭模型,例如Meta的Llama 2.1和Mistral的Large 2(Mistral最先进的生成式AI模型)。
IDC全球基础设施研究云和边缘服务研究副总裁Dave McCarthy指出,云提供商对生成式AI的策略仍然是各不相同的。
“云提供商将采取不同的方法让客户能够使用这些不同类型的模型。Google一直专注于自己内部开发的Gemini模型系列,而AWS采取了以合作伙伴为主导的第三方模型。至于哪种方法最好,从长远来看还没有一个明确的赢家。”
与此同时,随着企业转向开发更先进的生成式AI模型,CIO们在厂商合作伙伴关系、采购、成本、开发、衡量结果和安全方面将面临很多的管理工作。
保障流程安全
尽管仍处于起步阶段,但Bayer Crop Science正在积极开发许多新的用例,McQueen表示,这些用例将对农业行业带来“颠覆性”的影响。
Bayer Crop Science正在与Bedrock同步推进他们的数据科学平台,而且未来还有更多与Amazon AI平台更新相呼应的发布。
随着他们逐渐转向高级用例,McQueen的IT团队也集成了自动过滤和监控工具以及其他保障措施来保护专有数据,包括集成了指导科学家和工程师展开负责任开发的各种方法。
McQueen谈到他的团队为防止原型在没有内部严格质量控制测试的情况下进入食品供应环节方面所做的努力时,这样表示:“对于我们正在开发的任何新功能,如果这些功能有可能进入市场或直接嵌入工作流程,员工们就必须在将其推向主流之前进行仔细的基准测试和试验。”
“我们可以与人类专家并肩测试模型,在全面投入生产之前进行验证,重要的是,我们不能向外部推出新功能之后向农民提供错误的建议,影响他们的业务并造成损害。”