智能体流程自动化:基于LLM智能体的RPA进化
引言
机器人流程自动化(RPA)技术因其独特的能力而广受欢迎,该技术通过配置“机器人”或“虚拟劳动力”来仿真人类与数字系统间的交互行为,实现批量处理、低复杂度及高重复性的任务。
RPA机器人能够实现全天候(24小时)不间断运行,极大地减少了因人为因素引起的错误,并能高效处理大量工作任务。通过RPA技术,可以有效地释放员工的工作负担,使其能够专注于更具增值性的任务,同时为企业降低了整体运营成本。适合采用RPA技术的任务类型包括:事务处理、数据操作、查询响应以及跨系统的通信等。
尽管RPA带来了显著的效益,但其在应用过程中也存在一些局限性:
-
工作流程设计的复杂性: 虽然RPA能自动化执行流程,但其背后的工作流程设计仍需依赖人类智能进行精细规划,这限制了RPA在处理需要复杂决策和流程设计的任务时的应用。
-
执行中的动态决策挑战: 由于RPA主要是复制人类的行为模式,它在面对需要实时动态决策的复杂任务时,往往显得力不从心。
-
健壮性与稳定性问题: RPA系统在遇到未预料的异常、环境变化或其他突发事件时,可能因缺乏有效应对措施而导致错误。其稳定性在很大程度上依赖于外部系统的稳定性,一旦外部系统发生故障,也会对RPA的运行造成影响。
图:RPA工作流构建流程
LLM&智能体
在当前的技术变革浪潮中基于大语言模型的(LLM)智能体(Agent)技术正在引领了一场自动化革命的新浪潮。AI智能体区别于传统AI系统的核心在于其独立感知环境、进行决策、并执行动作的能力。这些智能体通过独立思考和调用工具,逐步实现给定目标,展现了对复杂任务的高度自主性与适应性。在目标驱动的操作中,AI智能体能够独立拆解任务、制定行动计划,并基于外界反馈及自身的自主思考,为实现目标而创造性地生成指令或prompt。
利用如GPT-4这样的大型语言模型,AI智能体能够规划和执行复杂的任务序列,自主地根据之前任务的结果调整其工作流的优先级。这些智能体具备长期和短期记忆能力,能够利用旧查询作为上下文信息,并存储先前的结果以供后续使用,确保在面对新数据导致的挑战时,能够从错误中学习并调整其任务策略。
图:RPA工作流构建流程
智能体流程自动化(Agentic Process Automation)
为了根本性地解决机器人流程自动化(RPA)技术的固有局限,清华大学及其他联合研究机构推出了一种创新的流程自动化模式——“智能体流程自动化”(Agentic Process Automation, APA)。此范式的核心在于将传统RPA技术与智能体技术相结合,利用大模型智能体的能力,协助人类构建更为高效和智能的工作流程。
项目地址:https://github.com/OpenBMB/ProAgent
论文地址:https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf
智能体在此框架中,智能体不仅扮演"自动化构建工作流"的角色,而且还负责自主管理包含"复杂决策"和"动态处理"的流程环节,从而实现更加智能化的工作流设计和增强的动态决策能力。这种解决方案有效地解决了传统RPA技术在处理需要复杂决策和高度定制化任务方面的不足,同时拓宽了自动化技术的应用范围,提升了操作效率,并且优化了决策制定过程。
图:APA和RPA范式对比
智能体流程自动化(APA)范式原理
智能体流程自动化技术框架的核心由几个关键组件:智能体工作流描述语言(Agent Workflow Description Language)、数据智能体(Data Agents)以及控制智能体(Control Agents)。基于这些组件构建的自动化解决方案在其运作机制上与传统的机器人流程自动化(RPA)体系展现显著的差异。
- 智能体工作流描述语言
在传统的机器人流程自动化(RPA) 领域,通常采用图形化方法来表达工作流程,然而,这种方式并不适合大型语言模型(LLMs)的解析和编排生成工作流的目的。为解决这一挑战,APA引入了智能体工作流描述语言,该语言以JSON格式描述工作流的数据流部分,并使用Python代码来表示控制逻辑。这种方法不仅能充分发挥LLMs的文本生成能力,而且实现了通过智能体完全替代人工实现编排工作流程的目标。
图:智能体工作流描述语言生成工作流
- 数据智能体和控制智能体
APA通过实现数据智能体和控制智能体,并将它们编排进入工作流中,以解决传统RPA场景中数据处理和动态决策方面的挑战。这一举措极大地提升了工作流的灵活性,使其能够更好地适应各种复杂的业务场景和变化需求。
-
数据智能体 是由大型语言模型(LLM)驱动,基于ReACT提示词技术的智能体。它通过理解用户输入的自然语言任务描述,并根据任务描述进行推理和规划执行步骤,从而自主完成相应的任务。
DataAgent(task, input) → output
数据智能体的输入项目为:任务描述和数据,输出是数据,通过JSON组织并与其他动作连接。
-
控制智能体 替代预先定义的表达式和规则组的方式,使用智能体来实现自动判断和分支选择。
ControlAgent(task, input, [opt1, opt2, ···, optn]) → opt
在执行过程中,智能体可以基于输入数据做出决策,决定随后将执行哪个分支,影响工作流的控制流。
图:数据智能体和控制智能体
工作流构建
由于工作流通过智能体工作流描述语言被表示为JSON结构和Python代码,工作流构建被表述为一个代码生成任务。工作流构建程序主要包含四个迭代操作,分别是动作定义、动作实现、工作流实现和任务提交。
- 动作定义阶段确定将哪个动作节点添加到工作流中;
- 动作实现阶段首先确定动作的输入/输出数据格式,并将其转换为Python函数,在Python代码中实现数据处理程序;
- 工作流实现阶段提供一个实现,以编排整个工作流;
- 任务提交阶段表示工作流构建的终止。
图:APA工作流自动构建流程
APA示例
示例说明
在《ProAgent》研究论文中作者详细展示了一个自动化构建一个APA(自动化流程应用)工作流的示例。该工作流的任务是读取并处理存储在Google文档工作表中的数据,以便执行一系列预定义的特定操作。以下是该示例的工作表具体内容:
Business Line | Manager | cost | sales | Description |
---|---|---|---|---|
1 | Managblitherboom812@gmail.com | 10,000 | 50,000 | E-commerce Marketplace: Operating an online platform for consumers to purchase a wide range of products from various brands and sellers. |
2 | Managblitherboom812@gmail.com | 5,000 | 30,000 | Online Food Delivery Service: Offering a convenient platform for consumers to order food from local restaurants and get it delivered to their doorstep. |
3 | Managblitherboom812@gmail.com | 20,000 | 10,000 | Online Travel Booking Portal: Offering a comprehensive platform for consumers to book flights, hotels, and other travel-related services conveniently. |
4 | Managblitherboom812@gmail.com | 8,000 | 7,600 | Online Personal Finance Management Tools: Providing users with intuitive tools and resources to manage their personal finances, track expenses, and create budgets. |
5 | Managblitherboom812@gmail.com | 6,000 | 8,000 | Online Education and E-learning Platform: Offering a variety of online courses and educational resources for users to enhance their skills and knowledge in various subjects. |
6 | ······ | ······ | ······ | ······ |
该工作表存储了企业各业务线(Business Line)每月的财务数据,涵盖了成本、销售额以及相关业务线的描述性分析。工作流的任务是根据业务线类型生成两种提 醒消息:对于2B(对企业)业务线,系统自动生成一封包含月度总结的邮件,并将其发送给相应的业务线负责人;对于2C(对零售)业务线,系统则将业务线的毛利信息直接发布到Slack中。
该工作流的实现依赖于两类智能体的协作:
控制智能体: 鉴于原始数据中缺乏直接标识业务线类型的字段,仅包含描述性文本,工作流通过引入控制智能体来利用大语言模型的文本分类能力来识别业务线的类型。通过这种方法,控制智能体有效地替代了传统RPA(机器人流程自动化)中的条件分支逻辑。
数据智能体: 对于仅包含成本和销售额的财务数据,数据智能体能够自动产生业务线的综合诊断和总结,进而生成内容丰富、信息准确的邮件文本。
下图展示了最终生成的工作流示例,从中我们可见,生成式人工智能(AI)技术对于处理非结构化数据及自动化生产高品质内容所展现出的卓越能力,对传统工作流程的改进带来了显著的价值。这种技术的应用不仅大幅度提升了工作效率,同时也显著增强了工作流程的鲁棒性和智能化程度。
图:业务线汇总消息提醒工作流示例