QIFU R&D · AGENT COLLABORATION

金科研发
Agentic
人机协作方案

以任务驱动打通研发全生命周期闭环与团队工作闭环。

目标不是多装一个 AI 工具,而是把研发工作改造成 Agent 可理解、可执行、可反馈、可复用的闭环系统。

任务驱动
双 Agent
Artifact 接力
人类监督
闭环度量
Agent collaboration loop illustration
OPEN LOOP → CLOSED LOOP

AI Native 研发的关键不是工具,而是闭环

02

旧流程:信息散落,靠人记忆推进

  • 会议纪要、IM 口头任务、Jira、代码、测试反馈分散在不同系统。
  • 需求理解、移交材料、Review 等待、Bug 反馈常常没有统一状态。
  • Agent 只能在单次对话中帮忙,无法稳定继承上下文和反馈。
会议待办散落行动项难追踪。
IM口头推进状态容易丢失。
代码本地上下文难复用到下游。
任务边界:靠人补齐。
验收标准:常在后期才明确。
反馈沉淀:难进入下一次任务。
管理视角:只能追问进度。

新流程:任务、Artifact、状态、反馈进入闭环

  • 任务成为协作和审计的最小单位。
  • 每个阶段都有标准产出物,能被人审阅,也能被 Agent 读取。
  • 团队日常状态进入沉淀,支持复盘、度量和 Skills 迭代。
任务状态机来源、负责人、进度。
Artifact上下文可审计、可交接。
反馈可复用进入模板和 Skills。
任务边界:创建时写清。
验收标准:执行前确认。
反馈沉淀:更新规则和案例。
管理视角:看队列和阻塞。

AI Native

AI 不应只停留在单点 productivity tool;研发关键动作要变成可查询、可反馈、可改进的闭环。

锚点:YC / Diana Hu 相关演讲整理。

Agentic DevOps

Agent 参与软件生命周期,但人在关键控制点负责审批、判断和治理。

锚点:Microsoft Azure Blog, 2025-05-19。

生产力幻觉

METR 2025 真实开源任务实验中,开发者主观认为更快,但实际耗时增加 19%。

结论:工具需要任务边界、验收和反馈。

设计结论

工具提效必须进入系统设计:任务流转、Artifact 接力、Review 验收、指标度量一起工作。

含 AI 量只能做诊断,不应作为直接 KPI。

PRODUCTION MODEL

任务驱动的来源:从个人端到端到流水线节点协作

03

农业式端到端

一个人从理解需求、准备材料、完成加工到交付结果,责任连续,但并发能力弱,过程状态主要存在于个人经验里。

工作对象:完整任务由单人持有。
推进方式:靠个人排期、记忆和口头同步。
主要瓶颈:并发弱、交接少但扩展性差。
适合小规模、低协作的工作;一旦任务变多,等待和切换会迅速放大。

工业流水线

产品或物料在流水线上流动,人在节点上接收任务、完成局部工序,再把结果交给下游。效率来自并发、标准化和节点衔接。

工作对象:产品或物料在节点间流转。
推进方式:标准工序、自动传递、节点质检。
主要收益:并发提升,单项工作持续向前。
来料节点质检下游闭环

Agentic 研发流水线

流动物从物料变成任务和 Artifact。人、助手 Agent、生产力 Agent 在不同节点处理任务,平台负责状态、衔接、审计和反馈。

工作对象:任务、Artifact、状态和验收标准。
推进方式:人和 Agent 按节点分工接力。
主要收益:研发全生命周期可追踪、可复用。
需求设计开发测试验收
TASK-DRIVEN

任务驱动为什么成立:它继承了流水线的四个效率机制

04

个人端到端

一个人完整持有任务,沟通成本低,但并发弱,状态主要在个人脑中。

工业流水线

物料按节点流转,每个节点只做清晰工序,效率来自并发、标准化和质检。

Agentic 研发流水线

流动物变成任务和 Artifact。Multica 负责状态机,Agent 和人按节点消费任务。

并发处理

任务先进入统一队列,多个任务可以同时推进。

看队列、owner、阻塞和等待时间。
做法:Jira/GLA/会议待办汇入 Multica,统一变成可分派任务。
边界:候选任务先确认,再进入正式执行队列。
目标:减少任务散落在聊天里的不可见进度。

单项提效

人和 Agent 都只处理当前节点最适合自己的动作。

Hermes 处理轻量驻守,Claude Code/Codex 处理深度任务。
做法:轻量动作走 IM;深度任务带任务包进入生产力工具。
边界:业务判断、审批和高风险变更保留人类节点。
目标:减少上下文切换和重复整理。

深度加速

把研发最佳实践放到 Skills、模板和验收标准里。

覆盖分析、设计、单测、Code Review、Bug 修复。
做法:每个动作有输入、输出、检查项和失败回退路径。
边界:复杂 Bug、生产影响和数据一致性问题进入人主导。
目标:不是更快糊完,而是更稳定地产出可审材料。

协作闭环

任务定义谁接、接什么、怎么交付、谁验收。

Multica 记录状态、Artifact、审计和反馈。
做法:PR、测试、部署、验收结果全部回写 Issue。
边界:关闭前必须有产出物、验收结果和责任人确认。
目标:失败、返工和经验能回到系统。
WHY PLATFORM

为什么需要平台方案:把任务、角色和过程接起来

05

角色分工

先说清楚哪些工作由机器做,哪些工作由人做。Agent 负责标准化分析、执行、整理和提醒;人负责目标、边界、验收、风险和最终决策。

  • 机器:检索、草拟、执行、检测、汇总。
  • 人:取舍、授权、审批、责任承担。
  • 平台:记录边界,避免职责漂移。
没有角色边界,协作会变成“谁都在做一点,最后没人负责”。
Agent 做检索、草拟、检测、候选方案。
人来做目标、取舍、授权和责任确认。
平台记边界、状态、产出和审计记录。
变更时权限或风险变化必须回到人审。
判断类工作不能自动下放。
执行类工作可以标准化交给 Agent。
系统类动作必须有权限和审计。

任务闭环

任务从创建、分派、执行、审核、移交、验收到关闭,都要有状态和产出物。平台负责把这些动作串起来,而不是依赖人肉提醒。

  • 创建:来源、目标、负责人、验收标准。
  • 执行:Artifact、测试、Review、阻塞。
  • 关闭:验收、复盘、知识沉淀。
闭环不是多一个看板,而是每一步都有输入、输出和下一步触发。
创建来源、目标、负责人、验收标准。
执行Artifact、代码、测试、阻塞状态。
审核Review、测试、审批、风险确认。
关闭验收、复盘、知识沉淀和下游通知。
状态流转要可追踪。
产出接力要可审计。
失败回退要回到任务。

过程可视化

让关键任务从创建到关闭的状态、产出、阻塞和风险可观察:哪里等待、哪里返工、哪里需要人判断,都能被看见。

  • 进度:从开始、等待、执行到验收关闭。
  • 质量:返工、缺陷回流、回归结果。
  • 风险:权限、生产变更、合规控制点。
可视化不是监控个人,而是发现系统瓶颈。
进度哪里等待、哪里执行、哪里关闭。
质量返工、缺陷回流和回归结果。
风险权限、生产变更和合规控制点。
阻塞owner、下一步和预计解除时间。
指标不用于简单排名。
按任务类型和环节看瓶颈。
失败样本必须进入复盘。
WHAT

方案定义:用 Multica 任务协作平台承载两个闭环

06

Multica · 任务协作系统

不是替代 Jira/GLA,而是在现有系统上增加统一 Issue、状态机、Artifact 链接和 Agent 接入层。

统一调度:任务从多个入口汇入。
统一状态:分派、执行、审核、验收可追踪。
统一接入:Agent 拉取任务并回写进度。

闭环一 · 研发全生命周期

从需求、设计、开发、测试、Review、部署、验收到 Bug 回流,每一步都有任务、产出和审核点。

自动化:分析、编码、单测、Review 自查、候选修复。
人参与:目标确认、风险判断、合并、验收。
沉淀:结果回到模板、Skills 和知识库。

闭环二 · 研发团队工作

团队日常的分派、阻塞、日报、周报、复盘不再只靠口头同步,而是从任务状态自动汇总。

晨报:任务和风险拉取。
白天:状态变化、阻塞和超时提醒。
复盘:失败、返工和接管写回规则。

右侧消费端 · 人 + Agent

Hermes 负责轻量驻守,Claude Code 和 Codex 负责深度任务,测试/Review Agent 负责专项自动化。

轻量:提醒、审批、状态查询、任务创建。
深度:开发、Bug 修复、单测和 Review。
控制:高风险动作保留人审。
double loop system illustration
ARCHITECTURE

三层架构:现有系统保留,Multica 负责任务协作闭环

07

任务消费端

开发者、测试、运维、Leader,以及 Hermes、Claude Code、Codex、Test Agent。

右侧消费端从 Multica 拉取任务,执行后回写状态、Artifact 和风险说明。

拉取任务读取上下文执行/审核回写进度
轻量驻守:Hermes 处理提醒、审批、查询。
深度任务:Claude Code / Codex 处理代码任务。
专项自动化:Test / Review Agent 处理测试和审查。
人类责任:风险判断、合并、验收和授权。

Multica · 任务协作平台

统一 Issue 看板、Squad 团队、Skills 库、Agent 接入层、状态机和 Artifact 链接。

这是两个闭环的核心:它不替代事实源,但负责调度、衔接、审计和反馈。

统一 Issue状态流转Artifact 接力Agent 接入
任务模型:目标、owner、验收、风险、状态。
协作模型:分派、执行、审核、移交、关闭。
知识模型:模板、Skills、复盘和案例沉淀。
接口模型:Webhook、MCP、Slash Command。

任务生产端与事实源

Jira/FTD、GLA 工单、IM、会议转录、Git、CI/CD、部署系统。

左侧系统继续保存原始事实,Multica 只做协作层和闭环层,不强行重构现有流程。

需求事实事件事实代码事实部署事实
Jira/FTD:Request、Story、Task。
GLA:生产事件和客户支持。
IM/会议:临时任务和行动项。
Git/CI/CD:代码、测试和部署结果。
DUAL AGENT

双 Agent 架构:一个做重活,一个降低协作摩擦

08

生产力 Agent

用于深度、沉浸式且复杂的任务,在生产力工具里按最佳实践把复杂工作做完整。

Claude Code
Codex
深度工作
  • 处理分析、设计、编码、测试、Review、Bug 修复等复杂链路。
  • 需要代码库、任务 Artifact、验收标准和较长执行时间。
  • 产出进入任务系统,人负责关键判断、Review 和合并。
适合标准开发任务、Type A Bug、测试补充和 Review 自查。
不适合业务取舍、生产授权、合规判断和权限变更。
运行方式在生产力工具中读取代码库和 Artifact。
转交条件候选 MR、测试报告和风险说明齐全。
每次执行必须绑定任务和验收标准。
高风险发现立即回到人工判断。
产出要能被 Review、测试和下游复用。
输入代码库、任务说明、历史 Artifact。
动作分析、设计、编码、测试、自查。
产出MR、测试报告、Review 说明。
控制人类审核、合并和风险判断。

助手 Agent

OpenClaw、Hermes Agent 这类助手,适合在 IM 中用对话完成轻量级任务和单一动作。

IM 入口
邮件 / 审批
单步 DevOps
  • 处理邮件回复、工单审批、状态查询、任务创建和提醒。
  • 在聊天界面里完成最快路径,不要求用户进入复杂工具。
  • 硬规则:助手 Agent 不承担深度交付;它把轻量动作沉淀成任务事件,再交给平台或生产力 Agent。
适合查询、提醒、审批、创建候选任务。
不适合长时间编码、复杂排障和高风险变更。
运行方式在 IM 中完成最短路径动作。
转交条件超过轻量边界就沉淀为任务事件。
轻量动作优先走对话入口。
候选任务先由人确认再进入平台。
复杂交付转给生产力 Agent 或任务系统。
输入IM 指令、审批项、工单、状态查询。
动作查询、提醒、创建任务、单步操作。
产出回复、审批结果、任务事件。
控制低风险动作优先,复杂任务转交。
TASK FLOW

左中右协作架构:任务生产端 → Multica → 任务消费端

09
左 · 任务生产端

FTD / Jira

Request、Story、Task 自动同步为 Multica Issue。

GLA 工单

生产事件、客户支持转为责任任务,保留时限和来源。

IM / Hermes

一句话创建候选任务,轻量分派、提醒、状态查询。

会议转录

提取行动项,人确认后进入任务队列。

中 · Multica 任务协作平台

统一 Issue 看板、Squad 团队、Skills 库、Agent 接入层。它负责调度任务,不替代 Jira、Git、CI/CD 这些事实源。

统一 Issue:目标、owner、验收、风险。
状态机:创建、分派、执行、审核、关闭。
Artifact 链:需求、设计、测试、Review、移交。
Agent 接入:Webhook、MCP、Slash Command。
任务策略:Type A 自动候选,Type B 人主导。
闭环反馈:失败、返工、接管写回规则。
核心判断:Multica 不是“又一个看板”,而是把任务流转、Agent 消费和团队复盘接成闭环。
右 · 任务消费端

开发者 + Claude Code / Codex

拉取开发任务,生成分析、设计、代码、测试和 MR 说明。

测试工程师 + Test Agent

接收测试任务,生成用例、执行单测/回归并回写结果。

运维工程师 + Agent

处理部署、回滚、生产事件和运行状态更新。

Leader / Reviewer

监督风险、确认优先级、做最终 Review 与验收判断。

左 → 中
Jira/GLA webhook 自动汇入;IM 与会议候选任务先由人确认。
中 → 右
消费端拉取任务,按任务类型启动 Hermes、Claude Code、Codex 或专项 Agent。
右 → 中
PR、测试报告、部署结果和人工验收回写 Issue,形成 Closed-Loop 反馈。
LIFECYCLE LOOP

研发全生命周期闭环:每一步都有输入、产出和审核点

10
平台 / 系统动作 Agent 执行与产出 人类确认与决策 所有步骤回写 Multica Issue
Jira / FTD
Multica
开发者
Claude Code / Codex
测试 / Test Agent
Reviewer / Leader
1Story / Task 同步为 Multica Issue,带来源、owner、验收字段
2人确认目标、优先级、风险等级和不可自动化边界
3/analyze 生成需求理解、影响面、待确认问题和 Artifact
4开发者确认范围、依赖、验收标准和测试口径
5/design + /code 在隔离工作区完成设计、实现、单测补充
6Git / CI 生成候选 MR、测试报告、变更摘要并回写任务
7Reviewer 依据 MR、测试、风险说明做修改或合并判断
8Test Agent / 测试工程师执行回归、部署前验证,产出验收证据
9验收通过则关闭 Story;发现缺陷则创建 Bug Issue,进入 Bug Loop
10失败、返工、人工接管、复盘结论写回模板、Skills 与任务分类规则
自动化
同步任务、生成 Artifact、跑测试、汇总状态、回写证据。
人类节点
目标确认、风险判断、Review、合并、验收和生产授权。
任务闭环
每个任务都能看到来源、当前状态、产出物、阻塞和关闭原因。
知识闭环
失败样本和成功模板进入 Skills、验收规则和下一轮任务。
DEVELOPMENT LOOP

开发 Loop:Agent 起草和执行,人确认关键判断

11

Multica 任务包

开发 Loop 从一个可执行任务包开始,而不是从一句聊天指令开始。

输入Jira/FTD Story、业务目标、验收标准、上下游依赖。
上下文相关代码、历史 MR、接口文档、失败样本和约束条件。
状态待分析、待确认、执行中、待 Review、待测试、待验收。
证据Artifact 链接、测试报告、Review 结论、合并记录。
优先级标记时限、依赖和阻塞,让任务可以被调度和追踪。
退出验收通过、关闭原因、复盘结论和后续任务全部写回。
任务包解决“Agent 到底在做什么、做到哪一步、谁来确认”的可见性问题。

深度任务:Claude Code / Codex

复杂任务进入生产力工具执行,Agent 负责候选产出,人保留关键判断。

/analyze形成需求理解、影响面、待确认问题。
/design生成方案、验收项、测试策略和风险说明。
/code在隔离 worktree 中实现,避免污染主工作区。
/test补单元测试、跑 CI 前检查,输出失败原因。
/review自查变更、生成 MR 说明和交接材料。
Artifact每一步产出文件或链接,不依赖聊天历史续命。
异常退出遇到权限、生产影响或需求不清,回到人工确认。
生产力 Agent 只生成可审阅候选产出;合并、验收和生产授权不自动越过人。

人类节点

人的价值集中在目标、边界、风险和最终责任,不消耗在状态搬运上。

确认目标需求理解、验收标准、风险等级是否正确。
确认边界生产影响、权限、合规和业务取舍不自动化。
Review 决策根据代码、测试、风险说明决定修改或合并。
验收关闭测试通过、移交完成、关闭原因写回 Multica。
反馈修正指出偏差,Agent 只重跑对应步骤,不重来整条链路。
复盘沉淀把失败原因、提示词、模板和 Skills 更新为团队资产。
开发 Loop 的目标不是无人化,而是把低价值步骤自动接起来,让人只在高价值节点介入。
BUG LOOP

Bug 修复先分级:标准 Bug 由 Agent 生成候选修复,人审核合并

12

入口:先补齐证据

Bug 进入 Multica 后,先整理事实,再决定是否进入候选修复。

来源测试失败、线上告警、GLA 工单、用户反馈、回归报告。
证据现象、复现步骤、期望/实际、日志、版本、影响范围。
分级单模块/跨模块、低风险/高风险、可复现/复现不清。
路由Type A 进入 Agent 候选修复;Type B 进入人主导调查。
缺口缺少复现、日志或影响面时,不进入修复,先补证据。
输出形成 Bug 任务包,包含复现、风险、测试入口和责任人。
Hermes 或 Test Agent 可以驻守入口,自动补充模板字段、提醒缺证据项、回写状态。

Type A:标准 Bug

可复现、单模块、低风险、测试可运行,适合 Claude Code / Codex 生成候选修复。

复现Agent 先写复现用例或最小失败测试。
定位搜索相关代码、调用路径、历史 MR 和类似缺陷。
修复隔离 worktree 修改代码,补充单测和回归检查。
交付生成候选 MR、测试报告、风险说明和关闭建议。
控制人审核合并,测试回归通过后关闭 Issue。
同步PR、测试结果、失败原因和验收结论回写 Multica。
异常发现跨模块或生产风险,立即升级为 Type B。
Type A 只自动生成候选修复,不自动合并;它适合低风险、可验证、可回归的缺陷。

Type B:复杂 Bug

涉及多模块、资金/风控/合规、生产影响、数据一致性或复现不清时,人主导。

人主导确定影响面、业务取舍、回滚窗口和修复策略。
Agent 辅助整理日志、聚类错误、检索调用链、生成假设清单。
不自动修生产修数、权限策略、并发扣减、账务一致性。
关闭验证记录、风险说明、复盘结论和防线改进必须齐全。
输出影响面、假设、回滚方案、修复路径和验证计划。
升级需要跨团队或高风险授权时,由 Leader 负责调度。
复杂 Bug 的核心不是“让 Agent 改代码”,而是把调查证据、假设和决策过程结构化。
TEAM LOOP

团队工作闭环:把日常状态变成组织记忆

13

09:30

助手 Agent 拉取个人任务、团队负载、阻塞、新分配任务。

产出:个人晨报 / Leader 晨报

触发:工作日开始。
看点:今日重点和风险。
输入:任务状态、PR、工单。
人确认:今日重点和风险。
下游:形成当日任务队列。

白天

监听任务状态、PR、阻塞、超时、事件,必要时提醒。

产出:状态更新 / 风险提示

触发:状态变化或超时。
看点:谁被阻塞、下一步是什么。
输入:事件流、Review、CI。
人处理:决策、授权、反馈。
下游:转交或升级阻塞。

18:00

汇总完成项、进行中、阻塞、明日计划,生成日报草稿。

产出:可编辑日报

触发:当天任务收口。
看点:产出、阻塞和明日计划。
输入:全天任务和产出物。
人编辑:删改敏感或不准信息。
下游:沉淀团队状态。

每周

汇总任务类型、Agent 化比例、风险、收益和反复卡点。

产出:团队复盘

触发:周任务收口。
看点:瓶颈、返工和失败样本。
输入:周期数据和异常案例。
人判断:哪些流程要改。
下游:形成改进项。

迭代

复盘结论进入任务模板、Skills、验收规则和分类标准,影响下一批任务。

产出:流程改进

触发:复盘结论确认。
看点:哪些规则要更新。
输入:复盘结论。
人审核:规则是否适用。
下游:模板和 Skills 更新。

团队闭环不是增加日报负担,而是把状态、阻塞和改进项从零散沟通中取出来,回到任务系统和知识沉淀。

状态每个重要任务知道当前在谁手里。
阻塞每个阻塞都有 owner 和下一步。
日报默认生成草稿,人可以删改。
复盘结论进入模板、Skills 和规则。
ARTIFACT RELAY

从聊天历史转向 Artifact 接力

14

为什么不用聊天历史承载上下文

  • 聊天记录散,难以作为长期项目证据。
  • 上下文窗口有限,无法无限继承。
  • 失败重试时很难只重跑一个步骤。
  • 合规、审计、交接都需要结构化产出。
聊天:适合即时沟通。
Artifact:适合审计和复用。
任务:保存状态和责任。
知识库:沉淀可检索经验。
问题一聊天记录难以绑定验收标准。
问题二失败重试不能只重跑单一步骤。
问题三Review、测试和移交缺少稳定证据。
处理把关键上下文转为结构化 Artifact。
即时沟通留在聊天里。
需要审计和交接的内容进入 Artifact。
需要状态和责任的内容进入任务。

标准 Artifact 链

需求requirement_spec.md背景、目标、边界。
设计design_doc.md方案、影响、取舍。
验收acceptance.yaml检查项、口径、责任。
测试test_report.json覆盖、结果、失败原因。
Reviewreview_comments.md问题、取舍、结论。
移交handoff.md变更、风险、回滚。
上游:给 Agent 足够上下文。
中游:给人可审阅证据。
下游:给测试和部署材料。
复盘:给 Skills 和模板更新。
可审计每一步有文件或系统链接。
可交接下游能读懂范围、风险和口径。
可重跑失败时只重跑对应步骤。
可复用复盘结论进入模板和 Skills。
IMPLEMENTATION SCOPE

落地范围:用哪些工具,把哪些环节做到什么程度

15

平台与工具组合

Multica 承载任务协作闭环;现有系统继续作为事实源;Agent 在消费端执行任务。

Multica统一 Issue、状态机、Artifact 链、Squad、Agent 接入层。
HermesIM 驻守,处理查询、提醒、轻量审批、候选任务创建。
Claude/Codex深度任务执行:分析、设计、编码、测试、Review 自查。
现有系统Jira/FTD、GLA、Git、CI/CD、部署系统保留事实源地位。

先做到的自动化程度

第一阶段先做任务链条串联和标准化任务,不追求高风险场景无人化。

任务流转创建、分派、拉取、状态更新、关闭结果回写。
Bug 修复Type A 标准 Bug 复现、补测、候选 MR 和回归报告。
Code ReviewAgent 自查、风险说明、Review 清单,最终判断由人做。
单元测试补充测试、执行结果、失败原因和覆盖缺口写回任务。

暂不自动化的边界

边界写进任务模板和状态机,避免把风险隐藏在“自动化”口号里。

生产变更上线、回滚、生产修数、权限变更必须保留人审。
业务取舍优先级、策略变化、客户承诺、合规判断由人确认。
复杂缺陷多模块、资金/风控/一致性问题进入人主导路径。
指标使用不把 AI 使用量当 KPI,只看速度、质量、稳定和闭环率。

试点范围与验收

先在小团队跑通真实闭环,用证据决定是否扩展。

范围一个小团队、一个代码库、两类任务:标准开发任务和 Type A Bug。
周期4-8 周验证核心链路,每周复盘一次摩擦和失败样本。
证据任务状态、MR、测试报告、人工结论、移交材料可追溯。
扩展条件收益稳定、风险边界清楚、团队体验可接受,再扩大场景。
GOVERNANCE

Agent 能力越强,边界和治理越要前置

16

独立性

生成 Agent 与 Review Agent 分离,避免同一上下文自评自夸。

候选产出和审查分开跑。
保留人类最终判断。
审查结果进入 MR。
同一 Agent 不自审高风险产出。

分级

Bug 和任务强制分级,只有低风险标准任务进入隔离工作区的自动候选产出路径。

Type A:低风险候选修复。
Type B:人主导,Agent 辅助。
进入路径前先判定风险。
升级条件写进任务模板。

审批

生产变更、核心业务判断、高风险合规事项保留人类审批。

审批记录进入任务。
回滚预案与变更关联。
审批前必须有影响说明。
回滚和验证记录必须可追溯。

权限

Agent 身份、权限边界、最小授权和系统访问审计要可追溯。

按任务授予最小权限。
敏感数据默认不外流。
权限随任务结束回收。
系统访问保留审计日志。

指标

不把 AI 使用量作为直接 KPI,避免指标被 gaming。

同时看返工率和失败率。
按任务类型拆口径。
Agent 化指标只做诊断。
速度必须和质量稳定同看。

团队体验

通知可关闭、日报可编辑、数据用途透明,避免被监控感。

默认生成草稿,不强制发布。
说明数据用途和保留期。
个人数据不做简单排名。
团队可调整通知和发布策略。
PILOT PATH

试点路径:先证明最短闭环,再扩大任务类型

17

阶段 1

跑通最短链路:任务 -> Agent -> Artifact -> 人审核。

退出标准:第一份可审阅产出物。

重点:先验证任务状态机。
证据:第一份 Artifact 可审。
范围:一个团队、一个代码库。
验证:任务状态与 Artifact 对齐。
不做:大平台建设。

阶段 2

跑通开发 Loop:分析、设计、编码、测试、Review。

退出标准:一个真实需求完成闭环。

重点:开发链路不跳步。
证据:MR 与移交材料齐全。
范围:标准开发任务。
验证:MR、测试、移交材料齐全。
不做:高风险业务变更。

阶段 3

跑通 Bug Loop:Type A 标准 Bug 候选修复。

退出标准:人审核合并并回归通过。

重点:先分级再候选修复。
证据:回归结果可追溯。
范围:可复现、低风险、单模块。
验证:候选 MR 和回归结果。
不做:复杂生产故障自动化。

阶段 4

跑通团队工作闭环:晨报、日报、阻塞、周复盘。

退出标准:团队状态可见。

重点:状态自动汇总。
证据:阻塞和日报可编辑。
范围:任务、PR、阻塞、日报。
验证:状态更新可追溯。
不做:个人监控。

阶段 5

扩展与决策:任务平台、Jira 加层或自研路径。

退出标准:形成长期路线。

重点:用证据做路线选择。
证据:收益、风险、摩擦记录。
范围:多任务类型和系统集成。
验证:收益、风险、使用摩擦。
不做:没有证据的规模化。

试点路线按证据推进:先跑通真实闭环,再决定扩展任务类型、系统集成和长期平台路线。

先小队一个团队、一个代码库、一个真实任务。
先低险标准任务和 Type A Bug 先进入候选路径。
先证据用 MR、测试、移交和复盘判断收益。
再扩展风险、摩擦和治理稳定后再推广。
SUCCESS CRITERIA

试点成功不看概念完整,而看闭环是否真实跑通

18

一条真实需求

从任务创建到 MR 合并,再到测试移交和验收关闭。

证据:需求分析、MR、测试移交。
审核:验收标准逐项确认。
有需求分析和验收标准。
有 MR、测试、移交材料。
关闭结果可追溯。
失败或变更能回到任务。

一类标准 Bug

完成分类、修复、测试、自查、MR、人审、回归。

证据:复现步骤、日志和回归。
审核:候选 MR 由人合并。
只选 Type A 低风险缺陷。
候选修复在隔离工作区完成。
人审合并并回归通过。
复杂缺陷不进入此路径。

一条团队日循环

晨报准备、白天状态更新、晚间日报和阻塞整理。

证据:任务状态、PR、阻塞项。
审核:日报草稿可编辑。
日报可编辑,不强制发布。
阻塞有 owner 和下一步。
团队状态不靠人工追问。
晚间摘要回到任务系统。

一套 Artifact 链

需求、设计、验收、测试、Review、移交材料可追溯。

证据:每个阶段有文件或链接。
审核:失败步骤可单独重跑。
每一步都有标准产出。
失败时能重跑单一步骤。
复盘能更新模板和 Skills。
后续 Agent 能读取复用。
4-8
周内验证核心链路;前提是小团队、单代码库、已有 CI/测试入口。
不做大平台,先验证闭环。
每周复盘一次风险和摩擦。
每周都有可展示产出。
2
优先任务类型:标准开发任务、Type A Bug。
标准任务看交付周期。
Type A Bug 看回归通过。
其他任务先记录不自动化。
1
小团队先跑,确认收益和风险后再扩展。
先选一个团队、一个代码库。
扩大前必须有证据。
扩展时同步更新规范。
DECISIONS

需要在试点后做的三个长期决策

19

任务平台路径

继续使用独立任务平台、在 Jira 上加 Agent 协作层,还是长期自研。

判断依据:合规、安全、集成成本、用户使用摩擦。

先看:接入成本和使用摩擦。
再看:状态和 Artifact 统一。
短期:少改现有系统。
中期:统一状态和 Artifact。
长期:评估自研是否必要。
决策依据来自试点证据。

Agent 运行路径

本地开发者 Agent、中心化助手 Agent、CI/CD 内 Agent、运维 Agent 如何分层。

判断依据:权限边界、上下文需求、响应时延、审计要求。

先看:权限和上下文需求。
再看:时延、成本和审计。
轻量动作:助手 Agent。
复杂交付:生产力 Agent。
系统动作:事件触发和审计。
高风险动作必须保留人审。

组织推广路径

哪些任务类型先扩展,哪些业务团队可复制,哪些场景必须保持人主导。

判断依据:任务标准化程度、风险等级、收益稳定性。

先看任务是否可标准化。
再看风险是否可隔离。
先复制低风险标准任务。
再扩展跨团队协作任务。
高风险业务保持人主导。
扩展前必须更新规范。

试点阶段不急着建设大而全平台。先拿到真实闭环、真实产出、真实风险,再决定长期路线。

真实闭环任务能从创建、执行、审核、验收到关闭。
真实产出有 MR、测试报告、移交材料和复盘记录。
真实风险记录失败、返工、人工接管和权限问题。
真实摩擦统计创建、同步、审核和通知的使用成本。
平台选择看现有系统改造成本,不先假定自研。
Agent 分层按权限、上下文、时延和审计拆分。
推广节奏先低风险标准任务,再跨团队任务。
治理前置把失败案例写回规则和模板。
CLOSING

最终落点:把研发团队升级为 AI Native 的闭环系统

20

我们不是要证明 Agent 可以替代研发团队,而是要让团队中的每一项重要工作都有状态、每一个产出都能复用、每一次反馈都能沉淀。

任务进入系统
Artifact 接力
Agent 候选产出
人类质检决策
复盘更新工艺
输入来源需求、工单、会议、IM 和生产事件进入统一任务模型。
状态机负责人、阻塞、审核点、验收结果保持可追踪。
产出物分析、设计、代码、测试、Review 和移交材料形成接力。
执行者助手 Agent、生产力 Agent 和人按边界分工。
质检点测试、Review、审批、回归和关闭保留人类责任。
复盘入口失败、返工、接管和经验写回模板与 Skills。
流动物任务、Artifact、验收标准在节点间流转。
工位能力人、助手 Agent、生产力 Agent 各自承担清晰职责。
质检控制Review、测试、审批和回归保留责任边界。
工艺改进复盘结论进入模板、Skills 和规则。

任务驱动

重要工作进入可追踪状态机,不靠人肉提醒。

进入:半天以上、跨人协作。
退出:验收结果可追溯。
看得见来源、负责人、状态、阻塞、下游和关闭结果。

Artifact 接力

每一步有完整产出,支持审计、交接和复用。

进入:每个阶段都有产出。
退出:后续角色能复用。
需求、设计、验收、测试、Review、移交材料持续累积。

逐步 Agent 化

从低风险标准任务开始,把可重复工作交给 Agent,人负责判断和监督。

先候选Agent 生成可审阅产出。
再扩展风险边界稳定后扩大范围。
先候选产出,再人审合并;风险边界稳定后再扩展范围。