金科研发
Agentic
人机协作方案
以任务驱动打通研发全生命周期闭环与团队工作闭环。
目标不是多装一个 AI 工具,而是把研发工作改造成 Agent 可理解、可执行、可反馈、可复用的闭环系统。

AI Native 研发的关键不是工具,而是闭环
旧流程:信息散落,靠人记忆推进
- 会议纪要、IM 口头任务、Jira、代码、测试反馈分散在不同系统。
- 需求理解、移交材料、Review 等待、Bug 反馈常常没有统一状态。
- Agent 只能在单次对话中帮忙,无法稳定继承上下文和反馈。
新流程:任务、Artifact、状态、反馈进入闭环
- 任务成为协作和审计的最小单位。
- 每个阶段都有标准产出物,能被人审阅,也能被 Agent 读取。
- 团队日常状态进入沉淀,支持复盘、度量和 Skills 迭代。
AI Native
AI 不应只停留在单点 productivity tool;研发关键动作要变成可查询、可反馈、可改进的闭环。
锚点:YC / Diana Hu 相关演讲整理。
Agentic DevOps
Agent 参与软件生命周期,但人在关键控制点负责审批、判断和治理。
锚点:Microsoft Azure Blog, 2025-05-19。
生产力幻觉
METR 2025 真实开源任务实验中,开发者主观认为更快,但实际耗时增加 19%。
结论:工具需要任务边界、验收和反馈。
设计结论
工具提效必须进入系统设计:任务流转、Artifact 接力、Review 验收、指标度量一起工作。
含 AI 量只能做诊断,不应作为直接 KPI。
任务驱动的来源:从个人端到端到流水线节点协作
农业式端到端
一个人从理解需求、准备材料、完成加工到交付结果,责任连续,但并发能力弱,过程状态主要存在于个人经验里。
工业流水线
产品或物料在流水线上流动,人在节点上接收任务、完成局部工序,再把结果交给下游。效率来自并发、标准化和节点衔接。
Agentic 研发流水线
流动物从物料变成任务和 Artifact。人、助手 Agent、生产力 Agent 在不同节点处理任务,平台负责状态、衔接、审计和反馈。
任务驱动为什么成立:它继承了流水线的四个效率机制
个人端到端
一个人完整持有任务,沟通成本低,但并发弱,状态主要在个人脑中。
工业流水线
物料按节点流转,每个节点只做清晰工序,效率来自并发、标准化和质检。
Agentic 研发流水线
流动物变成任务和 Artifact。Multica 负责状态机,Agent 和人按节点消费任务。
并发处理
任务先进入统一队列,多个任务可以同时推进。
单项提效
人和 Agent 都只处理当前节点最适合自己的动作。
深度加速
把研发最佳实践放到 Skills、模板和验收标准里。
协作闭环
任务定义谁接、接什么、怎么交付、谁验收。
为什么需要平台方案:把任务、角色和过程接起来
角色分工
先说清楚哪些工作由机器做,哪些工作由人做。Agent 负责标准化分析、执行、整理和提醒;人负责目标、边界、验收、风险和最终决策。
- 机器:检索、草拟、执行、检测、汇总。
- 人:取舍、授权、审批、责任承担。
- 平台:记录边界,避免职责漂移。
任务闭环
任务从创建、分派、执行、审核、移交、验收到关闭,都要有状态和产出物。平台负责把这些动作串起来,而不是依赖人肉提醒。
- 创建:来源、目标、负责人、验收标准。
- 执行:Artifact、测试、Review、阻塞。
- 关闭:验收、复盘、知识沉淀。
过程可视化
让关键任务从创建到关闭的状态、产出、阻塞和风险可观察:哪里等待、哪里返工、哪里需要人判断,都能被看见。
- 进度:从开始、等待、执行到验收关闭。
- 质量:返工、缺陷回流、回归结果。
- 风险:权限、生产变更、合规控制点。
方案定义:用 Multica 任务协作平台承载两个闭环
Multica · 任务协作系统
不是替代 Jira/GLA,而是在现有系统上增加统一 Issue、状态机、Artifact 链接和 Agent 接入层。
闭环一 · 研发全生命周期
从需求、设计、开发、测试、Review、部署、验收到 Bug 回流,每一步都有任务、产出和审核点。
闭环二 · 研发团队工作
团队日常的分派、阻塞、日报、周报、复盘不再只靠口头同步,而是从任务状态自动汇总。
右侧消费端 · 人 + Agent
Hermes 负责轻量驻守,Claude Code 和 Codex 负责深度任务,测试/Review Agent 负责专项自动化。

三层架构:现有系统保留,Multica 负责任务协作闭环
任务消费端
开发者、测试、运维、Leader,以及 Hermes、Claude Code、Codex、Test Agent。
右侧消费端从 Multica 拉取任务,执行后回写状态、Artifact 和风险说明。
Multica · 任务协作平台
统一 Issue 看板、Squad 团队、Skills 库、Agent 接入层、状态机和 Artifact 链接。
这是两个闭环的核心:它不替代事实源,但负责调度、衔接、审计和反馈。
任务生产端与事实源
Jira/FTD、GLA 工单、IM、会议转录、Git、CI/CD、部署系统。
左侧系统继续保存原始事实,Multica 只做协作层和闭环层,不强行重构现有流程。
双 Agent 架构:一个做重活,一个降低协作摩擦
生产力 Agent
用于深度、沉浸式且复杂的任务,在生产力工具里按最佳实践把复杂工作做完整。
- 处理分析、设计、编码、测试、Review、Bug 修复等复杂链路。
- 需要代码库、任务 Artifact、验收标准和较长执行时间。
- 产出进入任务系统,人负责关键判断、Review 和合并。
助手 Agent
OpenClaw、Hermes Agent 这类助手,适合在 IM 中用对话完成轻量级任务和单一动作。
- 处理邮件回复、工单审批、状态查询、任务创建和提醒。
- 在聊天界面里完成最快路径,不要求用户进入复杂工具。
- 硬规则:助手 Agent 不承担深度交付;它把轻量动作沉淀成任务事件,再交给平台或生产力 Agent。
左中右协作架构:任务生产端 → Multica → 任务消费端
FTD / Jira
Request、Story、Task 自动同步为 Multica Issue。
GLA 工单
生产事件、客户支持转为责任任务,保留时限和来源。
IM / Hermes
一句话创建候选任务,轻量分派、提醒、状态查询。
会议转录
提取行动项,人确认后进入任务队列。
中 · Multica 任务协作平台
统一 Issue 看板、Squad 团队、Skills 库、Agent 接入层。它负责调度任务,不替代 Jira、Git、CI/CD 这些事实源。
开发者 + Claude Code / Codex
拉取开发任务,生成分析、设计、代码、测试和 MR 说明。
测试工程师 + Test Agent
接收测试任务,生成用例、执行单测/回归并回写结果。
运维工程师 + Agent
处理部署、回滚、生产事件和运行状态更新。
Leader / Reviewer
监督风险、确认优先级、做最终 Review 与验收判断。
Jira/GLA webhook 自动汇入;IM 与会议候选任务先由人确认。
消费端拉取任务,按任务类型启动 Hermes、Claude Code、Codex 或专项 Agent。
PR、测试报告、部署结果和人工验收回写 Issue,形成 Closed-Loop 反馈。
研发全生命周期闭环:每一步都有输入、产出和审核点
同步任务、生成 Artifact、跑测试、汇总状态、回写证据。
目标确认、风险判断、Review、合并、验收和生产授权。
每个任务都能看到来源、当前状态、产出物、阻塞和关闭原因。
失败样本和成功模板进入 Skills、验收规则和下一轮任务。
开发 Loop:Agent 起草和执行,人确认关键判断
Multica 任务包
开发 Loop 从一个可执行任务包开始,而不是从一句聊天指令开始。
深度任务:Claude Code / Codex
复杂任务进入生产力工具执行,Agent 负责候选产出,人保留关键判断。
人类节点
人的价值集中在目标、边界、风险和最终责任,不消耗在状态搬运上。
Bug 修复先分级:标准 Bug 由 Agent 生成候选修复,人审核合并
入口:先补齐证据
Bug 进入 Multica 后,先整理事实,再决定是否进入候选修复。
Type A:标准 Bug
可复现、单模块、低风险、测试可运行,适合 Claude Code / Codex 生成候选修复。
Type B:复杂 Bug
涉及多模块、资金/风控/合规、生产影响、数据一致性或复现不清时,人主导。
团队工作闭环:把日常状态变成组织记忆
09:30
助手 Agent 拉取个人任务、团队负载、阻塞、新分配任务。
产出:个人晨报 / Leader 晨报
白天
监听任务状态、PR、阻塞、超时、事件,必要时提醒。
产出:状态更新 / 风险提示
18:00
汇总完成项、进行中、阻塞、明日计划,生成日报草稿。
产出:可编辑日报
每周
汇总任务类型、Agent 化比例、风险、收益和反复卡点。
产出:团队复盘
迭代
复盘结论进入任务模板、Skills、验收规则和分类标准,影响下一批任务。
产出:流程改进
团队闭环不是增加日报负担,而是把状态、阻塞和改进项从零散沟通中取出来,回到任务系统和知识沉淀。
从聊天历史转向 Artifact 接力
为什么不用聊天历史承载上下文
- 聊天记录散,难以作为长期项目证据。
- 上下文窗口有限,无法无限继承。
- 失败重试时很难只重跑一个步骤。
- 合规、审计、交接都需要结构化产出。
标准 Artifact 链
落地范围:用哪些工具,把哪些环节做到什么程度
平台与工具组合
Multica 承载任务协作闭环;现有系统继续作为事实源;Agent 在消费端执行任务。
先做到的自动化程度
第一阶段先做任务链条串联和标准化任务,不追求高风险场景无人化。
暂不自动化的边界
边界写进任务模板和状态机,避免把风险隐藏在“自动化”口号里。
试点范围与验收
先在小团队跑通真实闭环,用证据决定是否扩展。
Agent 能力越强,边界和治理越要前置
独立性
生成 Agent 与 Review Agent 分离,避免同一上下文自评自夸。
分级
Bug 和任务强制分级,只有低风险标准任务进入隔离工作区的自动候选产出路径。
审批
生产变更、核心业务判断、高风险合规事项保留人类审批。
权限
Agent 身份、权限边界、最小授权和系统访问审计要可追溯。
指标
不把 AI 使用量作为直接 KPI,避免指标被 gaming。
团队体验
通知可关闭、日报可编辑、数据用途透明,避免被监控感。
试点路径:先证明最短闭环,再扩大任务类型
阶段 1
跑通最短链路:任务 -> Agent -> Artifact -> 人审核。
退出标准:第一份可审阅产出物。
阶段 2
跑通开发 Loop:分析、设计、编码、测试、Review。
退出标准:一个真实需求完成闭环。
阶段 3
跑通 Bug Loop:Type A 标准 Bug 候选修复。
退出标准:人审核合并并回归通过。
阶段 4
跑通团队工作闭环:晨报、日报、阻塞、周复盘。
退出标准:团队状态可见。
阶段 5
扩展与决策:任务平台、Jira 加层或自研路径。
退出标准:形成长期路线。
试点路线按证据推进:先跑通真实闭环,再决定扩展任务类型、系统集成和长期平台路线。
试点成功不看概念完整,而看闭环是否真实跑通
一条真实需求
从任务创建到 MR 合并,再到测试移交和验收关闭。
一类标准 Bug
完成分类、修复、测试、自查、MR、人审、回归。
一条团队日循环
晨报准备、白天状态更新、晚间日报和阻塞整理。
一套 Artifact 链
需求、设计、验收、测试、Review、移交材料可追溯。
需要在试点后做的三个长期决策
任务平台路径
继续使用独立任务平台、在 Jira 上加 Agent 协作层,还是长期自研。
判断依据:合规、安全、集成成本、用户使用摩擦。
Agent 运行路径
本地开发者 Agent、中心化助手 Agent、CI/CD 内 Agent、运维 Agent 如何分层。
判断依据:权限边界、上下文需求、响应时延、审计要求。
组织推广路径
哪些任务类型先扩展,哪些业务团队可复制,哪些场景必须保持人主导。
判断依据:任务标准化程度、风险等级、收益稳定性。
试点阶段不急着建设大而全平台。先拿到真实闭环、真实产出、真实风险,再决定长期路线。
最终落点:把研发团队升级为 AI Native 的闭环系统
我们不是要证明 Agent 可以替代研发团队,而是要让团队中的每一项重要工作都有状态、每一个产出都能复用、每一次反馈都能沉淀。
任务驱动
重要工作进入可追踪状态机,不靠人肉提醒。
Artifact 接力
每一步有完整产出,支持审计、交接和复用。
逐步 Agent 化
从低风险标准任务开始,把可重复工作交给 Agent,人负责判断和监督。