一、Off-ramp 机制本身（控制策略层）

1️⃣ 2000 token 的拐点是怎么验证出来的？

你可以问：

你们是否做过不同注入长度（比如 500 / 1000 / 2000 / 4000）的

precision / recall 的对比曲线？

看点：

这是“经验阈值”
还是“实验拐点”

这是判断他是否具备系统调参能力的关键。

2️⃣ 阈值是固定 2000，还是可配置、可动态调整？

你可以问：

不同模型、不同场景（比如不同 entity 类型），阈值是否一样？

看点：

是否已经意识到模型差异、任务差异
有没有做成配置/策略，而不是常量

3️⃣ 你们是否只在 tool → code 这一处做 off-ramp？

你可以问：

是否存在 code track 中再次回退或分流的情况？

还是整个 pipeline 只允许一次切换？

看点：

他对整个执行状态机是否有完整模型
还是只做了一次硬切

二、UUID 丢失与引用稳定性（你抓到的核心薄弱点）

4️⃣ UUID 丢失发生时，系统现在是如何处理的？

你可以直接问：

UUID 字段缺失或数量不匹配时，是：

自动重试？
自动改走 code track？
还是直接失败？

看点：

是否存在自动校验与恢复机制
还是靠 off-ramp 兜底

5️⃣ 你们是否统计过“错误类型分布”？

你可以问：

在超过 2000 token 后，错误主要是：

UUID 丢失？
字段错位？
顺序错？
还是引用到不存在实体？

看点：

是否做过 error taxonomy
是否有针对不同错误的不同治理手段

6️⃣ 为什么不使用会话级 handle / reference 映射？

这是一个非常锋利的问题：

如果 UUID 是本体唯一身份，

是否考虑过在对话中只暴露短 handle，由系统映射回 UUID？

看点（极重要）：

他是否意识到：
问题不只是“多了就切”，而是“LLM 不该承担精确 ID 传输职责”。

这是判断接口设计成熟度的关键问题。

三、评估设计（文章中最容易“看起来很好”的部分）

7️⃣ 你们的 precision / recall 是在什么输出形式下计算的？

你可以问：

是完整异常集合，还是 top-K？

如果是 top-K，K 是多少？

看点：

是否清楚指标和系统行为之间的关系
是否具备可复现实验设计意识

8️⃣ 这 100 个异常 valve 是如何注入的？

你可以问：

是规则/物理模型注入，还是模型生成异常模式？

看点：

是否存在分布泄漏（AI 找 AI 生成的异常）
是否能代表真实工业异常

四、成本模型是否真正落地（对照他文章里的 cost layer）

9️⃣ 你们在实际系统中，三类 cost 的权重如何设？

你可以问：

latency / token / failure

在生产中哪一个权重最高？

看点：

他是否真的把文章中的 λ 当作工程决策变量
还是停留在理论模型

五、系统可演进性（Staff / 架构分水岭问题）

🔟 如果未来要支持 100k / 1M entity，这套机制的瓶颈在哪里？

你可以问：

最大瓶颈是：

sandbox 执行？
I/O？
数据切分？
还是 LLM 规划层？

看点：

是否能清楚指出下一阶段瓶颈
是否具备平台级视角

给你一个非常实用的总结版

你可以把所有问题浓缩成三大类：

✅ 第一类（系统是否成熟）

off-ramp 是否是可调、可验证、可演进的控制策略？

✅ 第二类（你现在最敏感、也最重要）

是否意识到“UUID 丢失”是接口设计问题，而不是 token 问题？

✅ 第三类（文章里最容易被水掉的地方）

评估是否真的严谨、可复现、无分布泄漏？

如果你只挑 3 个问，我建议你问这三个：

① 2000 的拐点曲线怎么来的？

② 为什么不用会话级 handle，而让 LLM 直接传 UUID？

③ UUID 丢失时系统如何自动修复？

这三问，基本就能判断：

👉 他是一个会把系统长期打磨下去的工程负责人，

还是一个已经很不错，但主要停在架构原型阶段的工程师。

关于混合架构

一、Off-ramp 机制本身（控制策略层）

1️⃣ 2000 token 的拐点是怎么验证出来的？

2️⃣ 阈值是固定 2000，还是可配置、可动态调整？

3️⃣ 你们是否只在 tool → code 这一处做 off-ramp？

二、UUID 丢失与引用稳定性（你抓到的核心薄弱点）

4️⃣ UUID 丢失发生时，系统现在是如何处理的？

5️⃣ 你们是否统计过“错误类型分布”？

6️⃣ 为什么不使用会话级 handle / reference 映射？

三、评估设计（文章中最容易“看起来很好”的部分）

7️⃣ 你们的 precision / recall 是在什么输出形式下计算的？

8️⃣ 这 100 个异常 valve 是如何注入的？

四、成本模型是否真正落地（对照他文章里的 cost layer）

9️⃣ 你们在实际系统中，三类 cost 的权重如何设？

五、系统可演进性（Staff / 架构分水岭问题）

🔟 如果未来要支持 100k / 1M entity，这套机制的瓶颈在哪里？

给你一个非常实用的总结版

✅ 第一类（系统是否成熟）

✅ 第二类（你现在最敏感、也最重要）

✅ 第三类（文章里最容易被水掉的地方）

Related Reading

一、Off-ramp 机制本身（控制策略层）

1️⃣ 2000 token 的拐点是怎么验证出来的？

2️⃣ 阈值是固定 2000，还是可配置、可动态调整？

3️⃣ 你们是否只在 tool → code 这一处做 off-ramp？

二、UUID 丢失与引用稳定性（你抓到的核心薄弱点）

4️⃣ UUID 丢失发生时，系统现在是如何处理的？

5️⃣ 你们是否统计过“错误类型分布”？

6️⃣ 为什么不使用会话级 handle / reference 映射？

三、评估设计（文章中最容易“看起来很好”的部分）

7️⃣ 你们的 precision / recall 是在什么输出形式下计算的？

8️⃣ 这 100 个异常 valve 是如何注入的？

四、成本模型是否真正落地（对照他文章里的 cost layer）

9️⃣ 你们在实际系统中，三类 cost 的权重如何设？

五、系统可演进性（Staff / 架构分水岭问题）

🔟 如果未来要支持 100k / 1M entity，这套机制的瓶颈在哪里？

给你一个非常实用的总结版

✅ 第一类（系统是否成熟）

✅ 第二类（你现在最敏感、也最重要）

✅ 第三类（文章里最容易被水掉的地方）

Related Reading

Tool 用来控制，Code 用来分析(3)

一次 MCP-as-Code 的重构尝试，以及它为什么没有按预想工作( 1 )

为什么 Tool 和 Code 在 Agent 系统里会以不同方式失败（2）