一、Off-ramp 机制本身(控制策略层)
1️⃣ 2000 token 的拐点是怎么验证出来的?
你可以问:
你们是否做过不同注入长度(比如 500 / 1000 / 2000 / 4000)的
precision / recall 的对比曲线?
看点:
- 这是“经验阈值”
- 还是“实验拐点”
这是判断他是否具备系统调参能力的关键。
2️⃣ 阈值是固定 2000,还是可配置、可动态调整?
你可以问:
不同模型、不同场景(比如不同 entity 类型),阈值是否一样?
看点:
- 是否已经意识到模型差异、任务差异
- 有没有做成配置/策略,而不是常量
3️⃣ 你们是否只在 tool → code 这一处做 off-ramp?
你可以问:
是否存在 code track 中再次回退或分流的情况?
还是整个 pipeline 只允许一次切换?
看点:
- 他对整个执行状态机是否有完整模型
- 还是只做了一次硬切
二、UUID 丢失与引用稳定性(你抓到的核心薄弱点)
4️⃣ UUID 丢失发生时,系统现在是如何处理的?
你可以直接问:
UUID 字段缺失或数量不匹配时,是:
- 自动重试?
- 自动改走 code track?
- 还是直接失败?
看点:
- 是否存在自动校验与恢复机制
- 还是靠 off-ramp 兜底
5️⃣ 你们是否统计过“错误类型分布”?
你可以问:
在超过 2000 token 后,错误主要是:
- UUID 丢失?
- 字段错位?
- 顺序错?
- 还是引用到不存在实体?
看点:
- 是否做过 error taxonomy
- 是否有针对不同错误的不同治理手段
6️⃣ 为什么不使用会话级 handle / reference 映射?
这是一个非常锋利的问题:
如果 UUID 是本体唯一身份,
是否考虑过在对话中只暴露短 handle,由系统映射回 UUID?
看点(极重要):
他是否意识到:
问题不只是“多了就切”,而是“LLM 不该承担精确 ID 传输职责”。
这是判断接口设计成熟度的关键问题。
三、评估设计(文章中最容易“看起来很好”的部分)
7️⃣ 你们的 precision / recall 是在什么输出形式下计算的?
你可以问:
是完整异常集合,还是 top-K?
如果是 top-K,K 是多少?
看点:
- 是否清楚指标和系统行为之间的关系
- 是否具备可复现实验设计意识
8️⃣ 这 100 个异常 valve 是如何注入的?
你可以问:
是规则/物理模型注入,还是模型生成异常模式?
看点:
- 是否存在分布泄漏(AI 找 AI 生成的异常)
- 是否能代表真实工业异常
四、成本模型是否真正落地(对照他文章里的 cost layer)
9️⃣ 你们在实际系统中,三类 cost 的权重如何设?
你可以问:
latency / token / failure
在生产中哪一个权重最高?
看点:
- 他是否真的把文章中的 λ 当作工程决策变量
- 还是停留在理论模型
五、系统可演进性(Staff / 架构分水岭问题)
🔟 如果未来要支持 100k / 1M entity,这套机制的瓶颈在哪里?
你可以问:
最大瓶颈是:
- sandbox 执行?
- I/O?
- 数据切分?
- 还是 LLM 规划层?
看点:
- 是否能清楚指出下一阶段瓶颈
- 是否具备平台级视角
给你一个非常实用的总结版
你可以把所有问题浓缩成三大类:
✅ 第一类(系统是否成熟)
off-ramp 是否是可调、可验证、可演进的控制策略?
✅ 第二类(你现在最敏感、也最重要)
是否意识到“UUID 丢失”是接口设计问题,而不是 token 问题?
✅ 第三类(文章里最容易被水掉的地方)
评估是否真的严谨、可复现、无分布泄漏?
如果你只挑 3 个问,我建议你问这三个:
① 2000 的拐点曲线怎么来的?
② 为什么不用会话级 handle,而让 LLM 直接传 UUID?
③ UUID 丢失时系统如何自动修复?
这三问,基本就能判断:
👉 他是一个会把系统长期打磨下去的工程负责人,
还是一个已经很不错,但主要停在架构原型阶段的工程师。