Fineuralab
Darwin Skill 优化指南
用 Darwin 式循环评估、改进、测试、保留或回滚 AI Skills。
长尾指南
适合谁阅读
适合想用证据改进 Skill 的维护者、agent 用户和开发者。
Skill 的改进应该靠证据,而不是感觉。Darwin 式优化把 Skill 当作持续进化的产物:运行任务、观察失败、修改、再次测试,只保留确实让结果变好的改动。
适合的场景
常见任务
- 改进已有 SKILL.md。
- 用同一组任务比较两个 Skill 版本。
- 为工作流 Skill 创建回归集。
- 判断什么时候应该回滚修改。
推荐流程
- 写 3 到 5 个代表性测试任务。
- 运行当前 Skill 并记录失败。
- 做一次聚焦修改。
- 用同一组任务再次运行,对比结果后再保留。
不适合这样使用
- 没有测试集时不要一次改很多东西。
- 不要因为改动看起来更聪明就保留。
- 不要用脱离真实使用的例子优化 Skill。
相关 Fineuralab 页面
常见问题
应该测试什么?
用能代表真实工作流的任务,包括边界情况和过去失败过的例子。
什么时候应该回滚?
如果一个改动只改善单个例子,却伤害整体任务集或让行为更不可预测,就应该回滚。