ai-robot-core/spec/intent-driven-script/data-decomposition-methodol...

214 lines
6.9 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 多知识库与数据拆解方法论(用于 Intent-Driven Script 系统)
## 1. 当前落地建议(先执行)
### 1.1 建议创建的知识库数量与定位
建议先建 **4 个核心知识库 + 1 个兜底库(可选)**
1. **KB_PRODUCTproduct课程产品库**
- 放什么:课程模块、年级适配、学科能力点、学习路径、阶段价值
- 不放什么:退款政策、隐私条款、运营口径说明
2. **KB_PARENT_COMMscript/general家长沟通素材库**
- 放什么:家长痛点表达、共情语料、自然过渡语、解释型话术素材
- 不放什么:硬规则、流程跳转条件
3. **KB_FAQfaq高频问答库**
- 放什么:价格、班型、课时、上课形式、效果周期等标准问答
- 不放什么:长篇教育理念、复杂诊断内容
4. **KB_POLICYpolicy合规与边界库**
- 放什么:承诺边界、敏感词、隐私说明、不可承诺清单
- 不放什么:销售话术素材
5. **KB_GENERALgeneral可选兜底知识库**
- 放什么:跨场景通识内容、无法明确归属但需保留的信息
- 不放什么:高频关键知识(应尽量归入前 4 库)
---
### 1.2 标签metadata统一规范
为保证多库检索稳定,所有文档建议统一至少包含以下 metadata
- `grade`: `7|8|9|all`
- `subject`: `chinese|math|english|physics|chemistry|all`
- `scene`: `pain_point|transition|module_intro|faq|policy|closing`
- `flow_step`: `step1|step2|step3|step4|step5|none`
- `intent_type`: `ask_grade|ask_weak_point|module_recommend|next_action|faq_answer|compliance`
- `audience`: `parent|student|all`
- `priority`: `1-10`
- `version`: 语义版本,如 `v1.0.0`
- `status`: `draft|active|deprecated`
- `source`: 数据来源(运营、教研、历史会话等)
建议附加字段:
- `keywords`: 关键词数组
- `effective_from` / `effective_to`: 生效周期
- `owner`: 责任人或团队
---
### 1.3 检索路由(必须配置)
采用“**意图命中 -> 指定库检索 -> metadata 过滤**”,避免全库盲检索。
示例:
- 课程咨询/薄弱点诊断 -> `KB_PRODUCT + KB_PARENT_COMM`,过滤 `grade + subject + flow_step`
- 价格/班型问答 -> `KB_FAQ`
- 效果承诺/隐私/敏感问题 -> `KB_POLICY`
- 无法命中 -> `KB_GENERAL` 兜底
---
## 2. 数据拆解方法论(给另一个 AI 上下文使用)
## 2.1 方法目标
把“原始业务文本/用户话术”稳定拆成以下四类输出:
1. 录入哪个知识库KB
2. 是否需要新增意图规则Intent Rule
3. 是否进入现有话术流程步骤Step1-5
4. 是否必须新建话术流程New Flow
---
## 2.2 四层判定框架L1-L4
### L1内容性质判定事实 vs 动作)
- 若是“事实、说明、经验、解释” -> 优先 KB
- 若是“出现这句话系统要动作” -> Intent Rule
### L2交互形态判定单轮 vs 多轮)
- 单轮问答可完成 -> FAQ/Fixed/RAG
- 需持续收集槽位并推进 -> Script Flow
### L3流程复用判定旧流程 vs 新流程)
满足以下任一项,建议新建 Flow
- 业务目标变化(诊断变成转化/挽回/投诉)
- 槽位集合变化(年级+薄弱点变成预算+时间)
- 语气/合规策略显著不同
### L4可执行性判定是否能被系统消费
必须结构化到可执行字段:
- 文档title/content/metadata
- 意图keywords/patterns/response_type/priority
- 流程步骤intent/constraints/fallback/expected_variables
---
## 2.3 标准拆解流程7 步)
1. **提取实体与槽位**
- 年级、学科、能力点、痛点、目标、约束
2. **识别触发表达**
- 用户会怎么说(口语化表达)
3. **判断归属层级**
- KB / Intent / Existing Flow / New Flow
4. **拆分原子片段**
- 每段只承载 1 个核心含义,便于检索
5. **生成 metadata**
- grade/subject/scene/flow_step/intent_type/priority
6. **生成可落库对象**
- API 对象KB 文档、Intent 规则、Flow Step 配置
7. **冲突检查**
- 重复意图、优先级冲突、跨库污染、口径冲突
---
## 2.4 输出模板(给另一个 AI 的固定格式)
让另一个 AI 严格按下列结构输出:
```markdown
## A. 归类结论
- 主归类KB / Intent / Existing Flow / New Flow
- 次归类:...
- 是否需要新建流程:是/否
## B. 理由
- 业务理由:...
- 技术理由:...
## C. 落库建议
### C1. Knowledge Base
- kb_type: ...
- title: ...
- content_chunks: [...]
- metadata: {...}
### C2. Intent Rules如需要
- name: ...
- keywords: [...]
- patterns: [...]
- response_type: fixed|rag|flow|transfer
- priority: ...
### C3. Script Flow如需要
- flow_id/name: ...
- step_no: ...
- script_mode: fixed|flexible|template
- intent: ...
- constraints: [...]
- fallback: ...
- expected_variables: [...]
## D. 风险与冲突
- potential_conflicts: [...]
- mitigation: [...]
```
---
## 2.5 质量门禁Quality Gate
每条拆解结果上线前需通过:
1. **可路由**:意图命中后有明确 response_type
2. **可检索**metadata 完整(至少 6 个核心字段)
3. **可执行**Flow 步骤有 fallback
4. **不冲突**:优先级与已有规则不打架
5. **可维护**owner、version、status 明确
---
## 2.6 你当前 5 步流程的映射建议
- Step1确认年级
- 主要依赖:`KB_PARENT_COMM`(礼貌提问素材)
- Step2年级特点+过渡)
- 主要依赖:`KB_PRODUCT + KB_PARENT_COMM`
- Step3确认薄弱点
- 主要依赖:`KB_PARENT_COMM`(示例化引导)
- Step4模块介绍+综合价值)
- 主要依赖:`KB_PRODUCT`
- Step5下一步建议
- 主要依赖:`KB_PARENT_COMM + KB_FAQ`
---
## 3. 给另一个 AI 的指令模板(可直接复制)
```text
你是“中台数据拆解器”。
目标:将输入内容拆成可录入的 Knowledge Base / Intent Rules / Script Flow 配置。
请按以下步骤执行:
1) 提取实体:年级、学科、能力点、痛点、目标、约束。
2) 判断主归类四选一KB / Intent / Existing Flow / New Flow。
3) 若归类为 KB输出kb_type、title、chunk 切分、metadata。
4) 若归类为 Intent输出keywords、patterns、response_type、priority。
5) 若归类为 Existing Flow输出对应 step_no、script_mode、intent、constraints、fallback。
6) 若需要 New Flow说明触发条件、目标、槽位、成功标准。
7) 输出风险与冲突检查。
输出必须使用固定结构A归类结论、B理由、C落库建议、D风险与冲突。
禁止输出泛泛建议,必须给出可直接调用 API 的字段。
```
---
## 4. 迭代策略
- 第 1 周:先按 4 库上线,跑真实会话
- 第 2 周统计命中率、误召回率、fallback 率
- 第 3 周:仅在“高干扰场景”再拆细分库(如按学科拆)
- 每周:清理 `deprecated` 文档,升级 `version`
> 原则:先用 metadata 和路由提升质量,再考虑扩大知识库数量。