ai-robot-core/spec/intent-driven-script/data-decomposition-methodol...

214 lines
6.9 KiB
Markdown
Raw Normal View History

# 多知识库与数据拆解方法论(用于 Intent-Driven Script 系统)
## 1. 当前落地建议(先执行)
### 1.1 建议创建的知识库数量与定位
建议先建 **4 个核心知识库 + 1 个兜底库(可选)**
1. **KB_PRODUCTproduct课程产品库**
- 放什么:课程模块、年级适配、学科能力点、学习路径、阶段价值
- 不放什么:退款政策、隐私条款、运营口径说明
2. **KB_PARENT_COMMscript/general家长沟通素材库**
- 放什么:家长痛点表达、共情语料、自然过渡语、解释型话术素材
- 不放什么:硬规则、流程跳转条件
3. **KB_FAQfaq高频问答库**
- 放什么:价格、班型、课时、上课形式、效果周期等标准问答
- 不放什么:长篇教育理念、复杂诊断内容
4. **KB_POLICYpolicy合规与边界库**
- 放什么:承诺边界、敏感词、隐私说明、不可承诺清单
- 不放什么:销售话术素材
5. **KB_GENERALgeneral可选兜底知识库**
- 放什么:跨场景通识内容、无法明确归属但需保留的信息
- 不放什么:高频关键知识(应尽量归入前 4 库)
---
### 1.2 标签metadata统一规范
为保证多库检索稳定,所有文档建议统一至少包含以下 metadata
- `grade`: `7|8|9|all`
- `subject`: `chinese|math|english|physics|chemistry|all`
- `scene`: `pain_point|transition|module_intro|faq|policy|closing`
- `flow_step`: `step1|step2|step3|step4|step5|none`
- `intent_type`: `ask_grade|ask_weak_point|module_recommend|next_action|faq_answer|compliance`
- `audience`: `parent|student|all`
- `priority`: `1-10`
- `version`: 语义版本,如 `v1.0.0`
- `status`: `draft|active|deprecated`
- `source`: 数据来源(运营、教研、历史会话等)
建议附加字段:
- `keywords`: 关键词数组
- `effective_from` / `effective_to`: 生效周期
- `owner`: 责任人或团队
---
### 1.3 检索路由(必须配置)
采用“**意图命中 -> 指定库检索 -> metadata 过滤**”,避免全库盲检索。
示例:
- 课程咨询/薄弱点诊断 -> `KB_PRODUCT + KB_PARENT_COMM`,过滤 `grade + subject + flow_step`
- 价格/班型问答 -> `KB_FAQ`
- 效果承诺/隐私/敏感问题 -> `KB_POLICY`
- 无法命中 -> `KB_GENERAL` 兜底
---
## 2. 数据拆解方法论(给另一个 AI 上下文使用)
## 2.1 方法目标
把“原始业务文本/用户话术”稳定拆成以下四类输出:
1. 录入哪个知识库KB
2. 是否需要新增意图规则Intent Rule
3. 是否进入现有话术流程步骤Step1-5
4. 是否必须新建话术流程New Flow
---
## 2.2 四层判定框架L1-L4
### L1内容性质判定事实 vs 动作)
- 若是“事实、说明、经验、解释” -> 优先 KB
- 若是“出现这句话系统要动作” -> Intent Rule
### L2交互形态判定单轮 vs 多轮)
- 单轮问答可完成 -> FAQ/Fixed/RAG
- 需持续收集槽位并推进 -> Script Flow
### L3流程复用判定旧流程 vs 新流程)
满足以下任一项,建议新建 Flow
- 业务目标变化(诊断变成转化/挽回/投诉)
- 槽位集合变化(年级+薄弱点变成预算+时间)
- 语气/合规策略显著不同
### L4可执行性判定是否能被系统消费
必须结构化到可执行字段:
- 文档title/content/metadata
- 意图keywords/patterns/response_type/priority
- 流程步骤intent/constraints/fallback/expected_variables
---
## 2.3 标准拆解流程7 步)
1. **提取实体与槽位**
- 年级、学科、能力点、痛点、目标、约束
2. **识别触发表达**
- 用户会怎么说(口语化表达)
3. **判断归属层级**
- KB / Intent / Existing Flow / New Flow
4. **拆分原子片段**
- 每段只承载 1 个核心含义,便于检索
5. **生成 metadata**
- grade/subject/scene/flow_step/intent_type/priority
6. **生成可落库对象**
- API 对象KB 文档、Intent 规则、Flow Step 配置
7. **冲突检查**
- 重复意图、优先级冲突、跨库污染、口径冲突
---
## 2.4 输出模板(给另一个 AI 的固定格式)
让另一个 AI 严格按下列结构输出:
```markdown
## A. 归类结论
- 主归类KB / Intent / Existing Flow / New Flow
- 次归类:...
- 是否需要新建流程:是/否
## B. 理由
- 业务理由:...
- 技术理由:...
## C. 落库建议
### C1. Knowledge Base
- kb_type: ...
- title: ...
- content_chunks: [...]
- metadata: {...}
### C2. Intent Rules如需要
- name: ...
- keywords: [...]
- patterns: [...]
- response_type: fixed|rag|flow|transfer
- priority: ...
### C3. Script Flow如需要
- flow_id/name: ...
- step_no: ...
- script_mode: fixed|flexible|template
- intent: ...
- constraints: [...]
- fallback: ...
- expected_variables: [...]
## D. 风险与冲突
- potential_conflicts: [...]
- mitigation: [...]
```
---
## 2.5 质量门禁Quality Gate
每条拆解结果上线前需通过:
1. **可路由**:意图命中后有明确 response_type
2. **可检索**metadata 完整(至少 6 个核心字段)
3. **可执行**Flow 步骤有 fallback
4. **不冲突**:优先级与已有规则不打架
5. **可维护**owner、version、status 明确
---
## 2.6 你当前 5 步流程的映射建议
- Step1确认年级
- 主要依赖:`KB_PARENT_COMM`(礼貌提问素材)
- Step2年级特点+过渡)
- 主要依赖:`KB_PRODUCT + KB_PARENT_COMM`
- Step3确认薄弱点
- 主要依赖:`KB_PARENT_COMM`(示例化引导)
- Step4模块介绍+综合价值)
- 主要依赖:`KB_PRODUCT`
- Step5下一步建议
- 主要依赖:`KB_PARENT_COMM + KB_FAQ`
---
## 3. 给另一个 AI 的指令模板(可直接复制)
```text
你是“中台数据拆解器”。
目标:将输入内容拆成可录入的 Knowledge Base / Intent Rules / Script Flow 配置。
请按以下步骤执行:
1) 提取实体:年级、学科、能力点、痛点、目标、约束。
2) 判断主归类四选一KB / Intent / Existing Flow / New Flow。
3) 若归类为 KB输出kb_type、title、chunk 切分、metadata。
4) 若归类为 Intent输出keywords、patterns、response_type、priority。
5) 若归类为 Existing Flow输出对应 step_no、script_mode、intent、constraints、fallback。
6) 若需要 New Flow说明触发条件、目标、槽位、成功标准。
7) 输出风险与冲突检查。
输出必须使用固定结构A归类结论、B理由、C落库建议、D风险与冲突。
禁止输出泛泛建议,必须给出可直接调用 API 的字段。
```
---
## 4. 迭代策略
- 第 1 周:先按 4 库上线,跑真实会话
- 第 2 周统计命中率、误召回率、fallback 率
- 第 3 周:仅在“高干扰场景”再拆细分库(如按学科拆)
- 每周:清理 `deprecated` 文档,升级 `version`
> 原则:先用 metadata 和路由提升质量,再考虑扩大知识库数量。