# 迭代路线图

## Phase 0：需求澄清与合规确认

目标：明确系统边界，避免一开始就做成难以维护或高风险的爬虫。

任务：

- 明确业务目标：商机发现、舆情监测、竞品分析、选品分析或内容选题。
- 明确首批关键词、排除词、目标平台和目标语言。
- 确认每个平台的数据来源和授权方式。
- 明确数据保留周期、访问权限和导出限制。
- 定义有效线索标准，例如“可联系”“有购买意图”“价格异常”“负面反馈”。

交付物：

- 监控规则样例。
- 平台接入可行性表。
- 数据字段清单。
- MVP 范围说明。

## Phase 1：MVP 闭环

目标：用一个合规数据源跑通“采集 → 入库 → 搜索 → 通知”。

建议范围：

- 选择 Reddit 或 X 作为首个数据源。
- 支持关键词或社区/账号维度监控。
- 建立标准化 Item 数据表。
- 实现基础去重。
- 实现任务日志。
- 实现每日摘要通知。

验收标准：

- 至少 10 条监控规则可以稳定运行。
- 每条内容可追溯到来源平台和原始链接。
- 重复内容不会反复通知。
- 失败任务有错误日志和重试机制。

## Phase 2：多平台扩展

目标：扩展更多平台和数据类型，但保持统一数据模型。

任务：

- 抽象 Connector SDK。
- 增加平台级限速和健康检查。
- 增加闲鱼商品字段扩展模型。
- 增加小红书笔记/评论字段扩展模型。
- 引入人工上传或授权导入流程，覆盖暂时没有稳定官方 API 的平台。

验收标准：

- 新增平台不需要修改核心分析与通知逻辑。
- 每个平台都有独立的错误统计和启停开关。
- 平台规则变更时可以快速禁用对应 Connector。

## Phase 3：智能分析

目标：从“收集内容”升级为“发现机会”。

任务：

- 语义聚类：把相似讨论聚合成主题。
- 情绪识别：识别正面、负面、中性和强烈情绪。
- 意图识别：识别求购、求推荐、吐槽、转让、比较、避雷等意图。
- 摘要生成：为高价值内容生成中文摘要。
- 机会评分：结合内容、作者、互动、时效和意图计算优先级。

验收标准：

- 人工审核的高分线索有效率持续提升。
- 报告可以解释“为什么这条内容值得关注”。
- 支持按主题、情绪、意图和平台筛选。

## Phase 4：运营工作台

目标：让系统可以被团队长期使用。

任务：

- 规则管理 UI。
- 线索处理流程：待处理、已跟进、无效、已转化。
- 团队权限管理。
- 数据导出和第三方工具同步。
- 趋势仪表盘。
- 周报/月报自动生成。

验收标准：

- 非技术用户可以创建和调整监控规则。
- 每条线索都有处理状态和负责人。
- 团队可以看到规则效果和线索转化情况。

## Phase 5：规模化与稳定性

目标：提升系统稳定性、可观测性和成本控制。

任务：

- 引入任务队列和工作器横向扩展。
- 增加采集预算和限流策略。
- 增加 Prometheus/Grafana 监控。
- 增加死信队列和自动恢复机制。
- 优化数据库索引、归档和冷热分层。

验收标准：

- 系统可以承受更多规则和更高频率任务。
- 异常任务不会阻塞其他平台。
- 成本、请求量和数据量可以被清楚追踪。
