# 合规与风险清单

## 1. 总原则

本项目必须以合规、透明、可审计为前提。任何平台接入都应先确认数据访问方式、平台条款、授权范围、频率限制、数据保留要求和用户隐私边界。

禁止把项目设计成绕过平台保护措施的工具，包括但不限于：

- 绕过验证码、登录风控、设备指纹或访问频率限制。
- 访问非公开内容、付费墙内容、私信、私密群组或受限账号内容。
- 批量采集、存储或出售个人敏感信息。
- 使用被盗账号、共享账号或未经授权的令牌。
- 违反平台 robots、API 条款或开发者协议。

## 2. 平台接入建议

### 2.1 X

- 优先使用官方 API、开发者账号或授权数据服务。
- 遵守接口限速、内容再分发、删除同步和数据保留要求。
- 对高频关键词监控设置请求预算，避免无意义轮询。

### 2.2 Reddit

- 优先使用官方 API。
- 遵守 subreddit 规则、API 限速和用户内容处理要求。
- 对评论和用户信息进行最小化存储，只保留业务必要字段。

### 2.3 闲鱼

- 如无官方授权接口，建议优先采用人工导入、商家后台授权数据、平台允许的公开分享链接或合作数据源。
- 不建议绕过 App 风控、登录校验、验证码、接口签名或反自动化机制。
- 商品价格、卖家信息和地理位置等字段应按最小化原则存储。

### 2.4 小红书

- 如无官方授权接口，建议优先采用品牌自有账号数据、合作授权数据、人工整理数据或平台允许的公开分享内容。
- 不建议绕过登录、验证码、反爬策略、内容水印、隐私限制或访问频率控制。
- 对用户昵称、头像、主页链接、评论等信息进行最小化处理。

## 3. 数据最小化

建议默认只保存业务必要字段：

- 内容 ID、平台、来源链接、发布时间。
- 标题、正文摘要、必要指标和命中规则。
- 标签、评分、处理状态。
- 原始数据仅在调试和审计需要时短期保留。

不建议默认保存：

- 私信、手机号、邮箱、精确地址、身份证件、支付信息。
- 与业务目标无关的大量用户画像。
- 平台不允许持久化或再分发的字段。

## 4. 删除与更新

- 内容被平台删除或作者撤回时，应支持同步删除或标记不可见。
- 用户或业务方要求删除数据时，应有可执行流程。
- 对外报告尽量展示统计和摘要，减少原文全文分发。

## 5. 访问控制

- 管理员可以配置平台授权和全局策略。
- 分析员可以查看线索和报表，但不能导出敏感字段。
- 审核员可以标记数据质量和合规状态。
- 所有导出、删除、权限变更都应写入审计日志。

## 6. 风险分级

| 风险 | 描述 | 建议处理 |
| --- | --- | --- |
| 低 | 使用官方 API 获取公开内容 | 按 API 条款和限速执行 |
| 中 | 人工导入公开分享链接或自有账号数据 | 明确授权来源和保留周期 |
| 高 | 自动化访问无公开 API 的平台页面 | 暂缓，先做合规评估 |
| 禁止 | 绕过验证码、登录、风控或访问私密内容 | 不实现 |

## 7. 上线前检查表

- [ ] 已确认每个平台的数据来源和授权方式。
- [ ] 已记录 API Key 或令牌的安全存储方案。
- [ ] 已设置采集频率、请求预算和失败重试上限。
- [ ] 已设置数据保留周期。
- [ ] 已设置删除和导出流程。
- [ ] 已设置审计日志。
- [ ] 已设置平台 Connector 的紧急停用开关。
- [ ] 已确认通知内容不会泄露敏感信息。
