音频优先移动信号实验室方案
版本号:v0.1.0
最后更新:2026-04-04
1. 目的
本文档用于固化当前项目的第一阶段方向:
- 以音频作为首个输入模态
- 以手机作为主要交互终端
- 以“信号分析移动实验室”为产品定位
- 以“算法链 + AI 编排”为核心系统方法
2. 产品定位
本项目的第一阶段不是普通的声音识别应用,也不是单纯的对话助手。
更准确的定位是:
一个以手机为终端的 AI 编排信号分析移动实验室
其核心能力包括:
- 采集音频信号
- 运行分阶段算法链
- 形成结构化证据
- 由 AI 提出假设、选择验证路径、分析结果并迭代
- 输出带依据和不确定性的结论
3. 核心原则
3.1 算法负责分析,AI 负责编排
AI 不替代算法层。
算法层负责:
- 预处理
- 探测
- 分段
- 特征提取
- 模式验证
- 归因和识别
AI 负责:
- 读取结构化证据
- 提出模式假设
- 选择下一轮算法链
- 调整参数
- 分析实验结果
- 输出结论和下一步建议
3.2 结论必须来自证据链
系统输出不能只是一句主观判断,而必须附带:
3.3 每次运行都视为实验
每条算法链的执行都应被记录为一次实验,具备:
- 输入样本
- 使用的算法链
- 参数
- 输出结果
- 评分
- 失败原因
- 可复现性
4. 系统结构
第一版系统建议分为五层。
4.1 采集层
职责:
- 录音
- 导入音频文件
- 生成标准化
Observation
4.2 基础探针层
职责:
- 先运行一批便宜、稳定、通用的基础分析
- 生成第一批
Evidence
典型探针:
- 音量包络
- 频谱特征
- onset 探测
- 周期性探测
- 谐波性探测
- 基础分类器 top-k
4.3 AI 编排层
职责:
- 基于已有证据生成候选假设
- 选择下一批验证算法链
- 调整参数范围
- 决定停止、继续还是换路
4.4 实验执行层
职责:
- 执行 AI 选择的算法链
- 输出新的
Evidence
- 返回
ScoreCard 和 failureReasons
4.5 结论层
职责:
5. 算法链体系
算法链必须按阶段、按信号类型、按目标进行组织,不能只有单一 pipeline。
5.1 按阶段划分
建议划分为:
- 预处理阶段
- 探测阶段
- 分段阶段
- 特征提取阶段
- 假设验证阶段
- 归因/识别阶段
- 解释与决策阶段
5.2 按信号类型划分
第一版建议先支持下列信号画像:
- 连续稳态信号
- 瞬态事件信号
- 周期重复信号
- 多事件组合信号
- 混合声源信号
- 未知/异常信号
5.3 按目标划分
不同目标应对应不同链模板:
- 发现模式
- 验证周期性
- 验证谐波结构
- 检查混合声源
- 做候选分类
- 解释异常
6. 第一版算法链建议
6.1 通用探针链
normalize
-> resample
-> energy_probe
-> spectral_probe
-> onset_probe
-> periodicity_probe
6.2 周期模式验证链
segment
-> autocorrelation_check
-> cepstrum_check
-> repeat_interval_estimate
6.3 谐波结构验证链
spectrogram
-> f0_tracking
-> harmonicity_check
-> tonal_stability_check
6.4 瞬态事件分析链
onset_detect
-> transient_density
-> event_cluster
-> template_match
6.5 混合/异常分析链
denoise
-> separation_basic
-> embedding_extract
-> anomaly_distance_check
-> alt_classifier
7. 技术栈建议
当前方向建议如下:
- 手机终端:Flutter
- 本地算法核心:Rust
- Flutter 与本地核心集成方式:FFI
- AI 编排模型:Gemma 4
- Gemma 4 部署位置:远端主机或边缘服务
该组合的原因是:
- Flutter 适合作为跨平台移动终端
- Rust 适合承载可复用、可移植的底层算法模块
- Gemma 4 更适合做编排与分析,而非手机本地重推理核心
8. 第一版工程重点
第一阶段最重要的不是界面,而是底层实验能力建设。
优先顺序建议为:
- 定义核心数据模型
- 建立模块注册表
- 建立算法链模板目录
- 实现基础探针链
- 实现实验执行器
- 接入 AI 编排层
- 最后再完善移动端交互体验
9. 后续文档建议
后续优先补齐以下文档:
核心数据模型(中文)
算法链分层设计
模块注册表设计
实验执行器接口规范
AI 编排输入输出规范
Flutter 终端架构设计
10. 结论
本项目第一阶段应明确为:
- 音频优先
- 手机终端优先
- 算法链优先
- AI 编排优先
- 证据链和实验记录优先
这使项目从一开始就不是普通音频应用,而是一个可逐步扩展到更多模态的移动信号分析实验室原型。