# 音频优先移动信号实验室方案 版本号:v0.1.0 最后更新:2026-04-04 ## 1. 目的 本文档用于固化当前项目的第一阶段方向: - 以音频作为首个输入模态 - 以手机作为主要交互终端 - 以“信号分析移动实验室”为产品定位 - 以“算法链 + AI 编排”为核心系统方法 ## 2. 产品定位 本项目的第一阶段不是普通的声音识别应用,也不是单纯的对话助手。 更准确的定位是: `一个以手机为终端的 AI 编排信号分析移动实验室` 其核心能力包括: - 采集音频信号 - 运行分阶段算法链 - 形成结构化证据 - 由 AI 提出假设、选择验证路径、分析结果并迭代 - 输出带依据和不确定性的结论 ## 3. 核心原则 ### 3.1 算法负责分析,AI 负责编排 AI 不替代算法层。 算法层负责: - 预处理 - 探测 - 分段 - 特征提取 - 模式验证 - 归因和识别 AI 负责: - 读取结构化证据 - 提出模式假设 - 选择下一轮算法链 - 调整参数 - 分析实验结果 - 输出结论和下一步建议 ### 3.2 结论必须来自证据链 系统输出不能只是一句主观判断,而必须附带: - 支持证据 - 反证或冲突证据 - 置信度 - 不确定性来源 ### 3.3 每次运行都视为实验 每条算法链的执行都应被记录为一次实验,具备: - 输入样本 - 使用的算法链 - 参数 - 输出结果 - 评分 - 失败原因 - 可复现性 ## 4. 系统结构 第一版系统建议分为五层。 ### 4.1 采集层 职责: - 录音 - 导入音频文件 - 生成标准化 `Observation` ### 4.2 基础探针层 职责: - 先运行一批便宜、稳定、通用的基础分析 - 生成第一批 `Evidence` 典型探针: - 音量包络 - 频谱特征 - onset 探测 - 周期性探测 - 谐波性探测 - 基础分类器 top-k ### 4.3 AI 编排层 职责: - 基于已有证据生成候选假设 - 选择下一批验证算法链 - 调整参数范围 - 决定停止、继续还是换路 ### 4.4 实验执行层 职责: - 执行 AI 选择的算法链 - 输出新的 `Evidence` - 返回 `ScoreCard` 和 `failureReasons` ### 4.5 结论层 职责: - 汇总多轮实验 - 生成结论 - 说明依据与不确定性 ## 5. 算法链体系 算法链必须按阶段、按信号类型、按目标进行组织,不能只有单一 pipeline。 ### 5.1 按阶段划分 建议划分为: 1. 预处理阶段 2. 探测阶段 3. 分段阶段 4. 特征提取阶段 5. 假设验证阶段 6. 归因/识别阶段 7. 解释与决策阶段 ### 5.2 按信号类型划分 第一版建议先支持下列信号画像: - 连续稳态信号 - 瞬态事件信号 - 周期重复信号 - 多事件组合信号 - 混合声源信号 - 未知/异常信号 ### 5.3 按目标划分 不同目标应对应不同链模板: - 发现模式 - 验证周期性 - 验证谐波结构 - 检查混合声源 - 做候选分类 - 解释异常 ## 6. 第一版算法链建议 ### 6.1 通用探针链 ```text normalize -> resample -> energy_probe -> spectral_probe -> onset_probe -> periodicity_probe ``` ### 6.2 周期模式验证链 ```text segment -> autocorrelation_check -> cepstrum_check -> repeat_interval_estimate ``` ### 6.3 谐波结构验证链 ```text spectrogram -> f0_tracking -> harmonicity_check -> tonal_stability_check ``` ### 6.4 瞬态事件分析链 ```text onset_detect -> transient_density -> event_cluster -> template_match ``` ### 6.5 混合/异常分析链 ```text denoise -> separation_basic -> embedding_extract -> anomaly_distance_check -> alt_classifier ``` ## 7. 技术栈建议 当前方向建议如下: - 手机终端:Flutter - 本地算法核心:Rust - Flutter 与本地核心集成方式:FFI - AI 编排模型:Gemma 4 - Gemma 4 部署位置:远端主机或边缘服务 该组合的原因是: - Flutter 适合作为跨平台移动终端 - Rust 适合承载可复用、可移植的底层算法模块 - Gemma 4 更适合做编排与分析,而非手机本地重推理核心 ## 8. 第一版工程重点 第一阶段最重要的不是界面,而是底层实验能力建设。 优先顺序建议为: 1. 定义核心数据模型 2. 建立模块注册表 3. 建立算法链模板目录 4. 实现基础探针链 5. 实现实验执行器 6. 接入 AI 编排层 7. 最后再完善移动端交互体验 ## 9. 后续文档建议 后续优先补齐以下文档: - `核心数据模型(中文)` - `算法链分层设计` - `模块注册表设计` - `实验执行器接口规范` - `AI 编排输入输出规范` - `Flutter 终端架构设计` ## 10. 结论 本项目第一阶段应明确为: - 音频优先 - 手机终端优先 - 算法链优先 - AI 编排优先 - 证据链和实验记录优先 这使项目从一开始就不是普通音频应用,而是一个可逐步扩展到更多模态的移动信号分析实验室原型。