--- title: Qwen2 Audio Transcription emoji: 🎵 colorFrom: blue colorTo: green sdk: gradio sdk_version: 4.44.0 app_file: app.py pinned: false --- # Qwen2 Audio Transcription - 优化版 针对Hugging Face Spaces构建超时问题的优化版本。 ## 主要优化 ### 1. 懒加载模型 - 模型只在首次使用时加载,减少构建时间 - 启动速度快,避免Space构建超时 ### 2. GPU时间管理 - 使用`@spaces.GPU()`装饰器控制GPU使用时间 - 模型加载:120秒限制 - 推理:60秒限制 ### 3. 内存优化 - 添加`low_cpu_mem_usage=True`减少CPU内存占用 - GPU内存溢出错误处理 ### 4. 依赖版本固定 - 固定依赖版本避免兼容性问题 - 移除不必要的包减少构建时间 ## 使用方法 1. 上传音频文件或录音 2. 点击"开始转录"按钮 3. 等待转录结果(首次使用会加载模型,需要1-2分钟) ## 技术规格 - 模型:Qwen2-Audio-7B - 支持音频格式:WAV, MP3, FLAC等 - 采样率:自动转换为16kHz - GPU支持:CUDA自动检测 ## 错误处理 - GPU内存不足:提示使用更短音频 - 模型加载失败:显示详细错误信息 - 处理错误:友好的错误提示