audiototext / README.md
zhuohany1206's picture
再次更新 app.py
5038341
---
title: Qwen2 Audio Transcription
emoji: 🎵
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
---
# Qwen2 Audio Transcription - 优化版
针对Hugging Face Spaces构建超时问题的优化版本。
## 主要优化
### 1. 懒加载模型
- 模型只在首次使用时加载,减少构建时间
- 启动速度快,避免Space构建超时
### 2. GPU时间管理
- 使用`@spaces.GPU()`装饰器控制GPU使用时间
- 模型加载:120秒限制
- 推理:60秒限制
### 3. 内存优化
- 添加`low_cpu_mem_usage=True`减少CPU内存占用
- GPU内存溢出错误处理
### 4. 依赖版本固定
- 固定依赖版本避免兼容性问题
- 移除不必要的包减少构建时间
## 使用方法
1. 上传音频文件或录音
2. 点击"开始转录"按钮
3. 等待转录结果(首次使用会加载模型,需要1-2分钟)
## 技术规格
- 模型:Qwen2-Audio-7B
- 支持音频格式:WAV, MP3, FLAC等
- 采样率:自动转换为16kHz
- GPU支持:CUDA自动检测
## 错误处理
- GPU内存不足:提示使用更短音频
- 模型加载失败:显示详细错误信息
- 处理错误:友好的错误提示