---
title: Qwen2 Audio Transcription
emoji: 🎵
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false
---

# Qwen2 Audio Transcription - 优化版

针对Hugging Face Spaces构建超时问题的优化版本。

## 主要优化

### 1. 懒加载模型
- 模型只在首次使用时加载，减少构建时间
- 启动速度快，避免Space构建超时

### 2. GPU时间管理
- 使用`@spaces.GPU()`装饰器控制GPU使用时间
- 模型加载：120秒限制
- 推理：60秒限制

### 3. 内存优化
- 添加`low_cpu_mem_usage=True`减少CPU内存占用
- GPU内存溢出错误处理

### 4. 依赖版本固定
- 固定依赖版本避免兼容性问题
- 移除不必要的包减少构建时间

## 使用方法

1. 上传音频文件或录音
2. 点击"开始转录"按钮
3. 等待转录结果（首次使用会加载模型，需要1-2分钟）

## 技术规格

- 模型：Qwen2-Audio-7B
- 支持音频格式：WAV, MP3, FLAC等
- 采样率：自动转换为16kHz
- GPU支持：CUDA自动检测

## 错误处理

- GPU内存不足：提示使用更短音频
- 模型加载失败：显示详细错误信息
- 处理错误：友好的错误提示