audiototext / README.md
zhuohany1206's picture
再次更新 app.py
5038341

A newer version of the Gradio SDK is available: 6.1.0

Upgrade
metadata
title: Qwen2 Audio Transcription
emoji: 🎵
colorFrom: blue
colorTo: green
sdk: gradio
sdk_version: 4.44.0
app_file: app.py
pinned: false

Qwen2 Audio Transcription - 优化版

针对Hugging Face Spaces构建超时问题的优化版本。

主要优化

1. 懒加载模型

  • 模型只在首次使用时加载,减少构建时间
  • 启动速度快,避免Space构建超时

2. GPU时间管理

  • 使用@spaces.GPU()装饰器控制GPU使用时间
  • 模型加载:120秒限制
  • 推理:60秒限制

3. 内存优化

  • 添加low_cpu_mem_usage=True减少CPU内存占用
  • GPU内存溢出错误处理

4. 依赖版本固定

  • 固定依赖版本避免兼容性问题
  • 移除不必要的包减少构建时间

使用方法

  1. 上传音频文件或录音
  2. 点击"开始转录"按钮
  3. 等待转录结果(首次使用会加载模型,需要1-2分钟)

技术规格

  • 模型:Qwen2-Audio-7B
  • 支持音频格式:WAV, MP3, FLAC等
  • 采样率:自动转换为16kHz
  • GPU支持:CUDA自动检测

错误处理

  • GPU内存不足:提示使用更短音频
  • 模型加载失败:显示详细错误信息
  • 处理错误:友好的错误提示