Spaces:

zhuohany1206
/

audiototext

Runtime error

audiototext / README.md

再次更新 app.py

5038341 about 2 months ago

1.19 kB

	---
	title: Qwen2 Audio Transcription
	emoji: 🎵
	colorFrom: blue
	colorTo: green
	sdk: gradio
	sdk_version: 4.44.0
	app_file: app.py
	pinned: false
	---

	# Qwen2 Audio Transcription - 优化版

	针对Hugging Face Spaces构建超时问题的优化版本。

	## 主要优化

	### 1. 懒加载模型
	- 模型只在首次使用时加载，减少构建时间
	- 启动速度快，避免Space构建超时

	### 2. GPU时间管理
	- 使用`@spaces.GPU()`装饰器控制GPU使用时间
	- 模型加载：120秒限制
	- 推理：60秒限制

	### 3. 内存优化
	- 添加`low_cpu_mem_usage=True`减少CPU内存占用
	- GPU内存溢出错误处理

	### 4. 依赖版本固定
	- 固定依赖版本避免兼容性问题
	- 移除不必要的包减少构建时间

	## 使用方法

	1. 上传音频文件或录音
	2. 点击"开始转录"按钮
	3. 等待转录结果（首次使用会加载模型，需要1-2分钟）

	## 技术规格

	- 模型：Qwen2-Audio-7B
	- 支持音频格式：WAV, MP3, FLAC等
	- 采样率：自动转换为16kHz
	- GPU支持：CUDA自动检测

	## 错误处理

	- GPU内存不足：提示使用更短音频
	- 模型加载失败：显示详细错误信息
	- 处理错误：友好的错误提示