Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

audio-text-to-text

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

295

Full-text search

Active filters: audio-text-to-text

stepfun-ai/Step-Audio-R1

Audio-Text-to-Text • 33B • Updated 6 days ago • 457 • 123

nvidia/music-flamingo-hf

Audio-Text-to-Text • 8B • Updated 4 days ago • 8.63k • 56

google/gemma-3n-E4B-it

Image-Text-to-Text • 8B • Updated Jul 14 • 67.3k • 828

nvidia/audio-flamingo-3-hf

Audio-Text-to-Text • 8B • Updated 8 days ago • 10.9k • 133

fixie-ai/ultravox-v0_5-llama-3_2-1b

Audio-Text-to-Text • 0.7B • Updated 12 days ago • 404k • 65

mistralai/Voxtral-Small-24B-2507

Audio-Text-to-Text • 24B • Updated Jul 28 • 6.2k • 436

allenai/OLMoASR

Audio-Text-to-Text • Updated Aug 28 • 69

Qwen/Qwen-Audio

Text Generation • 8B • Updated Nov 20, 2024 • 3.05k • 142

Qwen/Qwen2-Audio-7B

Audio-Text-to-Text • 8B • Updated Nov 20, 2024 • 46.9k • 155

Qwen/Qwen2-Audio-7B-Instruct

Audio-Text-to-Text • 8B • Updated Jan 12 • 206k • 499

NexaAI/OmniAudio-2.6B

Audio-Text-to-Text • 3B • Updated Dec 13, 2024 • 1.2k • 281

FreedomIntelligence/Soundwave

Audio-Text-to-Text • 9B • Updated Mar 16 • 20 • 14

google/gemma-3n-E4B

Image-Text-to-Text • 8B • Updated Jul 14 • 6.14k • 111

mispeech/midashenglm-7b-0804-fp32

Audio-Text-to-Text • 8B • Updated Oct 31 • 33.1k • 76

nvidia/audio-flamingo-3

Audio-Text-to-Text • Updated 10 days ago • 987 • 135

ArabicSpeech/Octopus

Audio-Text-to-Text • Updated 30 days ago • 2

fixie-ai/ultravox-v0_7-glm-4_6

Audio-Text-to-Text • 0.7B • Updated 5 days ago • 1.76k • 2

NexaAI/Qwen2-Audio-7B-GGUF

Audio-Text-to-Text • 8B • Updated Nov 25, 2024 • 7.31k • 166

nvidia/audio-flamingo-2

Audio-Text-to-Text • Updated Jul 18 • 48

SaraAlthubaiti/TinyOctopus

Audio-Text-to-Text • Updated Mar 5 • 9

SeaLLMs/SeaLLMs-Audio-7B

Audio-Text-to-Text • 8B • Updated about 23 hours ago • 402 • 18

fixie-ai/ultravox-v0_6-llama-3_1-8b

Audio-Text-to-Text • 0.7B • Updated Jul 5 • 6.24k • 4

google/gemma-3n-E2B

Image-Text-to-Text • 5B • Updated Jul 14 • 1.26k • 79

google/gemma-3n-E2B-it

Image-Text-to-Text • 5B • Updated Jul 14 • 141k • 239

mlx-community/gemma-3n-E4B-it-bf16

Image-Text-to-Text • 8B • Updated Jul 12 • 92 • 12

stduhpf/Voxtral-Small-24B-2507-GGUF

Audio-Text-to-Text • 24B • Updated Jul 28 • 43 • 3

bubblspace/Timecapsule2.7B-g3n-mix-match

Image-Text-to-Text • 7B • Updated Aug 6 • 5 • 1

mispeech/midashenglm-7b-1021-bf16

Audio-Text-to-Text • 8B • Updated 27 days ago • 605 • 2

Qwen/Qwen-Audio-Chat

Text Generation • 8B • Updated Jan 12 • 1.64k • 94

fixie-ai/ultravox-v0_2

Audio-Text-to-Text • 8B • Updated May 6 • 483 • 51