Text Tokenizer

~300 M Params

OD: 768

Audio Encoder

~300 M Params

OD: 768

Text Embedder

~300 M Params

OD: 768

Audio Projector

~300 M Params

OD: 768

Llama 3.1 Output