Text Tokenizer
~300 M Params
OD: 768
Audio Encoder
~300 M Params
OD: 768
▼
▼
Text Embedder
~300 M Params
OD: 768
Audio Projector
~300 M Params
OD: 768
▼
Llama 3.1 Output
Text Tokenizer
~300 M Params
OD: 768
Audio Encoder
~300 M Params
OD: 768
Text Embedder
~300 M Params
OD: 768
Audio Projector
~300 M Params
OD: 768
Llama 3.1 Output