Supported Models for Reinforcement Learning and Supervised Fine-Tuning

Provider	Models	Notes
Qwen 3	`0.6B`, `1.7B`, `4B`, `8B`, `14B`, `32B`	Default for demos; supports tool-calling.
Qwen 3 (Advanced)	`4B-2507`, `30B-A3B`, `235B-A22B`, `480B-A35B`	Instruct/Thinking/MoE variants; 235B/480B require sharding.
Qwen 3 Coder	`30B-A3B`, `480B-A35B`	Code-specialized; large sizes require sharding.

Large models (235B/480B) must be sharded across multiple GPUs for inference and training.

⌘I