[요약]
1. 플래시(경량) 모델인데도 GPT-5.5, Claude Opus 4.7 같은 상위 모델들이랑 어깨를 나란히 함
2.에이전트(MCP Atlas 83.6%, Toolathlon 56.5%), 멀티모달(CharXiv 84.2%, MMMU-Pro 83.6%), 금융 추론(Finance Agent v2 57.9%) 등에서 1등 차지
3. 코딩이랑 고난도 추론(ARC-AGI-2, Humanity's Last Exam)은 GPT-5.5/Opus 4.7한테 밀리지만, Flash 모델이라는 점 감안하면 가성비 미친 수준