A Microsoft posicionou o Phi-4 como líder na solução de problemas matic , citando ganhos substanciais de desempenho em relação aos seus antecessores e modelos comparáveis. A empresa está dent nas capacidades do modelo de IA depois que o Phi-4 supostamente alcançou as melhores notas em vários benchmarks padronizados.
Fonte: Microsoft
No teste GPQA, obteve pontuação de 56,1, superando 40,9 do GPT-4o e 49,1 do Llama-3. No benchmark MATH, o Phi-4 alcançou 80,4, refletindo as suas capacidades avançadas na resolução de problemas matic complexos. Também se destacou em benchmarks de codificação, alcançando uma pontuação de 82,6 no HumanEval.
Além disso, Phi-4 demonstrou sua habilidade em cenários do mundo real, incluindo altas pontuações em problemas da Associação matic das Competições Americanas de matic da América (AMC-10/12). Esses resultados indicam aplicações potenciais em pesquisa científica, engenharia e modelagem financeira, campos onde a precisão matic e o raciocínio são críticos.
Fonte: Microsoft
Enquanto modelos maiores, como o GPT-4o da OpenAI e o Gemini Ultra do Google, operam com centenas de bilhões ou até trilhões de parâmetros, o Phi-4 demonstra que arquiteturas menores e simplificadas podem alcançar desempenho superior em tarefas especializadas.
A Microsoft credita os avanços do Phi-4 à integração de dados sintéticos de alta qualidade junto com conjuntos de dados de conteúdo gerado por humanos, bem como melhorias não reveladas feitas durante o pós-treinamento. Estes esforços refletem uma tendência mais ampla na indústria da IA , onde as equipas de investigação se concentram cada vez mais em inovações na utilização de dados sintéticos e na otimização pós-formação.
O CEO da Scale AI, Alexandr Wang, destacou recentemente esta mudança, observando que a indústria atingiu uma “parede de dados pré-treinamento”, acrescentando que as empresas agora correrão para desenvolver modelos de IA mais eficientes.
A computação é importante, mas os dados também, e atingimos um muro de dados pré-treinamento.
— Alexandr Wang (@alexandr_wang) 12 de dezembro de 2024
Prepare-se para o boom de dados pós-treinamento. As empresas correrão para ter os melhores dados de fronteira – raciocínio multimodal, agente, complexo e muito mais.
Acompanhe os dados, encontre os vencedores.
7/8