
Este artigo explora a consistência dos outputs de nove Inteligências Artificiais Generativas, coletando e analisando respostas diárias ao prompt “implemente a classe pessoa em Python” ao longo de um mês. Foram avaliadas métricas objetivas como o tamanho dos arquivos em bytes e a presença de elementos estruturais (aspas, cerquilhas, asteriscos), além de observar variações linguísticas, inclusão de referências e possíveis “alucinações” nas respostas. A pesquisa identificou que Mistral, Maritaca e ChatGPT foram os mais consistentes, mantendo padrões regulares no conteúdo e formatação, enquanto Claude, Gemini e Llama 3.2 apresentaram maior variabilidade, com respostas que frequentemente iam além do necessário. Notou-se ainda o impacto de fatores externos, como o modelo de cobrança de algumas inteligências artificiais e atualizações de sites, que influenciaram a coleta. O artigo destaca a importância de entender essas variações ao escolher IA para tarefas específicas e sugere como pesquisas futuras poderiam investigar a influência de variáveis técnicas e mudanças na infraestrutura sobre a consistência das respostas.