O que é um pipeline de avaliação para uma funcionalidade de IA, e por que você precisa de um?

Pelo menos 50 inputs reais parecidos com produção, com outputs esperados ou regras de aprovado/reprovado, e um jeito de rodar o modelo contra eles a cada mudança. O pipeline de avaliação é o teste unitário de sistemas com LLM. Toda funcionalidade de IA em produção que funciona tinha um. Muitas que falharam não tinham.

O Abismo da Ambição em IA

Q: Como é o sucesso de uma funcionalidade de IA, medido?

Não 'os usuários vão adorar'. Um número — latência, acurácia em um conjunto reservado, custo por requisição, taxa de escalonamento, taxa de reembolso, tempo até a resolução. Escolha um ou dois e escreva. Sem um número, você não sabe quando o modelo regride, e ele vai regredir toda vez que você mexer no prompt, trocar de modelo ou alterar dados de upstream.

Q: Como é o modo de falha de uma funcionalidade de IA, e por que isso importa?

Quando o modelo responde errado, o que acontece? Bloqueia o usuário, custa dinheiro, manda um e-mail ruim? A funcionalidade mais barata de operar é aquela em que estar errado é recuperável — um rascunho que o usuário revisa, uma sugestão que o usuário aceita. A mais cara é aquela em que o modelo executa ações irreversíveis em nome do usuário.

Quase todo time que conhecemos já lançou uma demo de IA. Quase nenhum time que conhecemos lançou uma funcionalidade de IA da qual seus usuários dependem todos os dias.

A distância entre esses dois estados é onde a maioria dos projetos de IA morre. Chamamos isso de abismo da ambição: o espaço entre "a IA funciona numa reunião" e "a IA funciona em produção".

Como o abismo aparece

Demo passa, produção falha. O modelo lida com os doze casos felizes da apresentação e quebra no décimo terceiro input vindo de um usuário real.
Ninguém confia no output. A funcionalidade está construída, mas o time não a deixa rodar sem supervisão porque não tem como saber se está certa.
Custos não têm limite. A PoC custou US$ 200 em créditos. A versão de produção custaria quarenta mil dólares por mês — e ninguém consegue prever isso com margem menor que ±60%.
A funcionalidade regride em silêncio. Seis semanas após o lançamento, a qualidade do output cai 20% — e o time descobre por um ticket de suporte.

O diagnóstico — três perguntas

Antes de construir a próxima funcionalidade de IA, responda essas. Se não conseguir, conserte isso antes de escrever mais código.

1. Como é o sucesso, medido?

Não "os usuários vão adorar". Um número. Latência, acurácia em um conjunto reservado, custo por requisição, taxa de escalonamento, taxa de reembolso, tempo até a resolução. Escolha um ou dois e escreva.

Se você não consegue colocar um número no sucesso, não tem como saber quando o modelo regride. E ele vai regredir — toda vez que você mexer no prompt, trocar o modelo ou alterar dados de upstream.

2. Qual é o seu pipeline de avaliação?

Você precisa de pelo menos 50 exemplos reais (retirados de inputs parecidos com os de produção, não inventados) com outputs esperados ou regras de aprovado/reprovado, e um jeito de rodar o modelo contra eles a cada mudança. Sem isso, você está voando às cegas.

O pipeline de avaliação é o teste unitário de sistemas com LLM. Nunca vimos uma funcionalidade de IA em produção funcionando que não tivesse um. Vimos muitas que falharam porque não tinham.

3. Como é o modo de falha?

Quando — não se — o modelo responder errado, o que acontece? Bloqueia o usuário? Custa dinheiro? Manda um e-mail ruim para um cliente? Dispara um reembolso?

A funcionalidade de IA mais barata de operar é aquela em que estar errado é recuperável: um rascunho que o usuário revisa, uma sugestão que o usuário aceita, uma etiqueta que o usuário pode corrigir. A mais cara é aquela em que o modelo executa ações irreversíveis em nome do usuário.

Se o seu design tem o modelo executando ações irreversíveis, é bom ter respondido muito bem às perguntas 1 e 2.

Fechando o abismo

Fechar o abismo da ambição não é um problema de modelo. É um problema de sistema: avaliações, observabilidade, controle de custo, humano no loop onde importa, modos de falha claros.

Os times que entregam tratam IA como qualquer outra peça de software de produção — com testes, monitoramento e um plano para quando der ruim. Os times que travam tratam IA como um truque de mágica que funcionou uma vez no palco.

Se você está em algum lugar desse abismo agora, as três perguntas acima são um bom ponto de partida. Se consegue responder as três honestamente e as respostas são boas, provavelmente está pronto para lançar. Se não, esse é o trabalho.