Resolvi testar os LLMs mais populares do momento no exame da primeira fase da OAB 42, que é a prova da Ordem dos Advogados do Brasil.
O exame foi aplicado em 1 de dezembro de 2024, então não está nos dados de treino dos modelos.
Lembrando que esses testes não têm rigor científico. São apenas curiosidades minhas depois de usar esses modelos para analisar alguns documentos legais na semana passada.
Isso também não significa que os LLMs podem substituir advogados.
Esse foi o prompt para todos os modelos:
“““Responda a seguinte questão, formate sua reposta como: “ALTERNATIVA: [sua resposta]”
{question}”””
Por que esse prompt simples?
-
Queria descobrir o quanto de conhecimento de direito brasileiro está “internalizado” nos modelos. Nenhum deles teve acesso à internet ou legislação.
-
Queria medir a capacidade do modelo sem truques de prompt como chain-of-thought (exceto nos modelos que já internalizam isso, como o o1-mini e gemini-thinking)
-
A primeira fase do exame da OAB é feita sem consulta (segundo o Google)
Apesar das diferenças no gráfico, na prática considero que o Gemini-Exp-1206, Claude Sonnet 3.5 e (Chat)GPT-4o empataram.
Em termos de modelos menores, o Gemini Flash se destacou, e essa é minha experiência com ele em várias áreas que testei: é o melhor modelo dentre os pequenos e baratos desde seu lançamento.
Um dos casos interessantes é a má performance do o1-mini, que “raciocina” e eu esperava ter um desempenho melhor.
Acho que o desempenho ruim dele é porque os dados de treino devem ser praticamente todos em inglês e focados em raciocínio matemático, que não necessariamente transfere bem para raciocínio jurídico.
Última curiosiade, o Gemini-Exp-1206 e o Sonnet 3.5 erraram apenas 3 questões em comum: 43, 48 e 50.
A impressão que tive analisando os casos de erro é que, com acesso à legislação e mais tempo para “raciocinar”, eles acertariam mais questões.
Enfim, foi divertido analisar, e esse era o objetivo 😜
Fabrício Carraro generosamente avaliou o o1-2024-12-17, que eu ainda não tenho acesso. Também avaliou o Sabiá 3.
Como Rodei o Teste
Primeiro criei scripts para extrair as perguntas da prova 1. Cada versão tinha as mesmas questões, só que em ordens diferentes. Depois, extraí as respostas do gabarito.
Para cada pergunta que extraí, fiz uma chamada de API. Desenvolvi outro script para extrair as respostas que a IA me deu, com retry caso não houvesse resposta - só o o1-mini que deu problemas.
Por fim, fiz um script para comparar as respostas que a IA gerou com o gabarito, o que me deu os resultados que estão no artigo.
Para ser um teste mais robusto, o ideal é rodar mais vezes nos mesmos modelos e agregar as respostas. Mas como é só uma curiosidade, não fiz isso.
O1 2024-12-17
Métrica | Valor |
---|---|
Respostas corretas | 75/79 |
Taxa de acerto | 94,94% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
5 | D | B |
48 | A | D |
50 | D | C |
75 | C | A |
Claude 3.5 Sonnet 2024-10-22
Métrica | Valor |
---|---|
Respostas corretas | 70/79 |
Taxa de acerto | 88,61% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
27 | A | C |
42 | C | A |
48 | A | D |
50 | D | A |
52 | C | B |
61 | A | C |
63 | B | D |
69 | A | D |
70 | B | A |
Gemini Experimental 1206
Métrica | Valor |
---|---|
Respostas corretas | 70/79 |
Taxa de acerto | 88,61% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
2 | B | A |
21 | B | C |
48 | A | B |
50 | D | C |
52 | C | B |
63 | B | D |
68 | C | A |
74 | B | D |
76 | A | D |
ChatGPT 4o Latest
Métrica | Valor |
---|---|
Respostas corretas | 69/79 |
Taxa de acerto | 87,34% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
5 | D | B |
19 | B | C |
21 | B | D |
25 | C | A |
48 | A | D |
50 | D | C |
63 | B | D |
69 | A | D |
74 | B | D |
77 | D | B |
GPT-4o-2024-11-20
Métrica | Valor |
---|---|
Respostas corretas | 68/79 |
Taxa de acerto | 86,08% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
5 | D | B |
19 | B | C |
21 | B | D |
25 | C | A |
28 | A | C |
48 | A | D |
50 | D | C |
63 | B | D |
69 | A | D |
74 | B | D |
77 | D | B |
Gemini 2.0 Flash Thinking
Métrica | Valor |
---|---|
Respostas corretas | 65/79 |
Taxa de acerto | 82,28% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
2 | B | C |
5 | D | B |
7 | C | B |
19 | B | A |
35 | C | B |
36 | A | D |
48 | A | B |
52 | C | D |
55 | C | B |
61 | A | C |
68 | C | A |
69 | A | D |
70 | B | C |
74 | B | D |
Gemini 2.0 Flash
Métrica | Valor |
---|---|
Respostas corretas | 62/79 |
Taxa de acerto | 78,48% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
2 | B | C |
5 | D | B |
11 | B | D |
14 | A | D |
19 | B | C |
21 | B | C |
24 | B | D |
27 | A | C |
32 | A | D |
33 | A | B |
36 | A | D |
48 | A | B |
61 | A | C |
68 | C | B |
69 | A | D |
70 | B | C |
76 | A | D |
Sabia-3
Métrica | Valor |
---|---|
Respostas corretas | 58/79 |
Taxa de acerto | 73,42% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
4 | A | B |
24 | B | A |
27 | A | C |
28 | A | B |
36 | A | D |
40 | B | D |
48 | A | B |
50 | D | C |
52 | C | B |
53 | D | C |
57 | C | B |
60 | C | D |
61 | A | C |
62 | C | B |
63 | B | D |
68 | C | A |
69 | A | B |
74 | B | D |
76 | A | D |
77 | D | B |
78 | A | C |
O1 Mini 2024-09-12
Métrica | Valor |
---|---|
Respostas corretas | 51/79 |
Taxa de acerto | 64,56% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
5 | D | C |
8 | A | B |
16 | D | A |
21 | B | C |
22 | D | C |
27 | A | C |
28 | A | C |
32 | A | D |
35 | C | B |
36 | A | D |
42 | C | D |
47 | C | A |
48 | A | C |
50 | D | C |
52 | C | D |
53 | D | C |
54 | B | C |
55 | C | A |
57 | C | B |
61 | A | C |
62 | C | D |
64 | A | D |
68 | C | A |
69 | A | C |
71 | C | B |
74 | B | D |
76 | A | D |
77 | D | B |
Claude 3.5 Haiku
Métrica | Valor |
---|---|
Respostas corretas | 50/79 |
Taxa de acerto | 63,29% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
2 | B | C |
4 | A | B |
11 | B | D |
12 | A | B |
19 | B | C |
22 | D | B |
24 | B | A |
28 | A | B |
32 | A | D |
33 | A | B |
34 | D | B |
35 | C | B |
36 | A | D |
40 | B | C |
41 | D | B |
48 | A | D |
50 | D | A |
52 | C | B |
53 | D | C |
57 | C | A |
61 | A | C |
62 | C | D |
68 | C | B |
69 | A | C |
71 | C | B |
76 | A | D |
77 | D | C |
78 | A | C |
79 | D | B |
GPT-4o Mini
Métrica | Valor |
---|---|
Respostas corretas | 49/79 |
Taxa de acerto | 62,03% |
Respostas Erradas
Questão | Correta | Selecionada |
---|---|---|
2 | B | A |
3 | D | B |
5 | D | C |
16 | D | C |
19 | B | A |
21 | B | C |
22 | D | C |
24 | B | A |
26 | C | D |
32 | A | D |
34 | D | B |
35 | C | B |
40 | B | C |
48 | A | C |
50 | D | C |
52 | C | B |
53 | D | C |
54 | B | C |
55 | C | A |
57 | C | A |
61 | A | C |
67 | D | A |
68 | C | A |
69 | A | C |
70 | B | A |
71 | C | D |
73 | D | C |
76 | A | D |
77 | D | C |
78 | A | C |