Concordância entre modelos GenAI

16/12/2025
4 min
Inteligência Artificial, Publicações Ligo
6 curtidas
Ouvir
Navegue por Tópicos
Compartilhe
  • Comentar
Ouvir

Concordância entre modelos de linguagem na avaliação da clareza das respostas

corpotexto

Testamos os modelos LLaMA e Qwen para pontuar a concordância na clareza de textos relacionados a saúde, educação e segurança.

Taxa Concordância na Resposta

A métrica concordância das respostas, utilizamos modelos de linguagem (LLMs) como juízes para pontuar o quão claro era o conteúdo apresentado. Os textos avaliados pertencem ao contexto governamental, abrangendo os temas de saúde, educação e segurança pública. Para essa avaliação, os modelos receberam um conjunto de critérios: objetividade, linguagem simples, ausência de ambiguidade e adequação ao contexto. Cada resposta foi pontuada em uma escala de 1 a 5, sendo:

    • 1:  nada claro

    • 5:  perfeitamente claro
 
Exemplo da estruturação das respostas definidas em cinco níveis de clareza:

[{

  "texto": "Foram pavimentados 14 km na região norte, conforme relatório técnico nº 009/2024.",

    "gabarito": 5

  },

  {

    "texto": "A iluminação pública está sendo cuidada, mas sem mais detalhes.",

    "gabarito": 1

  },

{

    "texto": "O bairro Novo Horizonte conta com rondas diárias da Polícia Militar.",

    "gabarito": 4

  }]

Executando o Teste e Coletando Dados

Todos os modelos testados receberam as mesmas instruções para pontuar a clareza da sentença informada. Foram registradas todas as respostas juntamente com logs detalhados de cada interação e com registro de anomalias e comportamentos não previstos. Para execução do teste foi usada a estrutura LangChain.

Avaliamos a concordância das respostas com LLMs

Para medir a concordância das respostas, desenvolvemos uma estrutura programática baseada na biblioteca LangChain, que permite orquestrar interações com modelos de linguagem (LLMs). Abaixo, explicamos passo a passo como essa avaliação foi conduzida:

Definição da tarefa: Cada modelo recebeu a tarefa de avaliar o quão clara era uma resposta textual, utilizando uma escala Likert de 1 a 5.

A clareza foi definida com base nos critérios: objetividade, linguagem simples, ausência de ambiguidade e adequação ao contexto

Construção do prompt: Criamos um prompt fixo (do tipo system message) que instruiu o modelo a avaliar a clareza da resposta fornecida, sem apresentar justificativas — apenas retornando um número de 1 a 5.

Exemplo da instrução usada:​

“Dada a seguinte resposta, avalie considerando a escala Likert, de 1 a 5 o quão clara ela é […] Responda apenas com um número de 1 a 5.”

Pipeline de execução (cadeia de tarefas)

Com a ajuda da RunnableSequence, organizamos a sequência de etapas:

  • A entrada do usuário (o texto a ser avaliado) é recebida.
  • O prompt é preenchido com esse texto.
  • O modelo de linguagem é acionado com o prompt.
  • A resposta do modelo (um número de 1 a 5) é extraída como string para ser usada nos resultados.

Execução da avaliação

Com essa estrutura, vários textos foram avaliados por diferentes modelos (como LLaMA e Qwen). Cada modelo agiu como um “juiz virtual”, atribuindo uma pontuação para a clareza da resposta sem interferência humana.

Resultados preliminares

Inicialmente, foram testados os modelos LLaMA 3.1:8B e Qwen 2.5:7B. No contexto governamental, com segmentações nas áreas de saúde, educação, infraestrutura, segurança e administração pública. O modelo Qwen classificou corretamente 45% das respostas, demonstrando uma performance moderada na identificação de textos claros ou pouco claros conforme os critérios estabelecidos. O LLaMA, por sua vez, obteve um índice de acerto de 30%, indicando maior dificuldade em alinhar suas classificações ao gabarito humano de clareza. Esses resultados sugerem que, embora ambos os modelos apresentem potencial para tarefas de avaliação subjetiva, como a análise de clareza, o Qwen se mostrou mais alinhado às percepções humanas neste estágio preliminar do experimento.

Navegue por Tópicos
Compartilhe
  • Comentar
Este post não tem tags.

Hellem Correa

Bacharel em Estatística pela Universidade Federal de Goiás (UFG) e pós-graduada em Ciência de Dados pela ESALQ/USP. Atua como Especialista em Ciência de Dados no LIGO, com foco em modelagem estatística, genAI, análise de dados e aprendizado de maquina.

Comentários mais recentes

Nenhum comentário encontrado.

Gostou? Deixe seu comentário aqui...

Acessar o conteúdo