Concordância entre modelos GenAI

16/12/2025

4 min

Inteligência Artificial, Publicações Ligo

8 curtidas

Ouvir

Navegue por Tópicos

Compartilhe

Comentar

Ouvir

Concordância entre modelos de linguagem na avaliação da clareza das respostas

Testamos os modelos LLaMA e Qwen para pontuar a concordância na clareza de textos relacionados a saúde, educação e segurança.

Taxa Concordância na Resposta

A métrica concordância das respostas, utilizamos modelos de linguagem (LLMs) como juízes para pontuar o quão claro era o conteúdo apresentado. Os textos avaliados pertencem ao contexto governamental, abrangendo os temas de saúde, educação e segurança pública. Para essa avaliação, os modelos receberam um conjunto de critérios: objetividade, linguagem simples, ausência de ambiguidade e adequação ao contexto. Cada resposta foi pontuada em uma escala de 1 a 5, sendo:

- 1: nada claro

- 5: perfeitamente claro

Exemplo da estruturação das respostas definidas em cinco níveis de clareza:

[{

  "texto": "Foram pavimentados 14 km na região norte, conforme relatório técnico nº 009/2024.",

    "gabarito": 5

  },

  {

    "texto": "A iluminação pública está sendo cuidada, mas sem mais detalhes.",

    "gabarito": 1

  },

{

    "texto": "O bairro Novo Horizonte conta com rondas diárias da Polícia Militar.",

    "gabarito": 4

  }]

Executando o Teste e Coletando Dados

Todos os modelos testados receberam as mesmas instruções para pontuar a clareza da sentença informada. Foram registradas todas as respostas juntamente com logs detalhados de cada interação e com registro de anomalias e comportamentos não previstos. Para execução do teste foi usada a estrutura LangChain.

Avaliamos a concordância das respostas com LLMs

Para medir a concordância das respostas, desenvolvemos uma estrutura programática baseada na biblioteca LangChain, que permite orquestrar interações com modelos de linguagem (LLMs). Abaixo, explicamos passo a passo como essa avaliação foi conduzida:

Definição da tarefa: Cada modelo recebeu a tarefa de avaliar o quão clara era uma resposta textual, utilizando uma escala Likert de 1 a 5.

A clareza foi definida com base nos critérios: objetividade, linguagem simples, ausência de ambiguidade e adequação ao contexto

Construção do prompt: Criamos um prompt fixo (do tipo system message) que instruiu o modelo a avaliar a clareza da resposta fornecida, sem apresentar justificativas — apenas retornando um número de 1 a 5.

Exemplo da instrução usada:

“Dada a seguinte resposta, avalie considerando a escala Likert, de 1 a 5 o quão clara ela é […] Responda apenas com um número de 1 a 5.”

Pipeline de execução (cadeia de tarefas)

Com a ajuda da RunnableSequence, organizamos a sequência de etapas:

A entrada do usuário (o texto a ser avaliado) é recebida.
O prompt é preenchido com esse texto.
O modelo de linguagem é acionado com o prompt.
A resposta do modelo (um número de 1 a 5) é extraída como string para ser usada nos resultados.

Execução da avaliação

Com essa estrutura, vários textos foram avaliados por diferentes modelos (como LLaMA e Qwen). Cada modelo agiu como um “juiz virtual”, atribuindo uma pontuação para a clareza da resposta sem interferência humana.

Resultados preliminares

Inicialmente, foram testados os modelos LLaMA 3.1:8B e Qwen 2.5:7B. No contexto governamental, com segmentações nas áreas de saúde, educação, infraestrutura, segurança e administração pública. O modelo Qwen classificou corretamente 45% das respostas, demonstrando uma performance moderada na identificação de textos claros ou pouco claros conforme os critérios estabelecidos. O LLaMA, por sua vez, obteve um índice de acerto de 30%, indicando maior dificuldade em alinhar suas classificações ao gabarito humano de clareza. Esses resultados sugerem que, embora ambos os modelos apresentem potencial para tarefas de avaliação subjetiva, como a análise de clareza, o Qwen se mostrou mais alinhado às percepções humanas neste estágio preliminar do experimento.

Navegue por Tópicos

Compartilhe

Comentar

Este post não tem tags.

Hellem Correa

Bacharel em Estatística pela Universidade Federal de Goiás (UFG) e pós-graduada em Ciência de Dados pela ESALQ/USP. Atua como Especialista em Ciência de Dados no LIGO, com foco em modelagem estatística, genAI, análise de dados e aprendizado de maquina.

Comentários mais recentes

Nenhum comentário encontrado.

Concordância entre modelos GenAI

Navegue por Tópicos

Compartilhe

Concordância entre modelos de linguagem na avaliação da clareza das respostas

Taxa Concordância na Resposta

Executando o Teste e Coletando Dados

Avaliamos a concordância das respostas com LLMs

Pipeline de execução (cadeia de tarefas)

Execução da avaliação

Resultados preliminares

Navegue por Tópicos

Compartilhe

Hellem Correa

Gostou? Deixe seu comentário aqui...

Contato

(62) 23259-4202

ligo@goias.gov.br

Localização

Laboratório de Inovação Goiás - LIGO - Av. Ver. José Monteiro, 2233 - Bloco G - St. Nova Vila, Goiânia - GO, 74653-900
Ver no mapa

Institucional

Biblioteca

Programas