sexta-feira, 4 de novembro de 2016

MINISTÉRIO DA EDUCAÇÃO
INSTITUTO NACIONAL DE ESTUDOS E PESQUISAS EDUCACIONAIS ANÍSIO TEIXEIRA

DIRETORIA DE AVALIAÇÃO DA EDUCAÇÃO BÁSICA – DAEB
NOTA TÉCNICA
Assunto: TRI (Teoria de Resposta ao Item)
Referência:

A decisão de implementar no Exame Nacional do Ensino Médio (ENEM) a Teoria de Resposta ao Item (TRI) teve duas finalidades principais: (1) permitir a comparabilidade dos resultados entre os anos e (2) permitir a aplicação do Exame várias vezes ao ano.
A comparação dos resultados entre avaliações é possível na medida em que, com a TRI, uma escala métrica é estabelecida. Assim como existem escalas padrões para mensurar comprimento (metro) e temperatura (Celsius), com a TRI desenvolve-se uma escala padrão de conhecimento. As provas, nas avaliações educacionais, são instrumentos de medida do conhecimento, comumente denominado de traço latente. Por sua natureza, os conhecimentos adquiridos pelos estudantes não podem ser mensurados diretamente, mas é possível utilizar instrumentos de medida que buscam mensurá-los indiretamente. Essa é a fundamentação da Teoria da Medida e é ela que embasa a construção também de instrumentos psicológicos que buscam medir: inteligência, depressão, personalidade etc.
O uso da TRI em avaliações educacionais teve início no Brasil com o Sistema de Avaliação da Educação Básica (SAEB) em 1995 e, posteriormente, foi implementado também no ENCCEJA, Prova Brasil e ENEM. No âmbito internacional, a TRI vem sendo utilizada largamente por diversos países: Estados Unidos, França, Holanda, Coréia do Sul, China, sem falar nos países participantes do PISA (Programa Internacional de Avaliação de Estudantes).
Um dos grandes exemplos de avaliação utilizando a TRI é o exame de proficiência em língua inglesa (TOEFL). Este exame surgiu em 1964 e é amplamente utilizado em todo o mundo. Desde o ano de sua origem, este exame já avaliou mais de 25 milhões de alunos e tem sido administrado por mais de 4.500 centros em 165 país do mundo.
No TOEFL, os alunos marcam o horário em um dos centros credenciados e podem realizá-lo várias vezes ao ano. A prova é adaptativa, realizada no computador, e cada candidato responde a um conjunto de itens (questões) diferentes. Apesar de em cada aplicação o candidato receber uma prova distinta, todos os resultados são comparáveis e considerados isonômicos.
Outro exame bastante importante e mais semelhante ao ENEM é o SAT (Scholastic Aptitude Test ou Scholastic Assessment Test). Este é um exame educacional padronizado dos Estados Unidos, aplicado a estudantes do Ensino Médio, que serve de critério para admissão nas universidades norte-americanas. O exame é aplicado sete vezes ao ano, em outubro, novembro, dezembro, janeiro, março (ou abril), maio e junho. Estudantes de outros países também podem prestá-lo, caso estejam interessados em ingressar em uma das universidades que aceita os resultados do SAT. Novamente, apesar de aplicações realizadas em momentos distintos e com provas diferentes, a existência de uma escala padrão possibilita a comparabilidade de desempenhos.

Um pouco mais sobre TRI
Usualmente, quando desejamos medir a proficiência de um aluno em determinada área do conhecimento, fazemos uso do escore (número de acertos) do aluno em um teste com um determinado número de itens (questões). Os itens são analisados através de parâmetros denominados de discriminação e de dificuldade, que dependem fundamentalmente do grau de dificuldade do teste, como também depende o escore do aluno, e do grupo de respondentes. Comparações entre desempenhos de alunos submetidos a diferentes provas são difíceis de serem realizadas. Esta é a Teoria Clássica dos Testes (TCT).
Para contornar estas dificuldades, e também para permitir uma medida mais apropriada da proficiência do aluno, foi desenvolvida a TRI, cujo foco principal, como bem diz o seu nome, é o item e não o teste como um todo. Dentro do contexto da TRI, a medida de proficiência de um aluno não depende dos itens apresentados a ele e os parâmetros de discriminação e de dificuldade do item não dependem do grupo de respondentes. Em outras palavras, um item mede determinado conhecimento, independentemente de quem o está respondendo, e a proficiência de um aluno não depende dos itens que estão sendo apresentados a ele.
A TRI é um conjunto de modelos que relacionam a probabilidade de um aluno apresentar uma determinada resposta a um item, com sua proficiência e características (parâmetros) do item. O modelo utilizado no ENEM é o modelo logístico de três parâmetros que, além dos parâmetros de discriminação e de dificuldade, também faz uso de um parâmetro para controlar o acerto casual. Este último parâmetro tem um papel bastante importante nas avaliações com itens de múltipla escolha, caso do ENEM.
O modelo logístico da TRI parte do princípio de que quanto maior a proficiência do respondente, maior a sua probabilidade de acerto, traço latente acumulativo. O seu parâmetro de dificuldade é medido na mesma escala da proficiência, fato este que permite a comparabilidade entre resultados de diferentes testes e a construção e interpretação de escalas de proficiência, como a escala nacional de proficiência do SAEB construída pelo INEP/MEC para Matemática e Língua Portuguesa (www.inep.gov.br). Uma outra leitura para esse parâmetro, a qual nos parece mais apropriada, é dizer que ele representa a proficiência mínima que um respondente deve possuir para que sua probabilidade de acerto seja alta, ou seja, ele poderia ser chamado de “proficiência do item”.
Para exemplificar, vamos supor que desejemos medir a altura de uma pessoa, em metros, por meio de um questionário. Com um conjunto de perguntas seríamos capazes de definir com uma boa precisão a altura da pessoa. Uma pergunta (item) que poderia ser feita é “Você consegue guardar a bagagem no porta-malas do avião?”. Podemos imaginar que uma pessoa para responder sim para este item deve ter pelo menos 1,65m. Esta seria então a “altura” do item. Um outro item seria: “Você acha que se daria bem em um time de basquete?”. A altura deste item seria bem maior do que 1,65m. Ao final de um conjunto de respostas, seria possível saber a altura do respondente. O importante a ressaltar aqui é que não existe um único conjunto de questões capazes de medir a altura, ou seja, é possível medir a altura de maneira isonômica a partir de provas diferentes, ou seja, a partir de um conjunto diferente de questões. Itens de mesma “altura” serão respondidos de maneira igual por pessoas de mesma altura. Por isso, pode-se dizer que os resultados são comparáveis. Esta é a grande inovação da Teoria de Resposta ao Item utilizada no Enem, só que ao invés de medir altura, o Enem mede a proficiência de estudantes do Ensino Médio.
O parâmetro de discriminação, como já diz o seu nome, deve ser um valor mínimo de modo a garantir que respondentes com proficiências diferentes tenham probabilidades
diferentes de acerto. O grau de informação do item está diretamente relacionado com esse parâmetro.
A elaboração de uma boa prova exige o conhecimento dos parâmetros dos itens. Isto é conseguido através de pré-testagens de itens em amostras apropriadas de alunos nas quais estimamos os parâmetros dos itens em uma mesma escala de proficiência. Deste modo, posicionamos os itens em uma escala de acordo com o nível de proficiência que eles exigem.
O conjunto desses itens passa a formar um banco de itens na escala de proficiência desejada e a partir dele podemos construir um ou mais testes com graus de dificuldade apropriados para atender os objetivos de uma ou mais avaliações. O importante é que as proficiências de alunos submetidos a esses diferentes testes são medidas na mesma escala e, portanto, comparáveis entre si. Da mesma forma, as medidas que se obtêm da proficiência de um aluno submetido a dois testes construídos com itens desse banco serão iguais.
Por último, vale a pena ressaltar que em avaliações onde o acerto casual é possível, caso do ENEM, a medida de proficiência da TRI leva em conta não só o número de acertos, mas também o padrão de respostas do aluno. Em outras palavras, dois alunos com o mesmo escore podem receber do TRI diferentes valores de proficiência. Receberá maior proficiência aquele aluno que apresentar respostas aos itens de forma mais coerente com o construto que está sendo medido.

Dalton Francisco de Andrade
Coordenador-Geral de Informações e Indicadores Educacionais

Camila Akemi Karino

Coordenadora-Geral de Instrumentos e Medidas