Luís Filipe Redes – Palavras perdidas

These Three Red States Are the Best Hope in Schooling – neste artigo do New York Times, verifica-se que os estados republicanos, especialmente os do sul, mais pobres e mais conservadores, estão a ter mais sucesso educativo do que estados democratas, supostamente mais ricos e com políticas mais “progressistas”.

De 1990 a 2015, os resultados educacionais melhoraram no ensino básico e secundário americano (K12), mas a partir daí começaram a descer. Têm sido atribuídas as seguintes causas: redes sociais, ecrãs e baixa assunção de responsabilidades na educação (“accountability”).

Vários estados deixaram de dar tanta importância à avaliação externa (“testing and outcomes”), mas isso não aconteceu em sítios como Mississippi, Louisiana e Alabama. A lei de No Child Left Behind de 2002, iniciada com G. W. Bush (lembremo-nos de que ele estava a ler com crianças numa escola quando o vieram informar do 11/9), foi abandonada em 2015, no tempo de Barack Obama. Acho que isso se deve a posições ideológicas sobre educação que devem ser revistas.

Alguns diretores de escolas do Mississippi resumem o sucesso no seguinte “não aceitamos escusas”. Pode haver muitas explicações sociais para o insucesso, mas o que interessa é o que se faz perante essas situações.

Dá-se o exemplo dum aluno do 3.º ano que na verdade ainda se encontra no nível 1. É retirado da turma para um grupo de alunos que se concentra numa tarefa: aprender a ler.

Aqui vejo um problema bastante comum a Portugal: as turmas são feitas com critérios burocráticos (passou ou não de ano? e o que significa isso?) e não com base em critérios pedagógicos. Se a diversidade de níveis efetivos de desempenho for muito grande, o professor terá dificuldade em desenvolver as aprendizagens de todos. E o princípio é que não podemos desistir de nenhum deles. Se um aluno está numa turma do 5.º ano e tem um nível de leitura insuficiente, temos que fazer alguma coisa, mas o professor tem a desculpa de que tem de “dar o programa” para os que o conseguem abordar. A nossa ideologia educativa é cheia de palavras de ordem como “individualização da aprendizagem”, “respeito pelos diferentes ritmos de aprendizagem”, mas será que têm alguma efetividade? Haverá, com certeza, escolas onde será esse o caso. Que nos digam, então, como fazem para aprendermos todos uns com os outros.

E os NEE? “Disadvantaged students get extra help but are pushed to succeed on the same terms as everyone else, for that is what the adult job market will demand.”. Pois os testes de avaliação servem para dizer o que um aluno sabe e é capaz de fazer. Assim como as notas. Sou contra os “chumbos”, mas defendo a verdade das notas. Com base nesses números, se forem verdadeiros, podemos tomar decisões sobre como cada aluno deve prosseguir sem deixar aprendizagens essenciais para trás.

Do outro lado: verifica-se que a Universidade da Califórnia se queixa de que muitos dos seus calouros não dominam competências matemáticas equivalentes (estou equiparando) às do 9.º ano escolaridade, mas chegam com classificações da ordem GPA 4.0 (Grade Point Average) que equivalem a 5 e a 18-20 nas nossas escalas.

Isto tem a ver com a tal manipulação das desculpas referidas acima: “Colleges have accepted dubious claims of disability so that students can, for example, get extra time for tests. The Atlantic reports that 38 percent of Stanford undergraduates are registered as having a disability.”

A verdade e a autenticidade das classificações são um problema de informação; se não distinguem nada, não servem para nada. Para os alunos mais fracos, notas desajustadas são um presente envenenado, que deixam de valer no mercado das apreciações precisamente por lhes terem sido atribuídas. É ao fim e ao cabo uma coisa muito fiduciária.

Este artigo foi publicado no blogue https://semrede.blogs.sapo.pt/ em julho. Coloquei-o aqui como ponto de partida para um desenvolvimento mais extenso do tema dos itens de avaliação.

O exame de Português do 12.º inclui questões de múltipla escolha com uma proporção elevada na cotação da prova, o que levantou objeções por parte dos professores. Por exemplo, a professora Fátima Inácio Gomes critica o peso que essas questões têm no resultado final comparativamente a outros itens que exigem a mobilização de mais conhecimentos, de capacidade de escrita e de raciocínio – ver comentário feito no blogue O meu quintal. Professores ligados à Associação de Professores de Português têm referido o peso de itens de seleção nestes testes de avaliação externa como um problema. Aqui, limito-me a desenvolver livremente os efeitos do acaso nos resultados.

O teste inclui 7 itens de 4 alternativas. Fátima Inácio acha que as questões de múltipla escolha não deviam ter a mesma cotação que as que exigem resposta escrita. E acrescenta a possibilidade de os alunos acertarem ao acaso. De facto, há uma elevada probabilidade de alunos ignorantes acertarem em vários dos 7 itens. Sabemos que há 25% de hipóteses de acertarem em cada item, mas qual a probabilidade de a sorte acontecer em 1, 2, 3 ou mais dos 7 itens? Fiz os cálculos: em 1 dos 7, 87%; em 2, 56%; em 3, 25%, em 4, 7%; em 5 dos 7, 1%; em 6, 0,1%; em todos os 7 itens, 0,01%. A probabilidade de falhar todos os 7 itens é só de 13%. Cálculos, aqui.

Verificando-se que 2, ou mesmo 3 questões, têm uma probabilidade elevada de acerto ao acaso, superior à de falhar em todas as 7, não deveria este facto refletir-se na cotação dos itens e na leitura dos resultados dos testes? Não constitui uma injustiça que haja alunos que respondam ao acaso com o mesmo sucesso de alunos cujo desempenho resulta de um conhecimento efetivo, facto irremediável, pois não podemos distinguir uns dos outros? Se projetarmos estas probabilidades sobre o conjunto dos alunos que fizeram o teste, suponhamos um total de 80000, cerca de 60000 terão acertado em 2 das 7 por mero acaso, recebendo 26 em 200 pontos. 13, 26 ou 39 pontos atribuídos cegamente poderão ter efeitos perversos na seleção dos alunos para o Ensino Superior.

Mas ao totoloto destas 7 questões, acrescenta-se ainda uma de correspondência com 11% (1/9) e outra de seleção de parágrafos, com 10% (1/10) que reforçam o papel da sorte no teste envolvendo 91 num total de 200 pontos, a que acrescem 26 pontos em 2 itens descartáveis.

Que validade tem a informação que o teste nos dá sobre o desempenho dos alunos? Por exemplo, não temos a garantia de que os alunos que acertaram na questão 4 saibam o que é um deíctico, que na 5, saibam identificar uma subordinada substantiva completiva e etc., porque em cada uma dessas questões há ¼ de probabilidade de acerto e de ¾ de falhanço. Um aluno que no item 6 do Grupo I, escolheu os três parágrafos ao acaso e acertou, não teve nenhuma sorte especial, como a de quem ganha o Euromilhões, mas apenas de 10% de hipóteses. Daqui resulta que não podemos distinguir, em cada um desses itens, se se trata de um assunto muito bem ou muito mal trabalhado nas escolas ou se de um em que o acaso interveio.

Há maneiras de diminuir o efeito do acaso em testes com itens de múltipla escolha. Se o teste é constituído só por itens desse tipo, pode haver níveis de desempenho que considerem o número de questões certas e não apenas pontos atribuídos item a item. No caso das 7 questões acima referidas, um examinando que tivesse acertado apenas a 2, deveria ter 0 no conjunto das 7. Podemos também penalizar as questões erradas na medida da probabilidade de acerto e solicitar aos alunos que não respondam ao item se não pensarem que têm uma resposta certa.

A opção pela melhor pontuação nos itens alternativos estende efetivamente a cotação do teste para além dos 200 pontos, ao mesmo tempo que exclui questões de menor desempenho, e constitui também um fator de sorte, na medida em que ao examinando não é requerido saber em quais teve menos sucesso. Assim, naqueles 9 itens de seleção, se respondidos ao acaso, que é o que acontece em geral quando se falha, poderão ser excluídos dois em que houve azar. A manter-se a opção, a escolha deveria ser da responsabilidade do examinando e não feita a posteriori na classificação.

Finalmente, fiz uma simulação de 50 alunos a responderem aleatoriamente às 9 questões de seleção, incluindo já a oferta final de exclusão de 2 respostas erradas. O resultado foi o seguinte:

Neste ensaio aleatório, verifica-se que em média os alunos conseguem 27% da pontuação nos itens de seleção, isto é 24,7 dos 91 pontos, que corresponde a 24,7/200, considerando a totalidade do exame. O melhor obtém ao acaso 65/200.

Embora a sorte e o azar façam parte da vida, creio que os processos de avaliação devem diminuir o seu efeito tanto quanto possível e os itens de seleção podem ajudar a circunscrever o objeto, desde que o fator acaso seja explicitamente considerado. Como escreve Miguel Esteves Cardoso,

“Admitir que se tem sorte é reconhecer que se recebeu mais do que se merecia: uma admissão dificílima para quem passa a vida a achar que só tem 10 por cento do que merece.” – “A sorte esteja convosco”, Público, 20 de Julho de 2025.

Contudo, os itens de seleção têm várias vantagens, permitem circunscrever com maior precisão o âmbito da resposta, são de classificação mais rápida e cómoda e oferecem vários tipos de questões como as de escolha múltipla, de correspondência e de ordenação. Esta objetividade, para além de ser prejudicada pelo fator acaso, tem também a falha de funcionar inicialmente ao nível do reconhecimento e não ao da evocação do conteúdo pretendido, isto é, não é solicitado ao aluno que traga nova informação, mas apenas que selecione e organize a que se lhe apresenta. Posta esta limitação, podem mesmo assim ser formulados problemas complexos para serem respondidos por seleção.

Para avançar com este tema, interessa-me:
- Verificar como este tipo de itens é utilizado em provas de avaliação externa em outros sistemas educativos.
- Dar conta dos procedimentos a ter para controlar o fator acaso em provas que incluam itens de seleção.

Autor: Luís Filipe Redes

Sucesso na aprendizagem

Sorte e azar no exame de Português do 12.° ano