Entre significância estatística e importância científica: Qual a ciência que queremos?

Por Vitor Hugo Klein Junior                                                                                                   Pesquisador do Grupo Strategos  – Esag / UDESC

Para ouvir o áudio do texto com o autor, clique aqui.

A ciência está em crise. Não é uma crise de produção. Esta vai de vento em popa: A quantidade de jornais e publicações cresce, patentes são requeridas, e produtos e royalties são gerados. A crise que me refiro é uma crise da capacidade de julgamento dos cientistas. Esta foi a conclusão a que chegaram os pesquisadores Stephen Ziliak e Deirdre McCloskey. Segundo eles, mais de 80% dos artigos científicos – em campos que variam da economia à medicina, biologia e agronomia – usam equivocadamente testes de significância estatística em suas análises. Não há dúvida, a estatística é a ferramenta por excelência por trás dos avanços científicos e tecnológicos alcançados pela humanidade nos últimos três séculos. E é aí que mora o problema.

Ziliak e McCloskey demonstram que cientistas cometem um erro ao basear suas decisões sobre o que é científico, e relevante em termos práticos, em padrões estritos de testes de significância estatística. Segundo os autores, este erro tem causado problemas econômicos, injustiças e até mesmo a perda de vidas. Vou tentar sintetizar o argumento dos autores aqui.

De modo simplificado, a significância estatística é um método usado para determinar se o efeito observado numa pesquisa ocorre ou não ao acaso. O método serve, dessa forma, para testar hipóteses de pesquisa. No entanto, os padrões adotados do que é significante estatisticamente não é, de acordo com Ziliak e McCloskey, suficiente ou mesmo necessário para se avaliar a relevância prática dos resultados obtidos em experimentos. Os autores usam um exemplo simples para explicar como a confusão ocorre. Suponhamos que nossa mãe deseje perder peso e peça nossa ajuda para escolher qual a melhor opção de pílula de emagrecimento. Duas opções são oferecidas, e nossa mãe só pode escolher uma destas. As pílulas têm preços e efeitos colaterais idênticos, mas variam em sua capacidade de redução do peso e na precisão de obtenção desses resultados. A primeira tem a capacidade de reduzir 20 kg em média, mas sua precisão é incerta, variando 10 kg para cima ou para baixo. A segunda pílula tem a capacidade de reduzir 5 kg em média, mas é mais precisa, variando somente 0,5 kg para cima ou para baixo. Supondo, como foi dito, que os efeitos colaterais das pílulas sejam iguais, qual pílula você escolheria? Apesar de a primeira ser uma escolha plausível, dado que o que nossa mãe quer é emagrecer, essa não seria a escolha da maioria dos cientistas de acordo com o que descobriram Ziliak e McCloskey. De 8 a 9 entre 10 publicações escolheriam a pílula mais precisa, ou seja, a que apresenta menor variância em seu efeito, pois este é o critério de relevância estatística (5%) que estabelece e define o que é considerado “científico” entre os pesquisadores de diferentes disciplinas. Ou seja, usado ao pé da letra, o critério de significância estatística adotado pela maioria das revistas científicas na escolha de quais artigos devem ser publicados, falha em capturar nuances importantes envolvidas em uma análise criteriosa das hipóteses de pesquisa. Para ter uma ideia do impacto desse equívoco, basta relembrar o caso do medicamento Vioxx, um analgésico retirado do mercado em 2004 após descobertas de que ele causava problemas cardíacos, levando a morte muitos dos seus usuários. A Merck, dona da patente do medicamento, havia omitido em suas publicações dados de testes, de modo a atender o critério de significância estatística.  Embora o caso aponte para uma simples falsificação de dados, Ziliak e McCloskey lembram que, apesar de os cientistas terem reportado que cinco pacientes tomando Vioxx teriam sofrido ataques cardíacos, comparado a um que tomava naproxeno (droga genérica usada para grupo de controle), o artigo foi aprovado porque os efeitos não atingiram a linha de significância estatística de 5% definida pelo periódico Annals of Internal Medicine. Isto é, os casos de ataque cardíaco não foram considerados estatisticamente relevantes. A manipulação dos dados passou, dessa forma, despercebida por causa da visão equivocada de que testes de significância estatística se equivalem à relevância científica.

A crise de julgamento da ciência, em suas diversas áreas, parece ter parte de suas raízes fincadas na perversa pressão por publicações. Em alguns casos, essa pressão por conformidade às normas, leva editores de revistas respeitáveis a sugerir o uso incorreto de testes de significância, pois esta seria a prática legitimada entre os pares. Para combater fraudes e outros tipos de interferência (bias) ou erros, alguns pesquisadores vêm sugerindo algumas práticas que englobam o que chamam de p-diligence ou slow science. Entre as práticas sugeridas estão o uso de análises adicionais para testar a robustez dos resultados de pesquisa, o uso de diferentes critérios de exclusão e métodos estatísticos, à criação de controles que avaliem a ocorrência de erro humano, e a investigação de aspectos menos interessantes referentes aos dados coletados.  Ziliak e McCloskey capitaneiam, no entanto, um movimento pela recuperação do julgamento como o padrão ouro da ciência. Para eles, os testes de significância estatística nunca devem ser confundidos com relevância científica, e deveriam ser apenas uma pequena parte de uma pesquisa que envolve preocupações com o tamanho e a importância das relações entre variáveis. Isso significa dizer, voltando ao exemplo da pílula para nossa mãe, que o resultado mais relevante cientificamente nem sempre é o mais preciso. Isso também significa dizer, no caso do Vioxx, que os revisores do Annals of Internal Medicine deveriam ter questionado e investigado a fundo os casos de ataque cardíaco e a relação entre estes e o medicamento testado.

A mudança nos padrões de avaliação científica está longe de ser uma tarefa trivial. Ziliak e McCloskey lembram que o uso equivocado de testes de significância estatística está em voga há mais de 85 anos. Tais fatos não devem, entretanto, abalar a ciência. Ao contrário, a pesquisa de Ziliak e McCloskey serve de alerta e estímulo para que nós – pesquisadores e consumidores – reavaliemos qual o tipo de ciência desejamos e o que é preciso para colocá-la em prática.

Para ler mais sobre o tópico, acesse:     

Starbuck, W. H. (2013) ´Why and where do academics publish?

Ziliak, S. T. e McCloskey, D. N. (2008) The Cult of Statistical Significance: How the Standard Error Costs Us Jobs, Justice, and Lives.

Nuzzo, R. (2014). Scientific methods: Statistical errors

Um comentário sobre “Entre significância estatística e importância científica: Qual a ciência que queremos?

  1. Pingback: A realidade dos números: Quatro atitudes | Cientistas descobriram que…

Deixe um comentário