Fichamento: Statistical Models and Shoe Leather
David A. Freedman (1991)
Freedman, D. A. (1991). Statistical models and shoe leather. Sociological Methodology, 21, 291–313. https://www.jstor.org/stable/270939
Última atualização: 2026-04-20 Modelo: Claude 3.5 Sonnet (20241022) DeepSeek Gerado em: 2026-04-20T15:30:00-03:00
Introdução (pp. 291–293)
0.1 Contexto histórico e avaliação da regressão [§1–§3]
O artigo inicia situando o uso de modelos de regressão nas ciências sociais desde 1899, quando Yule publicou um estudo sobre as causas do pauperismo. Freedman observa que, atualmente, modelos de regressão são empregados para construir argumentos causais em uma ampla variedade de aplicações, e que talvez seja o momento de avaliar os resultados. Embora respostas definitivas não sejam possíveis, o autor adianta uma visão predominantemente negativa. Ele contrasta o trabalho de John Snow sobre cólera—apresentado como um caso de sucesso do raciocínio científico baseado em dados não experimentais—com histórias de fracasso, sugerindo que a técnica estatística raramente substitui um bom desenho de pesquisa, dados relevantes e o teste de predições contra a realidade em diversos contextos.
Para situar sua própria posição, Freedman propõe uma escala rudimentar de quatro pontos sobre a eficácia da regressão: (1) geralmente funciona, embora imperfeita; (2) funciona às vezes nas mãos de praticantes habilidosos, mas não é adequada para uso rotineiro; (3) pode funcionar, mas ainda não o fez; (4) não pode funcionar. Ele nota que livros-texto, depoimentos em tribunais e entrevistas na imprensa tendem a colocar a regressão na categoria 1, enquanto a categoria 4 lhe parece excessivamente pessimista. Sua própria avaliação situa-se entre as categorias 2 e 3, ressaltando que bons exemplos são difíceis de encontrar.
0.2 Declarações de fé e circularidade dos modelos [§4–§6]
Freedman reconhece que questionar o valor da regressão pode soar como negar o valor dos dados, dada a dominância do paradigma de modelagem. Ele faz, portanto, algumas declarações de fé: a ciência social é possível, conclusões sólidas podem ser extraídas de dados não experimentais, e a estatística pode desempenhar um papel útil—por exemplo, fornecendo sumários descritivos de conjuntos de dados multidimensionais. Contudo, ele não acredita que a regressão possa carregar grande parte do peso em um argumento causal, nem que equações de regressão, por si sós, ajudem substancialmente no controle de variáveis de confusão. Argumentos baseados na significância estatística de coeficientes e interpretações causais destes são, em geral, suspeitos. Desenvolvimentos mais recentes—mínimos quadrados em dois estágios, modelagem de variáveis latentes e testes de especificação—podem ser interessantes, mas ajustes técnicos não resolvem problemas que se situam em um nível mais profundo. Freedman vê muitas ilustrações de técnica, mas poucos exemplos reais com validação dos pressupostos de modelagem.
O autor argumenta que argumentos causais baseados em testes de significância e regressão são quase necessariamente circulares. Para derivar um modelo de regressão, é preciso uma teoria elaborada que especifique as variáveis do sistema, suas interconexões causais, a forma funcional das relações e as propriedades estatísticas dos termos de erro (independência, exogeneidade etc.). Dado o modelo, mínimos quadrados e suas variantes podem estimar parâmetros e decidir se são zero. Entretanto, o modelo não pode, em geral, ser tomado como dado, porque a teoria corrente nas ciências sociais não fornece o nível de detalhe técnico necessário para derivar especificações.
0.3 Estratégia alternativa de validação [§7]
Freedman descreve uma estratégia de validação alternativa, menos dependente de teoria prévia: tratar o modelo como uma caixa-preta e testá-lo contra a realidade empírica. O modelo prediz novos fenômenos? Prediz os resultados de intervenções? As predições estão corretas? Os testes estatísticos usuais são substitutos pobres porque dependem de hipóteses mantidas fortes. Sem o tipo certo de teoria ou validação empírica razoável, as conclusões extraídas dos modelos devem ser bastante suspeitas.
O autor anuncia que buscará exemplos de bom trabalho empírico e estratégias de pesquisa que não envolvam regressão, recorrendo à epidemiologia—campo cujos problemas são similares aos enfrentados pelas ciências sociais contemporâneas. O trabalho de Snow sobre cólera será revisado como exemplo de ciência real baseada em dados observacionais, sem recurso à regressão. Uma comparação será feita com estudos contemporâneos de regressão em epidemiologia e ciências sociais, o que pode iluminar as fraquezas dos métodos de regressão. A possibilidade de soluções técnicas para os modelos será discutida, outra literatura será revisada, e conclusões tentativas serão extraídas.
Exemplos da Epidemiologia (pp. 293–300)
0.4 Precedentes históricos: Louis e o método quantitativo [§8–§9]
Freedman recorda que métodos quantitativos no estudo de doenças precedem Yule e a regressão. Em 1835, Pierre Louis publicou um estudo marcante sobre a sangria como cura para pneumonia, comparando desfechos de grupos de pacientes sangrados em diferentes momentos. Louis concluiu que a sangria tinha um efeito positivo, encurtando a duração da doença, mas muito menos do que se acreditava. O achado e o método estatístico foram veementemente denunciados por médicos contemporâneos, que consideravam um ultraje ao bom senso invocar a inflexibilidade da aritmética para escapar das incursões da imaginação. Freedman observa que Louis pode ter iniciado uma revolução no pensamento sobre pesquisa empírica em medicina, ou seu livro pode apenas fornecer uma linha de demarcação conveniente. O certo é que, em poucas décadas, a “inflexibilidade da aritmética” ajudou a identificar as causas de algumas doenças importantes e os meios para sua prevenção, sem que a modelagem estatística desempenhasse quase nenhum papel nesses desenvolvimentos.
0.5 John Snow e a teoria da transmissão hídrica do cólera [§10–§13]
Freedman situa o leitor na década de 1850, quando John Snow demonstrou que o cólera era uma doença infecciosa transmitida pela água. Poucos anos depois, Ignaz Semmelweis descobriu como prevenir a febre puerperal, e por volta de 1914 Joseph Goldberger encontrou a causa da pelagra. Epidemiologistas posteriores demonstraram, pelo menos no balanço dos argumentos, que a maior parte do câncer de pulmão é causada pelo tabagismo. Na epidemiologia, o raciocínio cuidadoso sobre dados observacionais levou a progressos consideráveis. (Histórias de fracasso no campo serão mencionadas adiante.)
Para apreciar a realização de Snow, Freedman pede que o leitor se transporte para uma época em que não se sabia que germes causavam doenças. Microscópios existiam, mas com baixa resolução, e a maioria dos patógenos humanos não podia ser vista. O isolamento de microrganismos estava décadas no futuro. A teoria da infecção tinha alguns adeptos, mas a ideia dominante era a de que as doenças resultavam de “miasmas”: partículas venenosas inanimadas minúsculas no ar. (A crença de que os venenos causadores de doenças estavam no solo viria depois.)
Snow estudava o cólera, que chegara à Europa no início dos anos 1800 em ondas epidêmicas, atacando suas vítimas subitamente e sendo frequentemente fatal. Os primeiros sintomas eram vômito e diarreia aguda. Com base no curso clínico da doença, Snow conjecturou que o agente ativo era um organismo vivo que entrava no canal alimentar com comida ou bebida, multiplicava-se no corpo e gerava algum veneno que fazia o corpo expelir água. O organismo saía do corpo com essas evacuações, voltava ao suprimento de água e infectava novas vítimas.
0.6 Evidências convergentes para a teoria de Snow [§14–§18]
Snow reuniu uma série de argumentos persuasivos para sua conjectura. Por exemplo, o cólera se espalhava pelas rotas do comércio humano: se um navio partia de um país livre de cólera para um porto afetado, os marinheiros só adoeciam após desembarcar ou receber suprimentos. A doença atingia mais duramente os pobres, que viviam em habitações mais superlotadas e com pior higiene. Esses fatos são consistentes com a teoria da infecção e difíceis de explicar pela teoria dos miasmas.
Snow também fez muito trabalho de detetive científico. Em uma das primeiras epidemias na Inglaterra, ele identificou o primeiro caso: um marinheiro recém-chegado de Hamburgo, onde a doença prevalecia. Encontrou também o segundo caso: um homem que ocupara o quarto onde o marinheiro estivera. Mais evidência para a teoria da infecção.
Em epidemias posteriores, Snow encontrou evidências ainda melhores. Estudou dois prédios de apartamentos adjacentes, um fortemente atingido pelo cólera, o outro não. Descobriu que o suprimento de água do primeiro estava contaminado por escoamento de privadas, enquanto o do segundo era muito mais limpo. Realizou também vários estudos “ecológicos” para demonstrar a influência do suprimento de água na incidência de cólera. Na Londres do século XIX, havia muitas companhias de água diferentes servindo diferentes áreas da cidade, e algumas áreas eram servidas por mais de uma companhia. Várias companhias captavam água do Tâmisa, que era intensamente poluído por esgoto. As áreas de serviço dessas companhias tinham taxas muito mais altas de cólera. A companhia de água de Chelsea era uma exceção, mas possuía um sistema de filtração excepcionalmente bom.
0.7 O episódio da bomba de Broad Street [§19–§20]
Na epidemia de 1853–54, Snow elaborou um mapa pontual mostrando onde os casos ocorriam e constatou que se aglomeravam ao redor da bomba de Broad Street. Ele identificou a bomba como fonte de água contaminada e convenceu as autoridades públicas a remover a alavanca. Segundo a fábula, remover a alavanca interrompeu a epidemia e provou a teoria de Snow. Na verdade, ele conseguiu que a alavanca fosse removida e a epidemia de fato parou. Contudo, como o próprio Snow demonstrou com clareza, a epidemia já estava diminuindo de qualquer forma, e ele atribuiu pouco peso ao episódio.
Para os propósitos do artigo, o que Snow realmente fez em 1853–54 é ainda mais interessante que a fábula. Por exemplo, havia um grande asilo de pobres na área de Broad Street com poucos casos de cólera. Por quê? Snow descobriu que o asilo tinha seu próprio poço e que os internos não bebiam água da bomba. Havia também uma grande cervejaria sem nenhum caso. A razão é óbvia: os trabalhadores bebiam cerveja, não água. (Mas se alguém quisesse água, também havia um poço nessas instalações.)
0.8 O “grande experimento” natural das companhias de água [§21–§26]
Para preparar o argumento principal de Snow, Freedman retrocede um pouco. Em 1849, a companhia de água de Lambeth havia movido seu ponto de captação rio acima no Tâmisa, acima dos principais pontos de descarga de esgoto, de modo que sua água era relativamente pura. A companhia Southwark e Vauxhall, porém, manteve seu ponto de captação rio abaixo das descargas de esgoto. Uma análise ecológica dos dados da epidemia de 1853–54 mostrou que o cólera atingiu mais intensamente as áreas servidas pela Southwark e Vauxhall e poupou amplamente as áreas de Lambeth.
Freedman então cita longamente Snow, que explica que, embora os dados ecológicos fornecessem evidência muito forte da influência da água contaminada por esgoto na propagação do cólera, a questão não terminava aí. A mistura do suprimento de água das duas companhias em uma extensa parte de Londres permitiu que o assunto fosse peneirado de modo a produzir a prova mais incontroversa possível. Nos subdistritos supridos por ambas as companhias, a mistura do suprimento era da mais íntima natureza. Os canos de cada companhia percorriam todas as ruas e entravam em quase todos os pátios e becos. Algumas casas eram supridas por uma companhia e outras pela outra, conforme a decisão do proprietário ou ocupante na época em que as companhias estavam em competição ativa. Em muitos casos, uma única casa tinha um suprimento diferente do das casas vizinhas de cada lado. Cada companhia abastecia tanto ricos quanto pobres, tanto casas grandes quanto pequenas; não havia diferença nem na condição nem na ocupação das pessoas que recebiam a água das diferentes companhias. Era evidente que, se a diminuição do cólera nos distritos parcialmente supridos com água melhorada dependesse desse suprimento, as casas que o recebiam gozariam de todo o benefício da diminuição da doença, enquanto as casas supridas com água de Battersea Fields sofreriam a mesma mortalidade que sofreriam se o suprimento melhorado não existisse. Como não havia diferença alguma nas casas ou nas pessoas que recebiam o suprimento das duas companhias, nem em quaisquer das condições físicas que as cercavam, era óbvio que nenhum experimento poderia ter sido concebido que testasse mais cabalmente o efeito do suprimento de água sobre o progresso do cólera do que este, que as circunstâncias colocaram pronto diante do observador.
O experimento, ademais, era na mais grandiosa escala. Não menos que trezentas mil pessoas de ambos os sexos, de todas as idades e ocupações, e de todas as classes e condições, desde fidalgos até os muito pobres, foram divididas em dois grupos sem sua escolha e, na maioria dos casos, sem seu conhecimento; um grupo sendo suprido com água contendo o esgoto de Londres, e com ele o que quer que tivesse vindo dos pacientes de cólera, o outro grupo tendo água completamente livre de tal impureza.
Para tirar proveito desse grande experimento, tudo o que era necessário era saber o suprimento de água de cada casa individual onde ocorresse um ataque fatal de cólera.
0.9 A Tabela IX de Snow [§27–§28]
Freedman apresenta a Tabela IX de Snow, reproduzida abaixo, que mostra o número de casas, mortes por cólera e mortes por 10.000 casas para as áreas servidas pela Southwark e Vauxhall, pela Lambeth e pelo resto de Londres.
| Companhia / Área | Número de Casas | Mortes por Cólera | Mortes por 10.000 Casas |
|---|---|---|---|
| Southwark e Vauxhall | 40.046 | 1.263 | 315 |
| Lambeth | 26.107 | 98 | 37 |
| Resto de Londres | 256.423 | 1.422 | 59 |
Snow identificou as companhias que abasteciam as casas das vítimas de cólera em sua área de estudo, obtendo assim os numeradores da Tabela 1. Os denominadores foram extraídos de registros parlamentares. Snow concluiu que, se a companhia Southwark e Vauxhall tivesse movido seu ponto de captação como fez a Lambeth, cerca de 1.000 vidas teriam sido salvas. Freedman destaca que Snow foi muito claro sobre a quase-aleatorização como controle para potenciais variáveis de confusão, igualmente claro sobre as diferenças entre correlações ecológicas e correlações individuais, e sua inferência contrafactual é convincente.
0.10 Lições do trabalho de Snow e confirmações posteriores [§29–§31]
Como peça de tecnologia estatística, a Tabela 1 não é notável. Mas a história que ela conta é muito persuasiva. A força do argumento resulta da clareza do raciocínio prévio, da reunião de muitas linhas diferentes de evidência e da quantidade de “shoe leather” (trabalho de campo árduo) que Snow estava disposto a empregar para obter os dados.
Houve mais confirmações posteriores das conclusões de Snow. As epidemias de cólera de 1832 e 1849 em Nova York foram tratadas por métodos tradicionais: exortação da população à temperança, lavagem das ruas com água pura, tratamento dos doentes com sangria e mercúrio. Após a publicação do livro de Snow, a epidemia de 1866 foi enfrentada com os métodos sugeridos por sua teoria: ferver a água de beber, isolar os indivíduos doentes e desinfetar suas evacuações. A taxa de mortalidade foi reduzida por um fator de 10 ou mais. Em 1892, houve uma epidemia em Hamburgo. Os líderes de Hamburgo rejeitaram os argumentos de Snow, seguindo Max von Pettenkofer e a teoria dos miasmas: a contaminação do solo causava o cólera. Assim, Hamburgo deu pouca atenção ao seu suprimento de água, mas despendeu grande esforço desenterrando e transportando carcaças enterradas por matadouros. Os resultados foram desastrosos.
0.11 Evidência microbiológica [§32]
Freedman pergunta: e a evidência da microbiologia? Em 1880, Pasteur causou sensação ao mostrar que a causa da raiva era um microrganismo. Em 1884, Koch isolou o vibrião do cólera, confirmando todas as características essenciais do relato de Snow; Filipo Pacini pode ter descoberto esse organismo ainda antes. O vibrião é uma bactéria transmitida pela água que invade o intestino humano e causa cólera. Hoje, a biologia molecular do cólera é razoavelmente bem compreendida: o vibrião produz uma proteína enterotoxina que afeta o metabolismo das células humanas, fazendo-as expelir água. A interação da enterotoxina com a célula foi elucidada, assim como o mecanismo genético usado pelo vibrião para fabricar essa proteína.
0.12 Um contraexemplo moderno: Kanarek et al. (1980) [§33–§36]
Freedman contrasta o trabalho de Snow com um exemplo da epidemiologia moderna, que adotou métodos de regressão, para mostrar como a modelagem pode descarrilar. Em 1980, Kanarek et al. publicaram um artigo no American Journal of Epidemiology argumentando que fibras de amianto na água potável causavam câncer de pulmão. O estudo baseou-se em 722 setores censitários da Área da Baía de São Francisco, com enormes variações nas concentrações de fibras entre setores—fatores de 10 ou mais eram comuns.
Os autores examinaram taxas de câncer em 35 localizações anatômicas, para negros e brancos, homens e mulheres. Controlaram idade por padronização e sexo e raça por tabulação cruzada. Mas a principal ferramenta foi a regressão log-linear, para controlar outras covariáveis (estado civil, educação, renda, ocupação). A causação foi inferida, como de costume, se um coeficiente era estatisticamente significativo após o controle pelas covariáveis.
Kanarek et al. não discutiram seus pressupostos estocásticos—que os desfechos são independentes e identicamente distribuídos dadas as covariáveis. O argumento para a forma funcional foi apenas que “a construção teórica da probabilidade de desenvolver câncer em um certo tempo produz uma função de forma logarítmica”. Freedman e Navidi (1989) levantaram sérias objeções a esse modelo de causação de câncer.
Para câncer de pulmão em homens brancos, o coeficiente de fibras de amianto foi altamente significativo (P < 0,001), e o efeito foi descrito como forte. Na verdade, o modelo prediz um multiplicador de risco de apenas cerca de 1,05 para um aumento de 100 vezes nas concentrações de fibras. Não houve efeito em mulheres ou negros. Ademais, Kanarek et al. não tinham dados sobre tabagismo, que afeta as taxas de câncer de pulmão por fatores de 10 ou mais. Assim, um controle imperfeito sobre o tabagismo poderia facilmente explicar o efeito observado, assim como erros menores na forma funcional. Finalmente, Kanarek et al. rodaram mais de 200 equações; apenas um dos valores P foi inferior a 0,001. O nível de significância real pode, portanto, estar próximo de 200 × 0,001 = 0,20. O argumento baseado no modelo não é bom.
0.13 Contraste entre Snow e Kanarek et al. [§37]
Freedman pergunta qual a diferença entre o estudo de Kanarek et al. e o de Snow. Kanarek et al. ignoraram a falácia ecológica; Snow lidou com ela. Kanarek et al. tentaram controlar covariáveis por modelagem, usando status socioeconômico como proxy para tabagismo. Snow encontrou um experimento natural e coletou os dados de que precisava. O argumento de Kanarek et al. para causação apoia-se na significância estatística de um coeficiente. O argumento de Snow usou lógica e “shoe leather”. Modelos de regressão tornam fácil demais substituir técnica por trabalho.
Exemplos das Ciências Sociais (pp. 300–302)
0.14 Seleção de artigos e características comuns [§38–§40]
Se a regressão é uma metodologia bem-sucedida, argumenta Freedman, o artigo rotineiro em um bom periódico deveria ser uma modesta história de sucesso. Contudo, a situação é outra. O autor relata ter passado algum tempo examinando periódicos americanos líderes em ciência social quantitativa: American Journal of Sociology, American Sociological Review e American Political Science Review. Esses periódicos com revisão por pares aceitam talvez 10% das submissões. Para análise, Freedman selecionou artigos publicados em 1987–88 que colocavam questões de pesquisa razoavelmente claras e usavam regressão para respondê-las. Ele discute três desses artigos, que podem não ser os melhores de seu tipo, mas estão longe de ser os piores—um deles recebeu um prêmio de melhor artigo no American Political Science Review em 1988. Freedman acredita que esses artigos são bastante típicos da boa prática de pesquisa corrente.
0.15 Exemplo 1: Bahry e Silver (1987) sobre a KGB e ativismo [§41]
Bahry e Silver (1987) hipotetizaram que, na Rússia, a percepção da KGB como eficiente dissuadia o ativismo político. O estudo baseou-se em questionários preenchidos por emigrados russos em Nova York. Havia muitos dados faltantes e talvez alguma confusão entre variáveis de resposta e variáveis de controle. Deixando isso de lado, o argumento final era que, após ajuste por covariáveis, sujeitos que viam a KGB como eficiente eram menos propensos a se descrever como ativistas, e essa correlação negativa era estatisticamente significativa.
Freedman aponta que isso poderia ser evidência para apoiar a hipótese de pesquisa do artigo: se você acha a KGB eficiente, você não protesta. Ou a linha de causalidade poderia correr na direção oposta: se você é um ativista, você descobre que a KGB é ineficiente. Ou a associação poderia ser impulsionada por uma terceira variável: pessoas de certos tipos de personalidade são mais propensas a se descrever como ativistas e também mais propensas a descrever a KGB como ineficiente. Correlação não é o mesmo que causação; a técnica estatística, sozinha, não estabelece a conexão. A familiaridade desse ponto não deve obscurecer sua força.
0.16 Exemplo 2: Erikson, McIver e Wright (1987) sobre cultura política estadual [§42]
Erikson, McIver e Wright (1987) argumentaram que, nos EUA, diferentes estados realmente têm culturas políticas distintas. Após controlar por demografia e região geográfica, a adição de variáveis dummy estaduais aumentou o R² para predizer identificação partidária de 0,0898 para 0,0953. O F para entrar as dummies estaduais foi cerca de 8. A base de dados consistia em 55.000 questionários de pesquisas de opinião da CBS/New York Times. Com 40 graus de liberdade no numerador e 55.000 no denominador, P é espetacular.
Por outro lado, os R² são triviais—sem falar no aumento. Os autores argumentaram que as dummies estaduais não são proxies para variáveis omitidas. Como prova, inseriram filiação sindical e constataram que os efeitos estaduais estimados não mudaram muito. Esse argumento apoia a especificação, mas é fraco.
0.17 Exemplo 3: Gibson (1988) sobre intolerância política na era McCarthy [§43–§44]
Gibson (1988) perguntou se a intolerância política durante a era McCarthy foi impulsionada pela opinião das massas ou pela opinião das elites. A unidade de análise era o estado. A legislação foi codificada em uma escala de tolerância/intolerância; havia surveys de opinião de elites e de massas. Segue-se um modelo de caminhos (path model); um coeficiente é significativo, outro não. Gibson concluiu: “De modo geral, parece que as elites, não as massas, foram responsáveis pela repressão da era”.
Dos três artigos, Freedman considerou que o de Gibson tinha a pergunta mais clara e os melhores dados sumários. No entanto, o diagrama de caminhos parece ser um modelo causal extremamente fraco. Ademais, mesmo concedendo o modelo, a diferença entre os dois coeficientes de caminho não é significativa. A conclusão do artigo não decorre dos dados.
Síntese da Posição (pp. 302–304)
0.18 Características comuns dos exemplos [§45–§48]
Nesse conjunto de artigos, e em muitos outros fora do conjunto, o ajuste para covariáveis é feito por regressão; o argumento para causação apoia-se na significância de um coeficiente. Mas os níveis de significância dependem de especificações, especialmente da estrutura de erros. Se os erros não forem independentes ou forem heterocedásticos, as fórmulas convencionais darão respostas erradas. E a especificação estocástica nunca é argumentada em detalhe. (Modelar as covariâncias também não resolve o problema, a menos que o modelo para as covariâncias possa ser validado.)
Freedman resume que cada um dos exemplos possui as seguintes características:
- Há uma questão de pesquisa interessante, que pode ou não ser suficientemente precisa para ser empiricamente testável.
- Dados relevantes são coletados, embora possa haver dificuldade considerável em quantificar alguns conceitos, e dados importantes podem estar ausentes.
- A hipótese de pesquisa é rapidamente traduzida em uma equação de regressão—mais especificamente, na afirmação de que certos coeficientes são (ou não são) estatisticamente significativos.
- Alguma atenção é dada à inclusão das variáveis corretas na equação, embora a escolha de covariáveis geralmente não seja convincente.
- Pouca atenção é dada à forma funcional ou à especificação estocástica; os modelos lineares dos livros-texto são simplesmente tomados como dados.
0.19 Dificuldade de avaliação e validação de pressupostos [§49–§50]
Freedman reconhece que avaliar o uso de modelos de regressão em todo um campo é uma tarefa difícil, sem caminhos bem trilhados. Ele selecionou três artigos que, em sua opinião, são bons dentro de seu gênero e que representam razoavelmente uma classe ampla (embora mal delineada). Esses artigos ilustram alguns obstáculos básicos na aplicação da tecnologia de regressão para fazer inferências causais.
Em Freedman (1987), o autor adotou uma abordagem diferente, revisando uma versão moderna do modelo clássico de aquisição de status. Ele tentou enunciar os pressupostos técnicos necessários para extrair inferências causais de diagramas de caminhos—pressupostos que parecem muito difíceis de validar em aplicações. Também resumiu trabalhos anteriores sobre essas questões. Os modeladores tiveram uma oportunidade ampliada de responder. A análise técnica não foi contestada, e exemplos sérios não foram apresentados.
0.20 Citações de Simon e Fisher [§51–§52]
Se os pressupostos de um modelo não são derivados da teoria, e se as predições não são testadas contra a realidade, então as deduções do modelo devem ser bastante frágeis. No entanto, sem o modelo, os dados não podem ser usados para responder à questão de pesquisa. De fato, a hipótese de pesquisa pode não ser realmente traduzível em uma afirmação empírica, exceto como uma declaração sobre níveis nominais de significância de coeficientes em um modelo.
Freedman cita duas autoridades. Simon (1957, p. 12): “O objetivo … é fornecer uma base clara e rigorosa para determinar quando uma ordenação causal pode ser dita vigorar entre duas variáveis ou grupos de variáveis em um modelo. … Os conceitos … todos se referem a um modelo—um sistema de equações—e não ao mundo ‘real’ que o modelo pretende descrever.” Fisher (1958, p. 190): “Se … escolhermos um grupo de fenômenos sociais sem conhecimento antecedente da causação ou ausência de causação entre eles, então o cálculo de coeficientes de correlação, totais ou parciais, não nos fará avançar um passo na avaliação da importância das causas em operação.”
0.21 Contraste final entre Snow e os modeladores [§53]
Na visão de Freedman, modelos de regressão não são uma maneira particularmente boa de fazer trabalho empírico nas ciências sociais hoje, porque a técnica depende de conhecimento que não possuímos. Investigadores que usam a técnica não estão prestando atenção adequada à conexão—se é que existe alguma—entre os modelos e os fenômenos que estão estudando. Suas conclusões podem ser válidas para o código de computador que criaram, mas as afirmações são difíceis de transferir desse microcosmo para o mundo maior.
Para Freedman, o trabalho de Snow exemplifica um ponto em um contínuo de estilos de pesquisa; os exemplos de regressão marcam outro. Seu julgamento sobre os méritos relativos dos dois estilos é claro—e com ele, algumas recomendações implícitas. Comparações podem ser odiosas, mas Freedman pensa que a pesquisa de Snow permaneceu muito mais próxima da realidade do que os exercícios de modelagem. Snow não estava interessado nas propriedades de sistemas de equações, mas em maneiras de prevenir uma doença real. Ele formulou questões empíricas precisas que podiam ser respondidas usando dados que podiam, com esforço, ser coletados. A cada passo, ancorou seu argumento em fatos teimosos. E expôs sua teoria a testes severos em uma variedade de cenários. Isso pode explicar como ele descobriu algo extraordinariamente importante sobre o cólera, e por que seu livro ainda vale a pena ser lido mais de um século depois.
Soluções Técnicas Podem Resgatar os Modelos? (pp. 304–307)
0.22 A natureza dos problemas e a irrelevância dos ajustes técnicos [§54–§55]
Freedman observa que modelos de regressão muitas vezes parecem ser usados para compensar problemas de mensuração, coleta de dados e desenho de estudo. Quando os modelos são implantados, a posição científica já está quase sem esperança. A confiança em modelos em tais casos é panglossiana. Essa é, pelo menos, sua visão. Em contraste, alguns leitores podem querer defender a técnica de modelagem de regressão: segundo eles, a técnica é sólida e apenas as aplicações são falhas. Outros leitores podem pensar que as críticas à modelagem de regressão são meramente técnicas, de modo que soluções técnicas—estimadores robustos, mínimos quadrados generalizados e testes de especificação—farão os problemas desaparecerem.
A base matemática da regressão é bem estabelecida. A questão de Freedman é se a técnica se aplica aos problemas atuais das ciências sociais. Em outras palavras, os pressupostos são válidos? Ademais, soluções técnicas só se tornam relevantes quando os modelos estão quase certos. Por exemplo, estimadores robustos podem ser úteis se os termos de erro são independentes, identicamente distribuídos e simétricos, mas de caudas longas. Se os termos de erro não são independentes nem identicamente distribuídos, e não há como saber se são simétricos, estimadores robustos provavelmente desviam a atenção das questões reais.
0.23 Ilustração da dificuldade estocástica [§56]
Esse ponto é tão incômodo que Freedman oferece outra ilustração. Suponha que yi = α + εi, os εi têm média 0, e os εi são ou independentes e identicamente distribuídos ou autorregressivos de ordem 1. Então a máquina estatística bem azeitada entra em ação. Contudo, se os εi são apenas uma sequência de variáveis aleatórias, a situação é quase sem esperança—no que diz respeito a erros padrão e testes de hipóteses. Pior ainda se os yi não têm nenhuma genealogia estocástica. A última possibilidade lhe parece a mais realista. Nesse caso, procedimentos estatísticos formais são irrelevantes, e somos reduzidos (ou deveríamos ser) ao pensamento à moda antiga.
0.24 O debate sobre avaliação de programas de treinamento [§57–§59]
Uma discussão bem conhecida sobre soluções técnicas parte da avaliação de programas de treinamento de mão de obra usando dados não experimentais. LaLonde (1986) e Fraker e Maynard (1987) comparam resultados de avaliações baseadas em modelagem com resultados de experimentos. A ideia é ver se modelos de regressão ajustados a dados observacionais podem predizer os resultados de intervenções experimentais. Fraker e Maynard concluem que os resultados indicam que desenhos não experimentais não são confiáveis para estimar a efetividade de programas de emprego. As estimativas de impacto tendem a ser sensíveis tanto à metodologia de construção do grupo de comparação quanto ao modelo analítico usado. Atualmente, não há como garantir a priori que os resultados de estudos de grupo de comparação serão indicadores válidos dos impactos do programa.
Heckman e Hotz (1989) respondem que testes de especificação podem ser usados para descartar modelos que dão predições erradas: “Um procedimento simples de teste elimina a gama de estimadores não experimentais que divergem das estimativas experimentais de impacto do programa. … Assim, embora não definitivos, nossos resultados são certamente encorajadores para o uso de métodos não experimentais na avaliação de programas sociais.”
Freedman aponta que Heckman e Hotz têm em mãos (a) os dados experimentais, (b) os dados não experimentais, e (c) os resultados de LaLonde e de Fraker e Maynard. Eles modelam o viés de seleção nos grupos de comparação não experimentais. Há três tipos de modelos, cada um com duas variantes principais. Estes são ajustados a vários períodos de tempo diferentes, com vários conjuntos de variáveis de controle. Médias de diferentes modelos são permitidas, e há uma “ligeira extensão” de um modelo.
Por sua contagem, 24 modelos são ajustados aos dados não experimentais sobre mulheres beneficiárias do AFDC, e 32 aos dados sobre evadidos do ensino médio. Ex post facto, modelos que passam em certos testes de especificação podem mais ou menos reproduzir os resultados experimentais (até erros padrão muito grandes). No entanto, a verdadeira questão é o que pode ser feito ex ante, antes que a estimativa correta seja conhecida. Heckman e Hotz podem ter um argumento, mas não é forte. Pode até apontar na direção errada. Testar um modelo em 24 conjuntos de dados diferentes poderia abrir uma investigação séria: identificamos uma regularidade empírica que tem algum grau de invariância? Testar 24 modelos em um único conjunto de dados é menos sério.
0.25 A superioridade da replicação e predição [§60–§61]
Freedman argumenta que, de modo geral, a replicação e a predição de novos resultados fornecem um regime de validação mais severo e mais útil do que o teste estatístico de muitos modelos em um único conjunto de dados. Menos pressupostos são necessários, há menos chance de artefato, mais tipos de variação podem ser explorados, e explicações alternativas podem ser descartadas. De fato, levado ao extremo, desenvolver um modelo por testes de especificação simplesmente volta a ser ajuste de curvas—com um conjunto complicado de restrições sobre os resíduos.
Dadas as limitações do conhecimento presente, Freedman duvida que os modelos possam ser resgatados por soluções técnicas. Argumentos sobre o mérito teórico da regressão ou o comportamento assintótico de testes de especificação para escolher uma versão de um modelo em detrimento de outra parecem argumentos sobre como construir usinas de dessalinização tendo a fusão a frio como fonte de energia. O conceito pode ser admirável, os detalhes técnicos podem ser fascinantes, mas pessoas com sede deveriam procurar em outro lugar.
Outra Literatura (pp. 307–310)
0.26 Lieberson (1985) e a dificuldade do balanceamento estatístico [§62–§63]
Freedman reconhece que as questões levantadas não são novas e revisa brevemente literatura recente. Nenhum resumo breve pode fazer justiça a Lieberson (1985), que apresenta uma crítica complexa e sutil do trabalho empírico corrente nas ciências sociais. Freedman oferece uma paráfrase grosseira de uma mensagem importante: quando há diferenças significativas entre grupos de comparação em um estudo observacional, é extraordinariamente difícil, se não impossível, alcançar balanceamento por meio de ajustes estatísticos. Arminger e Bohnstedt (1987, p. 366) respondem descrevendo isso como um caso especial de “má especificação da estrutura de médias causada pela omissão de variáveis causais relevantes” e citam literatura sobre o tópico.
Freedman argumenta que isso trivializa o problema e quase endossa a ideia de corrigir a má especificação elaborando o modelo. No entanto, essa ideia dificilmente funcionará. Os testes de especificação atuais precisam de observações independentes e identicamente distribuídas, e muitas delas; as variáveis relevantes devem ser identificadas; algumas variáveis devem ser tomadas como exógenas; erros aditivos são necessários; e uma forma paramétrica ou semiparamétrica para a função média é requerida. Esses ingredientes raramente são encontrados nas ciências sociais, exceto por suposição. Para modelar um viés, precisamos saber o que o causa e como. Na prática, isso pode ser ainda mais difícil do que a questão de pesquisa original. Alguma evidência empírica é fornecida pela discussão das avaliações de programas de treinamento de mão de obra acima (ver também Stolzenberg e Relles 1990).
0.27 Comentários de Arminger e Bohnstedt, Singer e Marini [§64–§65]
Arminger e Bohnstedt concedem (1987, p. 370): “Não há dúvida de que dados experimentais são preferíveis a dados não experimentais, que praticamente exigem que se conheça a estrutura de médias, exceto pelos parâmetros a serem estimados.” Freedman observa que, nas ciências físicas ou da vida, há algumas situações em que a função média é conhecida, e modelos de regressão são correspondentemente úteis. Nas ciências sociais, ele não vê essa pré-condição para a modelagem de regressão sendo atendida, nem mesmo em primeira aproximação.
Comentando Lieberson (1985), Singer e Marini (1987) enfatizam dois pontos: (1) “Requer pressupostos bastante heroicos ou fenômenos incomuns para conduzir uma análise comparativa de um estudo observacional como se representasse conclusões (inferências) de um experimento.” (p. 376) (2) “Parece haver uma visão implícita em grande parte da ciência social de que qualquer pergunta que possa ser feita sobre uma sociedade é, em princípio, respondível.” (p. 382)
Na visão de Freedman, o ponto 1 diz que, no estado atual do conhecimento nas ciências sociais, modelos de regressão raramente, ou nunca, são confiáveis para inferência causal. Com relação ao ponto 2, é exatamente a confiança nos modelos que faz todas as perguntas parecerem “respondíveis em princípio”—um grande obstáculo ao desenvolvimento da disciplina. É o começo da sabedoria científica reconhecer que nem todas as perguntas têm respostas. (Ver Lieberson 1988.)
0.28 Marini e Singer (1988) sobre a circularidade dos modelos causais [§66–§68]
Marini e Singer (1988) continuam o argumento. Eles afirmam: “Poucos questionariam que o uso de modelos ‘causais’ melhorou nosso conhecimento das causas e provavelmente o fará cada vez mais à medida que os modelos forem refinados e se tornarem mais sintonizados com os fenômenos sob investigação.” (p. 394) No entanto, Freedman aponta que grande parte da análise de Marini e Singer contradiz essa visão supostamente majoritária. Eles escrevem: “A análise causal … não é uma maneira de deduzir causação, mas de quantificar relações já hipotetizadas. … Informação externa ao modelo é necessária para garantir o uso de uma representação específica como verdadeiramente ‘estrutural’. A informação deve vir do corpo de conhecimento existente relevante para o domínio sob consideração.” (pp. 388, 391)
Freedman lê a literatura empírica corrente como mostrando que os argumentos causais dependem principalmente da significância estatística dos coeficientes de regressão. Se assim for, Marini e Singer estão apontando para a circularidade fundamental na estratégia de regressão: a informação necessária para construir modelos de regressão vem apenas de tais modelos. De fato, Marini e Singer continuam: “A relevância dos modelos causais para os fenômenos empíricos é frequentemente questionável porque os pressupostos feitos para fins de identificação do modelo são arbitrários ou patentemente falsos. Os modelos assumem uma importância própria, e a conveniência ou elegância na construção do modelo se sobrepõe à fidelidade aos fenômenos.” (p. 392)
0.29 Holland (1988) e Berk (1988) [§69–§71]
Holland (1988) levanta pontos similares. Inferências causais a partir de dados não experimentais usando modelos de caminhos requerem pressupostos que são bastante próximos das conclusões; assim, a análise é conduzida pelo modelo, não pelos dados. Com efeito, dado um conjunto de covariáveis, a resposta média no “grupo de tratamento” menos a média nos “controles” deve ser assumida como igual ao efeito causal que está sendo estimado (1988, p. 481). “O efeito … não pode ser estimado pelos métodos usuais de regressão da análise de caminhos sem fazer pressupostos não testáveis sobre a função de regressão contrafactual.” (p. 470)
Berk (1988, p. 161) discute inferências causais baseadas em diagramas de caminhos, incluindo “perturbações não observáveis que atendem aos pressupostos usuais (e às vezes heroicos)”. Ele considera os argumentos frequentemente recitados de que os vieses serão pequenos, ou, se grandes, tenderão a se cancelar, e conclui: “Infelizmente, é difícil encontrar qualquer evidência para essas crenças” (p. 163). Berk recomenda desenhos quase-experimentais, que são “terrivelmente subutilizados pelos sociólogos, apesar de seu potencial considerável. Embora certamente não substituam a alocação aleatória, os desenhos quase-experimentais mais fortes podem geralmente produzir inferências causais muito mais convincentes do que os conjuntos de dados transversais convencionais.” (p. 163) Ele comenta sobre o desenvolvimento de modelos por teste, incluindo o uso de testes de especificação: “Os resultados podem ser enganosos se houver quaisquer outros pressupostos estatísticos que sejam substancialmente violados.” (p. 165) Freedman concorda com o ensaio de Berk e observa que nenhuma mudança dramática na prática de pesquisa ocorreu após sua publicação, sugerindo que mais discussão das questões pode ser necessária.
0.30 Meehl (1978) e os riscos dos testes de significância [§72]
Freedman menciona que Paul Meehl (1978) já disse a maior parte do que precisava ser dito em seu artigo “Theoretical Risks and Tabular Asterisks: Sir Karl, Sir Ronald, and the Slow Progress of Soft Psychology”. Parafraseando, o bom cavaleiro é Karl Popper, cujo lema exige submeter as teorias científicas a grave perigo de refutação. O mau cavaleiro é Ronald Fisher, cujos testes de significância são pisoteados no pó: “A confiança quase universal em meramente refutar a hipótese nula como o método padrão para corroborar teorias substantivas nas áreas moles é … basicamente insustentável.” (p. 817) Meehl é um psicólogo eminente e possui um dos melhores conjuntos de dados disponíveis para demonstrar o poder preditivo de modelos de regressão. Seu julgamento merece alguma consideração.
Conclusão (pp. 311–313)
0.31 O modus operandi comum e suas fraquezas [§73–§75]
Freedman descreve uma maneira bastante comum de atacar um problema: coletar dados e então fazer um conjunto de pressupostos estatísticos sobre o processo que gerou os dados—por exemplo, regressão linear com erros normais, independência condicional de dados categóricos dadas covariáveis, censura aleatória de observações, independência de riscos concorrentes.
Uma vez que os pressupostos estão no lugar, o modelo é ajustado aos dados, e cálculos estatísticos bastante intrincados podem entrar em cena: mínimos quadrados em três estágios, máxima verossimilhança penalizada, eficiência de segunda ordem, e assim por diante. As inferências estatísticas às vezes levam a afirmações empíricas bastante fortes sobre estrutura e causalidade.
Tipicamente, os pressupostos em um modelo estatístico são muito difíceis de provar ou refutar, e pouco esforço é despendido nessa direção. A força das afirmações empíricas feitas com base em tal modelagem, portanto, não deriva da solidez dos pressupostos. Igualmente, essas crenças não podem ser justificadas pela complexidade dos cálculos. O sucesso em controlar fenômenos observáveis é um argumento relevante, mas raramente apresentado.
0.32 Questões finais [§76]
Essas observações levam a perguntas incômodas. Os modelos são úteis? É possível diferenciar entre usos bem-sucedidos e malsucedidos dos modelos? Como os modelos podem ser testados e avaliados? Modelos de regressão têm sido usados em dados de ciências sociais desde Yule (1899), então talvez seja hora de fazer essas perguntas; embora respostas definitivas não possam ser esperadas.
Argumento Sintético
Ficha Analítica Crítica
Esta seção segue o formato IA Planilhando Textos v12.0.
```