A equação de Drake e uma pergunta: Cadê os ETs?

Faz no mínimo 4.000 anos que o homem se pergunta se existe vida inteligente em outros lugares do universo, vida capaz de viajar pelo espaço, de colonizar planetas. Hoje a pergunta ficou mais modesta, mas ainda assim difícil de responder: existem, em corpos celestes extraterrestres, sinais químicos que indiquem a presença de seres microbianos?


ESA/VISTA

Aspecto geral da Grande Nuvem de Magalhães, uma pequena galáxia que orbita a Via Láctea. Haverá alguém por lá tentando captar mensagens de civilizações extramagalhânicas? Se houver, só captará alguma coisa transmitida por terráqueos (testes de telegrafia sem fio) no ano de 161.900.


{1}/ A equação de Drake

N = R · Fp · Ne · Fl · Fi · Fc · L

Na tabela logo abaixo deste parágrafo, pode ver uma explicação de cada um dos termos. Em essência, essa equação representa uma série de probabilidades concatenadas, na qual a menor probabilidade de todas restringe o maior valor que pode assumir o número N de mundos com a capacidade de se comunicar com a Terra. Muita gente já discutiu essa equação e, por enquanto, só há uma certeza: o parâmetro Fc é maior que zero, visto que, no planeta Terra, surgiu vida inteligente com a capacidade de se comunicar e disposta a se comunicar. Com chutes bem conservadores, N = 1, isto é, o homem está sozinho na Terra; com chutes os mais otimistas possíveis, N = 36 milhões.

N Número de mundos com a capacidade de se comunicar com a Terra. (Isto é, próximos o suficiente para enviar uma mensagem, receber uma mensagem de resposta, e enviar outra mensagem.) O próprio Drake considerava apenas a Via Láctea, e não o universo visível inteiro.
R Taxa pela qual surgem novas estrelas dentro do raio no qual a comunicação por rádio seria possível.
Fp Probabilidade de que uma estrela tenha planetas à sua volta.
Ne Probabilidade de haver um planeta parecido com a Terra em torno de alguma estrela; pode ser também o número médio, por sistema solar, de planetas onde possa haver vida.
Fl Probabilidade de surgir vida num planeta.
Fi Probabilidade de surgir vida inteligente.
Fc Probabilidade de surgir uma espécie inteligente capaz de se comunicar por meios eletromagnéticos, e disposta a se comunicar.
L Período de tempo que uma espécie permanece na fase de comunicação.


{2}/ Discussões simbólicas, mas racionais

Amâncio Friaça é astrofísico, é professor livre-docente no Instituto de Astronomia, Geofísica, e Ciências Atmosféricas da Universidade de São Paulo, fez pós-doutorado na Universidade de Cambridge (Inglaterra), e já viu discos voadores.

Passava o réveillon de 1980 com amigos, numa festa no bairro Alto da Lapa em São Paulo (SP), quando ele e outros participantes viram os discos. “Foi uma experiência fantástica”, diz Amâncio. Apesar da experiência, não acredita que discos voadores sejam sinal de vida extraterrestre. Se houvesse ETs capazes de viajar pelas imensas distâncias do universo, fariam parte de uma civilização antiga e seriam extremamente inteligentes. “Eles não deixariam sinais tão rudimentares quanto discos voadores.” Como explica então o que lhe aconteceu em 1980? Viu no céu algo que não pôde explicar e que, atualmente, pode chamar de “disco voador”, pois todos entendem o que quis dizer. Em outros tempos, usaria outras palavras: deuses, demônios, fadas, fragmentos da carruagem de Hélio, estripulias de Harry Potter e sua turma de bruxos.

De vez em quando, Amâncio dá palestras sobre o jeito como o homem vem pensando em vida extraterrestre ao longo dos milênios. Um ponto importante da palestra é a equação de Drake (veja a seção anterior), que cientistas usam não tanto para fazer cálculos, mas para refletir sobre a probabilidade de haver uma espécie extraterrestre inteligente com capacidade de se comunicar por meio de ondas eletromagnéticas (provavelmente, rádio). Hoje, os três primeiros termos da equação (R, Fp e Ne) são mais conhecidos, embora ainda haja sobre eles centenas de perguntas sem resposta. “A fronteira da pesquisa, por enquanto, está no cálculo de Fl”, diz Amâncio. “Não sabemos como a vida pode surgir num planeta.”

A carruagem do pai. Até onde se saiba, desde os tempos de Tales de Mileto os filósofos se perguntam se não haveria vida em outros lugares do universo, assim como se não haveria vida inteligente. (Ao longo da entrevista, Amâncio usou a palavra “filósofo” para denotar “amante do conhecimento”, como faziam os gregos antigos.) “Acho que essa é uma pergunta que nos fazemos desde sempre”, diz Amâncio. Muitas vezes, os antigos conduziam essa discussão de modo bastante simbólico, o que funciona bem nas civilizações em que muitos são analfabetos, e aprendem as coisas por meio de histórias, em geral contadas em rituais religiosos. “Havia, por exemplo, o mito de Faeton.” O deus grego Hélio tinha um filho, chamado Faeton, e uma carruagem e tanto, chamada Sol. Antes como hoje, o jovem Faeton desejava pilotar a carruagem do pai, e não teve dúvida: roubou o Sol, mas não o soube controlar. Zeus interviu e abateu a carruagem com um raio, e ela caiu na Terra. “Essa é a história de uma perturbação cósmica”, diz Amâncio. “Uns acham que é a história de um bólido, talvez um grande meteoro. Não penso que seja necessariamente isso. Essa história também mostra que há uma ordem cósmica, que às vezes, contudo, pode ser perturbada. Ela mostra também que existe uma conexão entre o céu e a Terra.”

Amâncio diz que a discussão ficou assim, bem metafórica, até que surgiu a matemática, quando então os termos da discussão se tornaram mais específicos. “A grande diferença é a matemática. Não quero dizer que antes o pensamento era irracional, porque o pensamento sobre tais questões nunca foi irracional. Mas a partir do século 6 antes de Cristo, mais ou menos, com o comércio e as navegações mais desenvolvidos, os filósofos passaram a conviver com especialistas em cálculos, isso quando não eram eles mesmos os especialistas. O comércio te dá o motivo para ir de um lugar a outro. A navegação te dá o instrumento, e ela te obriga a olhar o céu de modo muito concreto: para ir até Creta, mantenha aquela estrela ali à direita do navio. Para tudo isso, a sociedade precisa fazer cálculos, e daí surge o hábito de um pensamento muito estruturado. Nesse cenário, há todas as condições para que surja uma discussão mais concreta sobre a ideia de vida extraterrestre e a de viagem espacial.”

Curiosamente, com o surgimento do cálculo diferencial, no século 17, os ETs ficaram de lado. Como os cientistas ganharam o poder de descrever precisamente a órbita dos corpos celestes, eles se ocuparam com isso por vários séculos. A Terra virou mais um planeta entre tantos, e havia um “otimismo cósmico”, diz Amâncio, pois muitos acreditavam que havia vida em todo lugar. Mesmo assim, ocupados com massa, velocidade, aceleração, gravidade, órbita, pararam de pensar sistematicamente sobre vida extraterrestre. A discussão ressurgiu no século 20, por conta de telescópios e radiotelescópios, e pode ser resumida com dois itens da cultura: a equação de Drake e o paradoxo de Fermi.

Bactérias. Fermi era ótimo de estimativas grosseiras, tanto que hoje “estimativa de Fermi” significa uma estimativa grosseira, mas com boas justificativas lógicas. Diz a lenda que, num dia em que Fermi e outros cientistas conversavam sobre discos voadores e alienígenas, ele parou, pensou, e perguntou: “Onde está todo mundo?” Seu raciocínio seguiu esta linha: caso surgisse uma civilização capaz de viajar pelo espaço, em 100 milhões de anos ela colonizaria a Via Láctea; dizem que surge vida em toda lua e planeta onde há condições de surgir vida, dizem que fatalmente a vida se modifica até que apareça uma espécie capaz de construir uma civilização com base em ciência e tecnologia, e é fato que o universo existe há uns 13 bilhões de anos, no mínimo; logo, tal civilização já deveria ter surgido, e deveria estar em todos os lugares, ou, caso já tivesse surgido e se extinguido, seus sinais deveriam estar em todo lugar. Fermi não levava em consideração coisas como pirâmides, estátuas e desenhos; pensava mais em grandes naves abandonadas, cidades inteiras flutuando no espaço, fósseis. Essa pergunta, “Mas onde está todo mundo?”, é de cunho filosófico, diz Amâncio. Drake esboçou sua famosa equação a partir dela — pois se preparava para organizar um seminário, e pôs a equação no papel para organizar os pensamentos, à guisa de esboço.

Fermi deu voz aos mais céticos. Já faz 50 anos que cientistas buscam algum sinal de rádio emitido por alguma civilização extraterrestre, e até agora, nada. Tanto é que os cientistas agora se concentram mais no termo Fl da equação, pois procuram sinais de bactérias, ou, melhor dizendo, de seres microbianos, possivelmente unicelulares. Diz Amâncio: “Isso é muito mais provável.”

As bactérias conseguem viver em ambientes inóspitos — muito quentes ou muito frios. Como se adaptam com extraordinária competência, perfazem a maior parte da massa dos seres vivos da Terra — afinal, num único grama de solo, há umas 40 milhões de bactérias. “Assim que a crosta terrestre se solidificou”, diz Amâncio, “as bactérias surgiram uns 100 milhões de anos depois, e durante uns 3 bilhões de anos a vida microbiana foi o único tipo de vida no planeta.” Além disso, as espécies microbianas são muito ativas. “Foram elas que modificaram a atmosfera da Terra; por exemplo, criaram o oxigênio que respiramos.” Hoje, portanto, em vez de gastar tempo e dinheiro procurando sinais de rádio, quase sempre o cientista prefere gastá-los na busca de indícios de ecossistemas propícios à vida microbiana. Se houver isso, talvez haja também vida inteligente; talvez não inteligente a ponto de construir transmissores de rádio, como o homem, mas inteligente a ponto de aprender truques complicados, como o corvo.

Muita gente não gosta dessa nova tendência na busca por ETs, pois não quer admitir a possibilidade de que o homem seja a única espécie do universo rádio-alcançável capaz de fazer ciência. Dizem: “Os gregos antigos tinham histórias sobre robôs! Veja os argonautas! Veja a máquina que apareceu ao profeta Ezequiel, a que tinha quatro rostos, como também quatro asas!” Amâncio não se deixa abalar, logo ele, que já viu discos voadores. “Se você já tem tecnologia para usar o cobre, pode fazer bonequinhos de cobre que se mexem. Nos templos gregos, havia maquinários escondidos para causar efeitos de impacto.” A partir daí, faltam uns poucos passos para que surja um robô na imaginação. {FIM}



Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 33, outubro de 2013, pág. 34. A versão que acabou de ler foi revista e ligeiramente reescrita, mas as informações factuais são as que valiam na ocasião.

2. A entrevista foi realizada pelo jornalista Eduardo Magossi.

3. Acho que o livro 2001: Uma Odisseia no Espaço, assim como o filme, ainda é a melhor descrição ficcional de um encontro entre humanos e ETs: se um dia houver um encontro, não será com os alienígenas em carne e osso, mas com algum dispositivo alienígena. Dispositivos suportam melhor as condições extremas do espaço interplanetário.

4. Estou com Zaratustra: “O homem é algo que deve ser superado.” Se um dia o homem tiver a capacidade de criar máquinas inteligentes, capazes de filosofia, matemática, ciência, capazes de produzir tecnologia nova — penso que daí tem a obrigação moral de criá-las, mesmo que isso coloque sua existência em risco. Talvez a inteligência num grau necessário para filosofia formal (incluindo matemática e ciência) seja algo raríssimo. Visto que o animal humano ou vai se extinguir ou se transformar num outro animal, não necessariamente mais inteligente, tem a obrigação moral de passar sua inteligência adiante tão logo possa: inteligência livre dos defeitos que puder identificar em si mesmo. Daí quem sabe os dispositivos criados pelo homem um dia se lançam numa exploração sistemática da galáxia, buscando mil jeitos de levar o dom da inteligência a tantos lugares quantos puderem.

Dois dados para meditar sobre realidades alternativas, crenças, e ciência

Com apenas dois dados e o teorema de Bayes, o leitor joga um pouco de luz sobre certos temas da epistemologia e da metafísica, isto é, entende melhor aquilo que pode vir a conhecer sobre a Natureza, inclusive a Natureza para além de nossos sentidos.


{1}/ A verdade como crença numa história provável

Outro dia, eu observava de longe duas pessoas, um moço e uma moça, e me pareceu que eles competiam; que jogavam dados. Eu os observava de longe mesmo: estava usando binóculos. Não podia ouvi-los nem conversar com eles. A moça pegou duas coisinhas numa das mãos (talvez dados), fez o gesto de chacoalhar, e jogou as duas coisinhas sobre uma bandeja. Olhou para elas por um instante e anotou um número numa tabela desenhada numa lousa, na coluna da esquerda, cujo título era “Ana”. O moço fez quase a mesma coisa, exceto que anotou seu número na coluna da direita, cujo título era “Bento”. Por tudo o que vi, supus que jogavam dois dados numa bandeja, e anotavam na lousa a soma dos números que saíam para cima; supus, portanto, que o casal apostava uma espécie de “corrida das somas”. Olhando de longe, através de binóculos, essa história foi a que melhor explicou o comportamento dos dois. Eles se alternaram, ora um, ora outro, jogando os dois dados e anotando a soma na lousa, que em pouco tempo ficou assim:

ANA

BENTO

2

7

7

2

2

2

12

2

7

2

Achei a tabela estranha. O casal jogou os dados dez vezes, mas, em seis vezes, eles saíram ambos com o lado L1 virado para cima, e por isso a tabela ficou tão cheia de somas iguais a 2. “Será que isso é normal?”, eu me perguntei. “É o que devo esperar de dois dados comuns?”

Problema: Os dados que Ana e Bento estão jogando são comuns, ou é mais provável que sejam dados insólitos — diferentes de dados comuns? Caso sejam insólitos, o leitor consegue supor de que maneira eles são insólitos?

Estudando bem a tabela, percebi o seguinte: em cada um dos dois dados, há um lado igual a 6. Se não fosse assim, não teria como sair a soma igual a 12. Contudo, parece que os outros cinco lados são todos iguais a 1, e por isso saiu apenas soma igual a 2, 7, ou 12 nessas dez jogadas. Em outras palavras, parece que os dois dados têm um lado do tipo L6 e todos os outros lados do tipo L1. Como poderia testar a hipótese sem ir conversar com os dois jogadores, já que só podia observá-los de longe por meio de binóculos? Como poderia saber que tipo de dado Ana e Bento estavam usando apenas conhecendo a soma dos dois dados?

Se o leitor já viu a postagem Doentes Perfeitamente Saudáveis, sabe qual ferramenta intelectual eu deveria empregar: o teorema de Bayes. Resolvi trabalhar com duas hipóteses apenas:

(a) Hipótese H: Ana e Bento usam dois dados comuns, não viciados.

(b) Hipótese ¬H: Ana e Bento usam dois dados com um lado igual a 6 e cinco lados iguais a 1, também não viciados.

Visto que dados comuns são muito mais abundantes que dados incomuns, decidi atribuir 99% de probabilidade à hipótese H (isto é, Pr(H) = 0,99), e 1% de probabilidade à hipótese ¬H (Pr(¬H) = 0,01).

Como estava interessado na soma dos dois dados, montei uma tabela para ter boa ideia da distribuição de probabilidade em meu espaço amostral. Primeiro, a tabela com dois dados comuns (condizente com a hipótese H); cada cruzamento de linha com coluna é a soma dos números em negrito que marcam a linha e a coluna:

1

2

3

4

5

6

1

2

3

4

5

6

7

2

3

4

5

6

7

8

3

4

5

6

7

8

9

4

5

6

7

8

9

10

5

6

7

8

9

10

11

6

7

8

9

10

11

12

Com a tabela para H, pude imediatamente calcular várias coisas: se os dois dados são comuns, a probabilidade de soma igual a 2 é de 1/36; a probabilidade de soma igual a 7 é de 6/36 = 1/6; e a probabilidade de soma igual a 12 é de 1/36.

Agora, a tabela com os dados insólitos (condizente com a hipótese ¬H):

1

1

1

1

1

6

1

2

2

2

2

2

7

1

2

2

2

2

2

7

1

2

2

2

2

2

7

1

2

2

2

2

2

7

1

2

2

2

2

2

7

6

7

7

7

7

7

12

Assim, se os dois dados têm um lado L6 e cinco lados L1, a probabilidade de soma igual a 2 é de 25/36; a probabilidade de soma igual a 7 é de 10/36 = 5/18; e a probabilidade de soma igual a 12 é de 1/36.

Antes de continuar, tomei nota da fórmula do teorema de Bayes, mas num formato adequado para o problema diante de mim. Na fórmula a seguir, como é o costume, Pr(H|E) significa a probabilidade da hipótese H dada a evidência E; neste caso, a única evidência de que dispunha eram as dez somas que Ana e Bento escreveram na lousa, e que pude ver com os binóculos.

O que tinha de evidência era a seguinte sequência de somas: 2, 7, 7, 2, 2, 2, 12, 2, 7, 2. Chamei essa sequência de S, de modo que S = (2, 7, 7, 2, 2, 2, 12, 2, 7, 2). A pergunta mais natural depois disso foi: Qual é a probabilidade dessa sequência se os dados são comuns, ou, dizendo de outra maneira, qual é a probabilidade dessa evidência se os dados são comuns? Qual é o valor de Pr(E|H)? Além disso, da mesma forma, qual é o valor de Pr(EH)?

Fui às contas, primeiro para a hipótese H.

De quantas maneiras posso formar uma sequência de dez somas se lanço dois dados comuns dez vezes? A cada lançamento, tenho 36 valores à disposição; logo, o número total de sequências de dez somas é igual a 3610 = 3 quatrilhões, 656 trilhões, 158 bilhões, 440 milhões, 62 mil, e 976 sequências. Esse número enorme inclui as repetições; por exemplo, sempre que um dos termos de uma sequência qualquer é 8, há cinco maneiras de sair soma 8: 2 + 6, 3 + 5, 4 + 4, 5 + 3, 6 + 2.

Quantas dessas 3610 sequências são iguais a S? Olhando a tabela de somas para dois dados comuns, eu sabia que há um valor igual a 2, dois valores iguais a 3, três valores iguais a 4, …, dois valores iguais a 11, e finalmente um valor igual a 12. Ora, entre todas as 3610 sequências possíveis de dez somas, há 63 = 216 sequências exatamente iguais a S; o cálculo desse número de permutações é 1 · 6 · 6 · 1 · 1 · 1 · 1 · 1 · 6 · 1. Isso porque só existe uma maneira pela qual os dados comuns fornecem soma igual a 2, que é ambos caindo com o lado L1 para cima. O mesmo vale para soma igual a 12, que é caindo com o lado L6 para cima. No entanto, há seis maneiras pela qual fornecem soma igual a 7.

Sendo assim, qual é a probabilidade da sequência S se os dados são comuns, ou seja, qual é o valor de Pr(E|H)?

Para usar corretamente o teorema de Bayes, só faltava usar o mesmo método para calcular Pr(EH), isto é, a probabilidade da evidência fornecida pelas somas dada a hipótese de que Ana e Bento estão usando dois dados insólitos.

Também com os dados diferentes eu podia formar 3610 sequências de dez somas, nem todas distintas, pois de novo esse número enorme inclui muitas sequências repetidas. Quantas dessas 3610 sequências são iguais a S? Visto que os dados insólitos formam soma igual a 2 de vinte e cinco maneiras distintas, formam soma igual a 7 de dez maneiras distintas, e formam soma igual a 12 de uma única maneira, eu tinha 25 · 10 · 10 · 25 · 25 · 25 · 1 · 25 · 10 · 25 = 1 · 103 · 256 = 244.140.625.000 = 244 bilhões, 140 milhões, 625 mil sequências iguais a S. Sendo assim:

E, com tudo isso, já podia usar o teorema de Bayes para calcular tanto a probabilidade da hipótese H dada a evidência E quanto a probabilidade da hipótese ¬H dada a evidência E.

E aí estava a resposta às minhas perguntas, sem possibilidade de engano. Fazendo as contas, a probabilidade de que Ana e Bento estavam usando dois dados insólitos é maior que a probabilidade de que estavam usando dois dados comuns por um fator de 11 milhões, ou seja, Pr(H|E) × 11 milhões Pr(¬H|E). Portanto, se tivesse de apostar em qual tipo de dado os dois estão usando, e se quisesse me orgulhar de minha própria capacidade de usar a razão, teria de apostar em dois dados insólitos, não viciados, cada um deles com um lado igual a 6 e todos os outros lados iguais a 1. Mesmo fazendo essa aposta, contudo, seria obrigado a admitir: talvez, afinal de contas, Ana e Bento estejam sim usando dois dados comuns, não viciados, e a sequência de somas que escreveram na lousa seja pura e simplesmente algo incrivelmente improvável, pois acontecimentos incrivelmente improváveis não são impossíveis.



{2}/ Epistemologia ao estilo do reverendo Bayes

É difícil caracterizar um ser racional, mas, nas últimas décadas, filósofos especializados em epistemologia deram muitos passos na direção de uma definição competente:

Definição de racionalidade, estilo bayesiano: Para qualquer proposição x, você pode atribuir qualquer probabilidade que ache conveniente a x, desde que 0 ≤ Pr(x) ≤ 1. Não importa qual seja a probabilidade que atribua a x, deve fazer com que a probabilidade de ¬x seja igual a 1 – Pr(x), de modo que Pr(x) + Pr(¬x) = 1. (Com essa providência, o leitor satisfaz os axiomas de Kolmogorov e sua crença na probabilidade de x se torna coerente.) Além disso, sempre que achar na Natureza qualquer evidência E que aumente ou diminua a probabilidade de x, deve ajustar sua crença na probabilidade de x, isto é, deve aumentar ou diminuir o valor que inicialmente atribuiu a Pr(x), de modo que, com o tempo, com as investigações, sua probabilidade subjetiva de x convirja para o mesmo valor da probabilidade objetiva de x a cada nova evidência E.

Foi o que fiz ao observar Ana e Bento pelos binóculos. Primeiro, supus que os dois estavam jogando dados comuns e anotando a soma na lousa. Depois, vi que as somas não condiziam bem com dois dados comuns. Daí supus que eles jogavam dados especiais, insólitos. Usei o teorema de Bayes para testar minha suposição, e vi que as somas na lousa confirmavam mais fortemente a hipótese de dados insólitos. Por último, diante das observações e das contas, apostei em dados insólitos, mantendo em mente que talvez estivesse fazendo uma aposta errada. Comecei com uma crença e, em razão das evidências, atualizei minha crença, mas sem negar a minúscula possibilidade de que minha nova crença seja falsa — e tudo isso corresponde à definição atual de racionalidade. Um ser irracional é aquele que, mesmo diante de evidências que contrariam suas crenças iniciais, mantém nelas uma fé inabalável e não as atualiza; ou só atualiza a crença de fé inabalável #1 quando acontece uma desgraça, mas daí passa a ter uma crença de fé inabalável #2. Tipicamente, um ser irracional vai de fé inabalável em fé inabalável, e está sempre a ignorar evidências que contrariem sua fé.

É hora de uma pergunta importante. Ana e Bento estavam mesmo jogando dados? Estavam mesmo, um de cada vez, anotando na lousa o valor da soma de dois dados?



{3}/ David Hume e a conjunção constante

A história de uma pessoa observando o comportamento de outras duas de longe, por meio de binóculos, serve de analogia para a situação do cientista, isto é, do ser inteligente que está tentando entender a Natureza — e para tanto ele (ou ela) recorre à razão assistida por ferramentas concretas (binóculos) ou abstratas (teorema de Bayes).

Nada garante que aquela moça se chama Ana. Nada garante que aquele moço se chama Bento. Nada garante que eles estavam chacoalhando dois dados antes de jogá-los na bandeja — não era possível ver se realmente havia dados; só era possível ver a gesticulação. Nada garante que aqueles números na tabela eram a soma de dois dados, feita a cada lançamento. O que o narrador fez foi bolar uma explicação razoável para o que via através dos binóculos, mas ele não podia checar a veracidade de sua explicação, pois não podia conversar com Ana e Bento, se é que eram mesmo Ana e Bento. Quando Ana chacoalha os dados e anota a soma igual a 12 no quadro, parece que ela anotou a soma porque os dados caíram ambos com o lado L6 para cima. A explicação presume a noção de causa e efeito, isto é, de que o evento B ocorreu porque antes disso ocorreu o evento A, e o evento A é causa eficiente do evento B.

David Hume (1711-1776), filósofo escocês, foi o primeiro a colocar no papel, com brilhantismo, a desconfiança de que relações de causa e efeito são uma ficção automática da mente humana. Numa ocasião, o Sujeito percebe o evento A e, depois disso, o evento B. Noutra ocasião, a mesma coisa — e ainda noutra, etc. (Aqui, “Sujeito”, com “S” maiúsculo, significa homem, mulher, criança, máquina inteligente, etc.) Ele vê, escreveu Hume, a “conjunção constante” do evento A seguido do evento B, ou do evento B precedido do evento A. Por causa disso, não demora muito e começa a dizer que A é a causa de B. No livro Investigações sobre o Entendimento Humano e sobre os Princípios da Moral, Hume defende a tese de que não existe argumento racional para justificar uma relação de causa e efeito apenas com base numa relação de conjunção constante. Não só esse argumento não existe, escreveu Hume, como não pode existir: qualquer tentativa de partir da conjunção constante de A e B para uma relação de causa e efeito entre A e B cai em petição de princípio, ou raciocínio circular. O que leva o Sujeito da conjunção constante para a relação de causa e efeito não é a razão, mas o costume; é mais um movimento de cunho emocional do que de cunho racional. “O hábito dispõe a mente a pressupor que o futuro estará em concordância com o passado.”

Eis outra maneira de resumir o que Hume defendeu: Nada garante que as regras pelas quais a Natureza funciona hoje continuarão a ser as mesmas amanhã. Essa garantia, essa certeza de estabilidade, que o Sujeito sente como sendo uma característica da Natureza, é meramente uma ficção que sua mente impõe ao mundo — é de fato um hábito. “É o hábito, e não mais que o hábito”, escreveu Hume, “que nos faz esperar no futuro uma concatenação de eventos tais como já se concatenaram no passado.”

Se relações de causa e efeito são uma ficção que o Sujeito aplica à Natureza por causa de certas inclinações instintivas, imagine todo o resto — imagine quão perdido o Sujeito ficaria no mundo sem suas ficções. Mais tarde, no século 20, muitos filósofos seguiram as pistas de Hume e produziram uma filosofia da ciência muito bem pensada, e sutil, na qual a ciência aparece como um conjunto de narrativas que funcionam. Hoje, cientistas bem treinados em filosofia já não falam mais que as teorias científicas são verdadeiras, mas sim que são “empiricamente adequadas”, isto é, que funcionam quando cotejadas com a realidade: elas explicam as observações e permitem ao cientista fazer previsões a respeito de como a Natureza vai se comportar no futuro. Se o sujeito nem pode justificar adequadamente a passagem de conjunção constante para relação de causa e efeito, pode no máximo ambicionar para seus escritos científicos o título de “ficções úteis”.

Volte agora à história de Ana e Bento. Já sabe que não pode trocar conjunções constantes por relações de causa e efeito (no sentido vulgar de causa e efeito), e também sabe que sua narrativa teórica só vale se explica o que vê e, além disso, te permite fazer previsões. A história certamente explica o que viu pelos binóculos (que viu por meio da leitura de minha narrativa). E quanto às previsões? O que o eu-narrador poderia fazer à guisa de previsão? Acho que poderia continuar olhando os dois pelos binóculos por mais um tempo. Se eles continuam a chacoalhar os dados com uma das mãos, e continuam a anotar a soma na lousa, e nunca aparece soma igual a 3, 4, 5, 6, 8, 9, 10, e 11, posso manter intacta minha confiança na adequação empírica da teoria (incluindo a hipótese ¬H), até que um dia vou me cansar de observá-los e, por mero cansaço, mas também por hábito, direi que a teoria é verdadeira — no entanto sabendo, no fundo de meu coração, que talvez seja falsa, pois talvez esse tempo todo eu estivesse olhando para um fenômeno agudamente raro.

Mas suponha que, a certa altura, Ana ou Bento anotam soma igual a 8 na lousa; e depois anotam soma igual a 5; e depois soma igual a 11. Terei de obrigatoriamente atualizar minha crença: embora os primeiros dez números sugerissem a existência de dois dados insólitos, os números 8, 5, e 11 sugerem a existência de dados comuns. Mas nesse caso eu realmente posso bancar a afirmação de que os dados são comuns? Se chamo de F a afirmação condicional “Se os dados são insólitos do modo como os descrevi, então as somas são sempre iguais a 2, 7, ou 12”, sei que a contrapositiva de F é “Se alguma soma é diferente de 2, 7, ou 12, então os dados não são insólitos do modo como os descrevi.” Se F é verdadeira, a contrapositiva de F também é. Mas a contrapositiva de F me permite pressupor a existência de dados comuns?

Problema. Se a sequência de somas que Ana e Bento anotam na lousa corresponde à distribuição de probabilidade associada à soma de dois dados comuns, isso significa dizer que os dois dados são mesmo comuns? Em outras palavras: se a sequência de somas na lousa sugere que a probabilidade de soma igual a 2 é 1/36, a probabilidade de 3 é 2/36, a probabilidade de 4 é 3/36, …, a probabilidade de 10 é 3/36, a probabilidade de 11 é 2/36, e por fim a probabilidade de 12 é 1/36, então significa dizer que os dois dados são comuns? Ou pode haver dois dados insólitos que produzam somas com a mesma distribuição de probabilidade para dois dados comuns? Dizendo isso mais construtivamente: O leitor consegue montar dois dados insólitos distintos, usando apenas inteiros positivos, e evitando a mera permutação dos inteiros presentes em dados comuns, tais que a distribuição de probabilidade para a soma dos dois dados seja idêntica à distribuição para a soma de dois dados comuns? (Portanto, em cada um desses dois dados insólitos, se é que existem, não pode haver os números 1, 2, 3, 4, 5, 6 exatamente uma vez. Isso é o mesmo que dizer que tais dados não podem ser uma mera permutação dos lados de um dado comum.)



{4}/ Primeiros passos no problema das somas

Um jeito de começar a resolver esse problema é preencher a tabela de somas, mas deixando as linhas e colunas sem títulos, ou sem números em negrito.

? ? ? ? ? ?
?

2

3

4

5

6

7

?

3

4

5

6

7

8

?

4

5

6

7

8

9

?

5

6

7

8

9

10

?

6

7

8

9

10

11

?

7

8

9

10

11

12

O que pode escrever no lugar dos pontos de interrogação? Visto que só pode usar inteiros positivos, só há uma maneira de obter soma igual a 2.

1

? ? ? ? ?

1

2

3

4

5

6

7

?

3

4

5

6

7

8

?

4

5

6

7

8

9

?

5

6

7

8

9

10

?

6

7

8

9

10

11

?

7

8

9

10

11

12

Tente continuar daqui. A solução do problema está na próxima seção.

.

.

.

.

.

.

.

.

.

.



{5}/ Os dados de Sicherman

A solução desse problema foi achada por George Sicherman na década de 1970, e desde então passou a ser conhecida como “os dados de Sicherman”.

1

2

2

3

3

4

1

2

3

3

4

4

5

3

4

5

5

6

6

7

4

5

6

6

7

7

8

5

6

7

7

8

8

9

6

7

8

8

9

9

10

8

9

10

10

11

11

12

Mais tarde os matemáticos descobriram que, excluindo as permutações de (1, 2, 2, 3, 3, 4) e de (1, 3, 4, 5, 6, 8), a solução de Sicherman para inteiros positivos é única: não há outros dois dados insólitos tais que a distribuição de probabilidade para a soma dos dois seja a mesma que a distribuição para a soma de dois dados comuns.

Use mais uma vez as ideias de Hume e a analogia de Ana e Bento para pensar sobre os métodos da ciência. Mesmo quando o Sujeito tem uma explicação muito boa, que lhe permite dar sentido às observações e também prever novas observações, e que constantemente passa pelo crivo do teorema de Bayes, mesmo assim ele não pode afirmar peremptoriamente que a realidade é como sua explicação diz que é. O máximo que pode dizer é que há uma conjunção constante entre as relações e funções contidas em sua explicação e as relações e funções que observa na Natureza; porém, não pode ir além disso. Pois sua explicação presume a existência de dados comuns, por exemplo, mas ele nem suspeita, nem poderia suspeitar, que a realidade para além de seus sentidos, a realidade em si mesma, a realidade noumenal, é na verdade feita de dados de Sicherman. {Fim}



Observações:

1. Na seção 2, eu disse que a probabilidade subjetiva da proposição x tem de convergir para a probabilidade objetiva de x se o agente é racional. Isso pressupõe a existência de uma probabilidade objetiva. Hume diria que nada garante a existência de probabilidades objetivas na Natureza, pois não temos como usar nossa experiência para garantir a estabilidade das regras da Natureza. Talvez tais regras mudem; aliás, talvez já tenham mudado no passado, quando a espécie humana ainda não existia.

É importante notar que Hume não disse que as regras da natureza variam com o tempo. Talvez elas sejam absolutamente eternas, como defendeu Spinoza. O que Hume disse é que, caso as regras da Natureza sejam eternas, não temos como saber isso, pois no máximo vemos conjunções constantes, e conjunções constantes não nos permitem inferir nem mesmo a existência de relações de causa e efeito, quanto mais a eternidade das regras da Natureza.

Quanto a isso, Spinoza foi um sábio. Na Ética, ele defendeu a estabilidade das relações de causa e efeito num axioma, o axioma 3 da primeira parte: “De uma causa dada e determinada segue-se necessariamente um efeito; e, inversamente, se não existe nenhuma causa determinada, é impossível que se siga um efeito.” Ele deve ter percebido que não conseguiria justificar a existência de relações de causa e efeito, nem sua estabilidade, por meio de argumentação racional; e então as estabeleceu axiomaticamente.

2. “Olhar de longe” é a sina do Sujeito na Natureza. Ele sempre a está olhando de longe. Quando olha para as estrelas e as galáxias, usa instrumentos como telescópios e radiotelescópios para olhar a Natureza de longe. Quando olha para os átomos, usa equipamentos complicados e computadores para olhar a Natureza de longe. Hume disse que o máximo que o Sujeito pode fazer é bolar narrativas para explicar o que vê. Uma narrativa ruim vai explicar o que ele vê, mas não vai permitir que faça previsões, especialmente previsões de probabilidade muito baixa, isto é, difíceis de prever; esse é o caso de toda narrativa carregada de convicções férreas e, em particular, é o caso das narrativas supersticiosas. Uma narrativa boa vai explicar o que vê e, além disso, permitir que faça previsões, incluindo previsões de probabilidade muito baixa; esse é o caso das narrativas científicas.

3. Immanuel Kant (1724-1804) leu Hume e ficou muito impressionado com suas ideias. Mais tarde, no excelente livro Crítica da Razão Pura, tentou provar que Hume estava errado, que há sim certas coisas que podemos saber com certeza a partir de conjunções constantes. Por exemplo, a realidade do tempo. Por algumas décadas, a comunidade dos filósofos achou que Kant havia refutado Hume. Hoje, os maiores especialistas em metafísica e em epistemologia já não pensam mais assim, pois puderam achar falhas nas premissas de Kant. Por causa disso, Hume voltou a seu lugar de honra e continua sendo lido com grande interesse. Os autores atuais, especialmente os de inclinação analítica, citam Hume mais frequentemente que Kant.

4. Tive a ideia de escrever sobre os dados de Sicherman depois de ver uma palestra de José Luiz Pastore Mello, cujo título era A Arte de Criar Problemas; eu nem sabia que tais dados existiam. Pastore tem usado problemas difíceis, inclusive problemas em aberto, com seus alunos no Colégio Santa Cruz, em São Paulo (SP), e está escrevendo uma tese de doutorado sobre o uso de problemas difíceis na escola básica. Para ilustrar a palestra, Pastore levou várias duplas de dados, incluindo dois dados comuns, não viciados, do tipo usado por cassinos; e dois dados comuns, porém viciados, nos quais a probabilidade de L6 é muito maior que a probabilidade de cada um dos outros lados. Eu nunca havia segurado dados viciados antes. Ao manusear dados comuns, eles dão a impressão de que são objetos inanimados. Ao manusear dados viciados, contudo, eles dão a impressão de que têm vontade própria — parece que eles “querem” ficar numa posição, e que “não querem” ficar nas outras, como um joão bobo.

5. Definição de distribuição de probabilidade (só para relembrar): É uma função Pr de um espaço amostral S para o conjunto dos números reais entre 0 e 1, incluindo 0 e 1. Assim, para cada elemento x de S, 0 ≤ Pr(x) ≤ 1. (Note que, pela definição usual de “experimento”, S é sempre um conjunto não vazio.) Além disso, a soma da probabilidade de x, para cada um dos elementos x de S, tem de ser igual a 1, isto é:

Em outras palavras, a probabilidade do espaço amostral S é sempre 1, quer dizer, por definição a probabilidade de que um experimento produza qualquer um dos resultados de S é 1.

6. A contrapositiva de PQ é ¬Q → ¬P; se uma condicional é verdadeira, a outra também é. No entanto, dizer que “os dados não são insólitos do modo como os descrevi” não significa dizer “os dados são comuns”, pois pode significar “os dados são insólitos de uma maneira não descrita por mim”.

7. Eric Steinhart: “Considere dois relógios perfeitamente sincronizados. Os dois mostram o mesmo horário. Portanto Pr(Relógio 1 mostra meio-dia|Relógio 2 mostra meio-dia) = 1. Cada um dos dois representa o que está acontecendo no outro sem que haja nenhuma interação causal. Um sinal é enviado sem que haja uma causa.” Há conjunção constante entre o horário num dos relógios e o horário no outro relógio, para a qual, se não tivéssemos lido Hume, atribuiríamos relação de causa e efeito, que de fato não existe. Spinoza conhecia contraexemplos como esse porque se correspondia com Leibniz, que amava esse tipo de contraexemplo a relações necessárias de causa e efeito.

8. Caso queira citar este artigo, escreva:

Simões, Márcio. “Dois Dados para Meditar sobre Realidades Alternativas, Crenças, e Ciência”. São Paulo: Imaginário Puro (blogue), 28 de outubro de 2019.

Se possível, forneça o link permanente para o artigo:

[https://imaginariopuro.wordpress.com/2019/10/28/dois-dados-para-meditar-sobre-realidades-alternativas-crencas-e-ciencia/]

Estatística no esporte

Desde 1986 os administradores profissionais de times esportivos recorrem à estatística para tomar decisões inteligentes e melhorar a sorte de seu time.

Observação: Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 4, abril de 2011, pág. 38. A versão que vai ler a seguir foi revista e ligeiramente reescrita, mas as informações factuais são as que valiam na ocasião.


{1}/ Estudando os fundamentos do jogo

Videntes fazem previsões ousadas, mas difíceis de ligar a um evento específico, do tipo “um sol brilhará na aura da política brasileira”. Aí, quando um político faz alguma coisa bacana, o vidente grita: “Eu avisei!” O estatístico é uma espécie de vidente também, mas ele faz previsões modestas e técnicas. Num jogo de vôlei, por exemplo, se no time do Brasil estiverem presentes os jogadores Murilo Endres e Leandro Vissotto, o estatístico consegue prever: Murilo deve agir menos dentro de quadra, e deve fazer menos pontos, mas, na média, ele ajudará mais o time do Brasil — porque errará menos e dará menos oportunidades ao adversário. Leandro deve agir mais, e fazer mais pontos, mas ele errará mais — em média. O estatístico também prevê o seguinte: talvez nada disso aconteça.

O Brasil se tornou uma potência no vôlei: 317 medalhas de ouro, 199 medalhas de prata, 178 medalhas de bronze. Mas só se tornou potência porque usa, desde 1986, as ferramentas da estatística, como conta Sandra Caldeira, ex-jogadora de vôlei profissional — e formada em estatística.

Até 1986, todo mundo no Brasil avaliava jogadores de vôlei com base em achismos. Mas José Carlos Brunoro, na época assistente-técnico da equipe masculina adulta, queria reunir dados sobre os jogadores brasileiros e estrangeiros, especialmente os jogadores de Cuba, Itália, Rússia, e Estados Unidos. Para ganhar de times tão organizados, dizia José Carlos, era preciso reorganizar o modo como o Brasil administrava seus times. Para mudar a gestão, era preciso coletar números. E aí Sandra Caldeira aceitou o convite: ela usaria sua própria experiência como jogadora e seus conhecimentos de estatística para montar um sistema de avaliação de jogadores brasileiros e estrangeiros. “Naquela época”, diz Sandra, “fazíamos todo o trabalho na calculadora e preenchíamos as planilhas a lápis.”

Hoje, a equipe técnica dos times profissionais usa computadores para estudar duas características de cada jogador: eficácia e eficiência. Cada jogador em quadra toma iniciativas: saca, bloqueia, levanta, ataca. Quanto mais eficaz o jogador, mais ele converte suas iniciativas em pontos para seu time. Quanto mais eficiente o jogador, menos ele erra, ou seja, menos pontos ele entrega ao time adversário. Um jogador A pode ser mais eficaz que o jogador B, porque converte mais iniciativas em pontos; mas pode ser menos eficiente que o jogador B, porque erra mais. (Veja na seção 2 a definição precisa de eficácia e de eficiência.)

Murilo Endres, por exemplo, foi eleito o melhor jogador do Campeonato Mundial de Vôlei Masculino de 2010, realizado na Itália. Durante o campeonato, ele tomou a iniciativa 186 vezes, das quais em 89 vezes marcou pontos; em compensação, errou 22 vezes, ou seja, o adversário marcou 22 pontos por causa de seus erros. Sua eficácia ficou em 47,85%, e sua eficiência, em 36%.

Seu colega Leandro Vissotto, um dos melhores jogadores da nova safra, tomou a iniciativa 201 vezes, e marcou pontos em 101 delas; mas, em compensação, errou 36 vezes. Sua eficácia, de 50,24%, foi maior que a de Murilo Endres, mas sua eficiência foi menor: 32,34%. Por isso Murilo embolsou alguns milhares de dólares a mais que Leandro.

Membros da equipe técnica fazem contas assim para cada um dos “fundamentos do jogo”, como eles dizem: saques, bloqueios, passes, fintas, largadas. Eles contam o número total de ações (por exemplo, saques), o número total de acertos (pontos para o time brasileiro), o número total de erros (pontos para o time adversário), e fazem as contas, usando as fórmulas de eficácia e eficiência. Os jogadores se revelam mais ou menos eficazes e eficientes em cada um dos fundamentos.

Cara ou coroa? Cientistas separam os fenômenos da natureza em dois grupos: aqueles que podemos prever com certeza (os determinísticos) e aqueles que podemos prever com algum grau de certeza (os estocásticos , isto é, não determinísticos; às vezes, são também chamados de aleatórios, mas isso é controverso). Se alguém sobe na Torre de Pisa e solta uma bola de chumbo lá de cima, pode usar as leis da física para calcular, com precisão de milésimos de segundo, quanto tempo a bola vai levar para atingir o chão. E se alguém fizer isso 20 vezes, 20 vezes a bola de chumbo vai demorar o mesmo tempo para bater no chão. Uma bola de chumbo caindo da Torre de Pisa é, tudo indica, um fenômeno determinístico. Se alguém joga uma moeda comum para o alto, contudo, não tem como saber qual lado cairá para cima: cara ou coroa? Uma moeda comum jogada para o alto representa um fenômeno estocástico, que pode ser descrito com probabilidade e estatística: há 50% de chance de que saia cara ou, dizendo isso de outra forma, 50% de que saia coroa. Para cada caso, um evento em dois, isto é, 1/2.

No cotidiano, lidamos muitas vezes por dia com fenômenos estocásticos. Vai chover? O trânsito estará bom? Haverá fila no restaurante? Mas, principalmente: Meu time vai ganhar o jogo de hoje à noite?

Nem todos entendem o que significa usar probabilidade e estatística para lidar com um fenômeno estocástico. Se um cidadão joga uma moeda para cima, e sai coroa cinco vezes seguidas, da próxima vez a chance de sair cara continua em 50%. Cada lance é equiprovável, ou seja, independe do lance anterior. A cada lance, o cidadão não tem como prever o que sairá.

Se não presta para prever o futuro, para que servem a probabilidade e a estatística? Para tomar decisões inteligentes. Vamos supor que um engravatado se aproxime de um cidadão e lhe proponha uma aposta: “Vamos jogar cara ou coroa mil vezes. Se sair cara 600 vezes ou mais, você me paga 1.000 reais. Se sair cara menos do que 600 vezes, eu te pago 1.000 reais.” Das duas, uma: ou o cidadão está diante de um ignorante de estatística com a compulsão de jogar, ou está diante de um embusteiro, e ele tem uma moeda enviesada. Para quem joga uma moeda não enviesada para cima 1.000 vezes, a probabilidade de sair cara 600 vezes ou mais é de 9 ocorrências em 100 bilhões; em outras palavras, sair cara menos do que 600 vezes é quase certo.

Corinthians 1, Grêmio 3. Estatística e esportes nasceram um para o outro. Dois grandes matemáticos do século 17, Blaise Pascal e Pierre de Fermat, trocaram muitas cartas sobre como usar a matemática para calcular as chances num jogo de azar, e dessa correspondência surgiram as primeiras ideias sobre o que depois se chamaria teoria das probabilidades. Bem mais tarde, em 1952, Frederich Mosteller usou estatística para descrever um esporte moderno, o baseball; Frederich pegou dados de campeonatos e publicou suas descrições no jornal da Associação Americana de Estatística. Desde então, o número de trabalhos estatísticos sobre esportes modernos cresceu tanto que a associação americana foi obrigada a criar uma seção específica do jornal só para a estatística dos esportes. Além disso, em 2004 surgiu um jornal acadêmico só para isso — o ótimo Journal of Quantitative Analysis in Sports.

Os técnicos e a equipe técnica usam estatística para reconstruir a trajetória de jogadores talentosos. Quais eram seus números quando eram jovens e inexperientes? Como seus números foram se transformando ao longo do tempo, isto é, ao longo do treinamento e da convivência com jogadores mais velhos? Que exercícios e atividades modificaram mais seus números? Quando ele joga com o jogador X ou com o Y, seus números melhoram ou pioram? Qual é o intervalo ideal entre jogos? Havendo dados em bancos de dados, e havendo quem saiba mexer com estatística, a equipe técnica consegue achar respostas bem precisas para perguntas muito difíceis de responder só com achismos. Ela consegue, por exemplo, contratar jogadores cujas características numéricas complementem as características do time.

A estatística serve também para decidir o melhor jeito de ganhar do time adversário. Em 2001, no final da Copa do Brasil, o Grêmio precisava vencer o Corinthians num jogo em São Paulo. Se vencesse o jogo, levava a copa. O técnico Tite estudou as estatísticas disponíveis sobre o Corinthians, e descobriu que os zagueiros erravam muito no momento de passar a bola para a frente. Então, Tite deu instruções: quando a posse de bola estivesse com o Corinthians, todos os jogadores corintianos seriam marcados com empenho — exceto os zagueiros. Cedo ou tarde, o corintiano marcado passaria a bola para um dos zagueiros livres, que chutaria para a frente, erraria o passe e daria a oportunidade para um contra-ataque. Nesse caso, a estatística funcionou: o Grêmio ganhou o jogo (por 3 a 1) com dois gols desse tipo.

Na Universidade Federal de São Carlos (SP), o professor Francisco Louzada-Neto criou um grupo especializado em modelagem estatística de esportes. No caso do futebol, o modo mais comum de converter o esporte em modelos estatísticos é correlacionar o número médio de gols de um time com os fatores que influem na média daquele time, para descobrir se a média de gols aumenta ou diminui conforme muda o capitão do time, o mando de campo, o estádio, o grupo de atacantes, o grupo de zagueiros, o comportamento da torcida. Com base em informações histórias e em estimativas (ou chutes, na linguagem popular), Francisco monta um modelo estatístico (uma simulação de computador), e põe um time virtual para jogar com outros times virtuais; depois disso, bate suas previsões com os jogos reais, e vai aperfeiçoando o modelo conforme os jogos reais e virtuais acontecem.

Foi assim que Francisco e equipe previram quase tudo o que aconteceu na Copa do Mundo de 2010, na África do Sul. Eles previram que a África do Sul não passaria para a segunda fase, e a África do Sul não passou. Previram que a Itália e a França não chegariam a figurar entre os favoritos, e ambas saíram cedo da copa. Previram que os quatro times na semifinal sairiam do grupo composto por Espanha, Holanda, Argentina, Portugal, Inglaterra, Alemanha — e Brasil. Acertaram 75%, porque Espanha, Holanda, e Alemanha de fato foram para a semifinal.

Quem prevê o juiz? “Não conseguimos incluir nos nossos modelos estatísticos”, diz Francisco às risadas, “lances como goleiro tromba com volantes e Felipe Melo pisa em Robben.” Segundo os modelos do professor Francisco e de seus alunos, o Brasil tinha 51,5% de chance de vencer a Holanda. Mas futebol é assim. “Mesmo que um time tenha chances muito boas de vitória”, diz Francisco, “não significa que ele não possa perder.”

É impossível usar a estatística para melhorar o desempenho de uma moeda no cara e coroa. Moedas não aprendem, não desejam, não se intimidam. A probabilidade de cara será sempre 50%, e a de coroa também, não importa quantas vezes o técnico Tite amaldiçoe a moeda. E é possível usar a estatística (e as maldições) para melhorar as médias de um jogador e de um time, e nisso jogadores e moedas em nada se parecem. Mas eles se parecem muito numa outra coisa: o resultado de um lance específico é, e sempre será, imprevisível. Um grande jogador pode errar um pênalti. O número de variáveis a considerar é, pura e simplesmente, grande demais.

Dizem que, no vôlei, a ciência virou o sétimo jogador em quadra — mas quem joga mesmo é jogador de carne e osso. “Numa final”, diz Sandra Caldeira, “um atleta que estava com as melhores pontuações de repente desaba. Basta uma coisa simples, como uma lesão ou um erro da arbitragem, e muito do que era vantagem para o time do Brasil vira vantagem para o adversário.” {}



{2}/ Eficácia e eficiência no vôlei profissional

Onde:

E1 = eficácia;

E2 = eficiência;

P = pontos para o próprio time;

E = erros que resultem em pontos para o time adversário;

I = iniciativas dentro de campo.

Exemplos do Mundial de Vôlei Masculino 2010:

Murilo Endres (30 anos)

Leandro Vissotto (28 anos)

Em linguagem corrente: Leandro Vissoto age mais dentro de campo e, em razão de suas ações, o time faz mais pontos. Mas Leandro erra mais, e dá ao time adversário a chance de fazer pontos — por isso ele é menos eficiente que Murilo, um jogador que age menos e converte menos ações em pontos, mas, em compensação, erra menos.



{3}/ Cuidado com comparações indevidas

Richard Jaeger, um autor americano, diz que existem três personagens importantes na estatística: quem coleta os números, quem faz as contas, e quem lê.

Coletar números sobre fenômenos complexos é difícil. Se duas pessoas vão ao estádio só para contar o número de chutes a gol, as duas vão sair com números diferentes. “O quê?! Você contou aquele chute desanimado como chute a gol? O jogador chutou sem rumo, e a bola foi mais ou menos na direção do gol por coincidência.” A outra pessoa responderá: “Chute a gol é chute a gol, seja desanimado ou não, seja intencional ou não.” Pronto: as duas definições pelas quais interpretar a realidade resultam em dois números distintos.

Depois de coletados os números, chega a vez do matemático fazer contas. Se for jovem, recém-saído da faculdade, ele dará preferência para algumas das ferramentas da estatística. Se for velho e experiente, dará preferência para outras, ou talvez até use ferramentas de outros campos da matemática, como topologia algébrica ou sistemas dinâmicos.

E aí vem o leitor. Se existe 99% de chance de que o Brasil ganhe da Holanda, um leitor sem noções de estatística vai achar que o jogo está ganho. Vuvuzela nos laranjinhas! O leitor com noções, contudo, sabe que 1% de chance é suficiente para que o Brasil perca o jogo. Aliás, qualquer chance maior que zero, por pequena que seja, já seria suficiente.

Os erros mais comuns. Esses erros aparecem com frequência em programas de TV.

Dizer que um time não ganha do outro há 15 anos, quando, nos últimos 15 anos, os dois times só jogaram duas vezes.

Comparar um time de 1970, com Pelé e Tostão, com um time de 2011, com Alexandre Pato e Nilmar. Os dois times são incomparáveis, ou, melhor dizendo, só podem ser comparados em tese, por alguém que soubesse extrair a essência de cada um dos times para comparar as duas essências, mas duvido que exista alguém com esse poder. Além disso, segundo os mais competentes filósofos modernos, talvez não existam essências.

Achar que, se um jogador faz 5 gols a cada 100 chutes a gol, e se ele está para chutar para gol, sua chance de fazer gol é mínima. Não é. Na ponta do lápis, sua chance é de 5% — ou seja, sua chance de fazer gol é 2.503.193 vezes maior que sua chance de acertar na Mega-Sena, caso tenha apostado em seis dezenas.

Dizer que um jogador está numa boa fase ou numa fase ruim quando, fazendo as contas, ele está na média. Se a eficiência do jogador Murilo Endres é de 36%, significa que, a cada 186 iniciativas, ele pode errar 22 vezes seguidas. Será execrado pelos torcedores. Mas aí ele pontua 89 vezes seguidas. Será adorado pelos torcedores. O tempo todo, contudo, a taxa de eficiência permaneceu estável em 36%.



{4}/ Probabilidade: noções básicas

Se alguém realiza um experimento qualquer, deve usar a notação Pr(A) para marcar a probabilidade de que o evento A aconteça em razão desse experimento. Se A nunca ocorre em razão do experimento, Pr(A) = 0. Se A sempre ocorre, Pr(A) = 1. Para qualquer evento A, a Pr(A) é sempre maior ou igual a zero ou menor ou igual a 1, isto é, 0 ≤ Pr(A) ≤ 1.

Um espaço amostral S é um conjunto, cujos elementos representam tudo o que talvez aconteça em razão de um experimento qualquer. Um evento A também é um conjunto, que é subconjunto de S. Use a notação n(S) para denotar o número de elementos de S, isto é, o número de ocorrências possíveis em razão de um experimento; e use n(A) para denotar o número de elementos de A, isto é, o número de maneiras segundo as quais determinada coisa pode acontecer. Se S é um conjunto finito e as ocorrências possíveis são todas igualmente possíveis, daí a probabilidade de o evento A ocorrer nesse espaço amostral S será de:

Por exemplo, quando alguém joga uma moeda comum para cima, a moeda pode cair com cara, ou talvez com coroa. O espaço S de resultados possíveis é igual a {cara, coroa}, e n(S) = 2. Quanto ao conjunto A, faça A = {cara}; logo, n(A) = 1. Logo, a probabilidade de que saia cara (ou coroa) é igual a:

Se alguém joga dois dados sobre a mesa, dados comuns, a probabilidade de que saiam dois lados iguais a 5, dois lados iguais a 6, ou um lado igual a 5 e outro igual a 6 é de:

Leva anos para que alguém fique bom em probabilidade e estatística, porque essas duas áreas do conhecimento humano avançaram muito; mas ambas estão fundadas em ideias simples, que vale a pena conhecer bem.



{5}/ No basquete, os minutos finais contam

Narradores de jogos de basquete costumam dizer que o vencedor só se define nos instantes finais do jogo. Uma professora de estatística da Universidade Federal de Pernambuco (UFPE), Jacira Guiro Marino, decidiu ver se os narradores têm razão. Em 1992, nos Jogos Olímpicos de Barcelona, ela tentou prever o resultado do jogo masculino de Brasil contra Espanha, e descobriu que os narradores têm razão.

“Nos minutos finais da partida”, diz Jacira, “os times dependem muito dos instantes anteriores. Um modelo matemático só vai representar bem o jogo se ele incluir os eventos dos últimos instantes do jogo.” O modelo estatístico criado por Jacira só indicou o nome do provável vencedor no minuto final do jogo. “Existe um aprendizado durante o jogo, de maneira que um time que faz cestas de três pontos desde o início estará mais apto a fazê-lo também no final da partida.”

O jogo foi estudado como uma série temporal, em que o placar de determinado instante pudesse ser explicado pelos eventos e pelo placar dos instantes anteriores. Jacira considerou também a diferença de pontos entre os dois times ao longo do jogo. “A Espanha esteve à frente na maioria das vezes, e com diferenças grandes. Ela tinha mais história no jogo.” A Espanha venceu. {Fim}


Observações adicionais:

1. As entrevistas foram realizadas pela jornalista Andreza Emília Marino.

2. Que palavra é melhor: “chance” ou “probabilidade”? “Chance” é uma palavra coloquial, não técnica, em geral usada para dizer que certa coisa talvez aconteça (“Depois da entrevista pessoal, acho que tenho boas chances de ficar com a vaga”), ou que certo evento passado talvez tivesse acontecido de maneira diferente (“Se eu soubesse falar inglês melhor, minhas chances de ficar com a vaga teriam sido bem maiores”). “Probabilidade” é uma palavra técnica, assim como “estatística”. Aliás, probabilidade e estatística são duas coisas distintas: probabilidade é uma área da matemática, isto é, suas afirmações não se referem ao mundo real, mas são consequência de definições, axiomas, e regras de inferência declarados verdadeiros antes de tudo; estatística é uma área da ciência, isto é, suas afirmações se referem ao mundo real, e portanto devem ser constantemente cotejadas com o mundo real por meio de observações bem planejadas.

3. Aquilo que não é determinístico é estocástico, e não necessariamente aleatório. Alguns autores usam “estocástico” e “aleatório” como se fossem duas palavras intercambiáveis, mas outros reservam “aleatório” para designar espaços amostrais nos quais a probabilidade de qualquer um dos elementos do espaço é igual à probabilidade de qualquer outro elemento. (Logo, fenômenos aleatórios são subconjunto de fenômenos estocásticos.) Por exemplo, você pode ver {d1, d2, d3, d4, d5, d6} como um espaço amostral, e dizer que a probabilidade de cada um dos elementos é aleatória se e somente se Pr(d1) = Pr(d2) = Pr(d3) = Pr(d4) = Pr(d5) = Pr(d6) = 1/6. Depois disso, se quiser, pode usar esse modelo matemático para pensar sobre o resultado do lançamento de um dado comum, não enviesado. Porém, note que lançar um dado comum é algo do mundo real, isto é, algo distinto do modelo matemático.

4. Se você acredita na tese de que objetos abstratos são procedimentos com alto grau de exatidão, pode ver a probabilidade como sendo uma imensa fonte de procedimentos, com os quais talvez possa lidar com certos aspectos do mundo real.

5. Você pode adaptar as ideias da seção 2 para usá-las no mundo corporativo, isto é, no mundo dos negócios. Terá de pensar bastante para converter “pontos para o próprio time”, “erros que resultem em pontos para o time adversário”, e “iniciativas dentro de campo” em definições adequadas no negócio em questão, mas, caso tenha sucesso, poderá usar as ideias de eficácia e de eficiência para melhorar “os fundamentos do jogo” — desde que, é claro, saiba definir corretamente o que são os “fundamentos do jogo”.

Por que amostras revelam muito da população toda


Muita gente torce o nariz quando ouve falar em pesquisa por amostragem, pois acha errado usar um subconjunto da população para atestar características da população inteira. Mas um estatístico explica por que as técnicas de amostragem funcionam, e além disso como, sem elas, muitas empreitadas se tornariam inviáveis.


{1}/ O onipresente Caetano Veloso

Certa vez o entrevistador de um instituto de pesquisas visitava casas no bairro de Copacabana, no Rio de Janeiro; elas eram parte de uma amostra. Numa das visitas, tocou a campainha e deu de cara com um ator da televisão. “Claro que ninguém da pesquisa sabia que ele morava lá”, diz Antonio José Ribeiro Dias, especialista em amostragem do Instituto Brasileiro de Geografia e Estatística (IBGE). O ator foi escolhido não por ser famoso ou porque o entrevistador era um fã, mas porque, no mecanismo de seleção de amostras probabilísticas, todos os elementos do conjunto estudado têm chance maior que zero de fazer parte da amostra.

Quando o jornalista entrevista umas poucas celebridades, entre elas Caetano Veloso, e pergunta qual restaurante preferem, também está fazendo uma pesquisa por amostragem, mas não probabilística. “Nas amostras do IBGE, fugimos disso”, diz Antonio; “queremos uma amostra imparcial. Eventualmente até posso escolher o Caetano Veloso, mas não porque desejo isso e sim porque ele também tem probabilidade maior que zero de ser selecionado.” Na história do ator, ele tinha, como todos os moradores de Copacabana com mais de 60 anos, probabilidade de 1/n de ser escolhido para a amostra, sendo n o número de pessoas naquela população com as características desejadas pelo instituto. Ainda assim, quando ouve algo desse tipo, o leigo pensa em destino, sorte, azar. Talvez ficasse ainda mais surpreso ao saber que, na equipe de Antonio, uma entrevistadora foi selecionada para a amostra da própria pesquisa em que trabalhava. “Nós a tiramos da amostra, pois já conhecia a pesquisa; não fazia sentido ela se autoentrevistar. Então perdemos uma unidade.”

Antonio trabalha no IBGE desde 1981 e diz que, de lá para cá, a visão das pessoas sobre estatística mudou bastante. Não foi a amostragem ou a teoria que mudou, foram os profissionais de várias áreas que começaram a reconhecê-la como ferramenta; a informática ajudou. “Quando comecei minha vida profissional, as pessoas de outras áreas não tinham a menor noção do que era precisão, não sabiam diferenciar uma pesquisa por amostragem de uma censitária [na qual o instituto investiga a população inteira].” Na década de 1980, quando o apresentador do Jornal Nacional falava de uma pesquisa, não citava a margem de erro. Antonio percebe que hoje isso mudou; as pessoas se preocupam com o nível de precisão e com o método de amostragem. Hoje William Bonner sempre anuncia: margem de erro de tantos por cento para cima ou para baixo. “Aliás, ele nem precisaria falar isso, pois já subentendemos que a margem é para cima e ou para baixo.” Parte dessa mudança ocorreu porque muita gente estuda as noções básicas da estatística em cursos de outras áreas. “Claro que o estudante de psicologia não precisa saber o assunto tão bem quanto um estatístico, assim como o estatístico não é nenhum conhecedor de psicologia. Mas é importante fazer um curso introdutório para ter noção e até saber onde buscar ajuda.”

Um trabalho controlado. Para manter a precisão e controlar erros amostrais, o estatístico usa muitas ferramentas matemáticas para que não perca toda a pesquisa quando perde uma unidade da amostra, como no caso da entrevistadora selecionada. Mesmo na pesquisa censitária, pode perder unidades por vários motivos. Numa pesquisa domiciliar, por exemplo, o entrevistador pode bater na porta de alguém que está viajando, ou mudou de endereço, ou a pessoa pode se recusar a responder ao questionário, ou talvez se recuse a responder a uma das perguntas.

Caso o sujeito esteja viajando, diz Antonio, o pesquisador deve retornar algumas vezes, mas não por tempo indefinido, senão a pesquisa nunca termina. “Então acabamos com uma amostra menor do que esperávamos e, para contornar o problema, a gente superdimensiona a amostra para obter um tamanho que atinja a margem de erro.” O estatístico estuda uma margem de erro adequada, por exemplo 3%, então constrói uma amostra para um tamanho que tenha margem de erro menor que 3%. Assim, quando perde alguma unidade, tem uma amostra suficientemente grande para garantir a precisão que desejava.

Um estudante (vamos chamá-lo de Filipe) imagina uma situação hipotética, na qual estuda a altura de um grupo de pessoas. Antes de começar a coletar e analisar os dados, tenta responder a algumas perguntas:

Qual população vou estudar? Filipe imagina como analisaria a distribuição da altura de brasileiros entre 30 e 39 anos. Lembra que, para definir o tamanho da amostra, deve observar as características da população; usa a palavra “característica” no sentido usual: será que a altura varia muito de pessoa para pessoa? Com isso, vê por que estudar a mesma variável aleatória em amostras de tamanho diferente funciona. Quando observa a altura de brasileiros adultos, precisa de uma amostra menor, pois a variabilidade é menor. Contudo, ao observar a altura de brasileiros sem limite de idade, leva em conta bebês recém-nascidos e jovens adultos. “Se eu olhar apenas as pessoas adultas, a altura vai variar, mas não tanto”, diz Antonio. “Mas se medir a altura de pessoas sem limitação de idade, a mesma variável vai ter uma variabilidade muito maior. Daí preciso de uma amostra maior para captar essa variação.”

Quando lê ou ouve a palavra “população” todo mundo logo pensa em gente; contudo, na estatística, os especialistas usam população para falar de qualquer conjunto de elementos. Pode ser um conjunto de crianças, de canetas esferográficas azuis do mesmo modelo, de números pares. Filipe escreve no caderno uma população bem específica: “A população da altura de homens brasileiros entre 30 e 39 anos.” Vê na página do Wolfram Alpha na internet uma referência para a altura masculina e vê que 95% das medições ficam entre 160 e 193 centímetros. Acha um bom começo estudar números inteiros entre 160 e 193, ainda que ninguém cresça de centímetro em centímetro. Também lembra que, nesse conjunto, os elementos podem se repetir, pois vários homens têm a mesma altura. Ainda assim, não espera que muitos meçam 160 ou 193, mas sim que a maioria tenha mais ou menos entre 165 e 180 centímetros. Pensa numa situação com menos informações: se escrever a altura de cada homem num pepelzinho, colocar os papéis num pote preto e chacoalhar tudo, qual a probabilidade de sair um papel com 160? Deve ser pequena. E 159? Menor ainda, mas sabe que a probabilidade é sempre diferente de zero.

Como obtenho dados? Filipe pensa como o instrumento de coleta influencia no nível de precisão. Se, por exemplo, bater de porta em porta com uma boa trena e uma boa balança em mãos, e medir e pesar cada pessoa da amostra, terá dados mais precisos que se perguntar a altura da pessoa e anotar no questionário. O IBGE fez justamente isso em 2013, durante a Pesquisa Nacional de Saúde. “Certamente nem todas as pessoas se mediram na véspera e têm os resultados fresquinhos na cabeça. Quem não fez isso vai chutar a resposta, não é mesmo?” Mesmo o entrevistador pode sem querer introduzir erros durante a entrevista. Ele pode, por exemplo, mudar a entonação da voz ao fazer uma pergunta sobre saúde, levando o entrevistado a mentir em resposta, especialmente se estiverem conversando sobre uma doença mal vista na sociedade.

Antonio lembra quanto tempo demorou a sair os resultados do censo de 1980: uns 10 anos. Em 2010, o IBGE divulgou os primeiros resultados do censo um mês após o fim da coleta de dados. Até 2000, os entrevistadores preenchiam um questionário em papel, depois o instituto escaneava os papéis para o computador. “Se não me falha a memória, a máquina escaneava 72 folhinhas por minuto, mas também estava sujeita a erros.” Podia ser que o recenseador tivesse letra feia ou não apertasse a caneta direito, então os especialistas faziam uma amostra da transcrição de questionários para verificar se o escâner estava regulado. Uma equipe bem treinada de digitadores transcrevia os questionários para o computador, e daí os estatísticos comparavam se a informação escaneada e a digitada coincidiam; se tivesse muita divergência, interferiam no processo. “A gente verificava essas amostras continuamente para poder dizer a tempo: Opa! Esse lote aqui está com problema.”

Quais informações pertinentes vou tirar da amostra? Antonio ressalta sempre que pode: ao selecionar uma amostra, o estatístico quer descobrir coisas não sobre a amostra, mas sobre a população. O médico, por exemplo, tira uma amostra de sangue para ver se há algum problema no organismo do paciente. “Quando um instituto faz uma pesquisa de opinião, não quer dizer ‘Essa amostra tem a opinião tal…’ Ao contrário, quer dizer: Observando essa amostra, concluo que a população deve ter uma opinião próxima da opinião da amostra.”

Em qualquer tipo de pesquisa, seja ou não seja por amostragem, o especialista lida com aspectos mais importantes que outros, variáveis mais importantes que outras, e problemas mais complicados que outros. Mas Antonio diz que os erros mais problemáticos não são amostrais, e sim humanos. Para coletar dados, pessoas sujeitas a erros põem em prática instrumentos sujeitos a erros, que por sua vez medem características num objeto de pesquisa muitas vezes sujeito a flutuação. Daí entra de novo o trabalho do estatístico para minimizar e controlar esses erros. Por isso, ao fazer uma pesquisa, o especialista depende mais da variabilidade do conjunto que vai estudar e da precisão que quer atingir que do tamanho da população. Se, por exemplo, todas as unidades daquela população têm certa característica sempre do mesmo jeito, uma amostra de tamanho 1 diz tudo sobre aquela população.

Contudo, ouse pedir um exemplo do mundo real de amostra igual a 1… O estatístico põe a mão no queixo, pensa um pouco, mas não consegue um bom exemplo. “Se pegar um cacho de uva, cada uma parece igual à outra, mas se olhar mais de perto verá que uma sempre é menor [ou mais doce, ou mais roxa…] que a outra”, diz Antonio. “É difícil pensar numa população homogênea no que diz respeito ao fenômeno que queremos analisar.” Mas também de que serviria para o estatístico estudar uma população homogênea?

Ao pensar no tamanho da amostra, Filipe deve pensar em proporção. Por exemplo, um fabricante de parafusos produz 1.000 unidades por dia e vê que, numa pesquisa por amostragem, 1% deles sai com defeito. Se acha essa taxa de erro inaceitável, e gostaria de reduzir os parafusos fora das especificações para 0,5%, daí deve aumentar o tamanho da amostra. (Isso é fácil de ver: se o fabricante quer erro de 0%, tem de examinar todos os parafusos um por um.) Antonio resume: o tamanho da amostra depende muito da precisão que o fabricante quer atingir e da homogeneidade do produto. Contudo, muitos não acreditam em pesquisas estatísticas; acham que não é possível esse negócio de falar com um grupo de brasileiros e afirmar coisas sobre a população inteira. Mesmo executivos de empresas grandes, com MBA nas costas, contratam estatísticos para varrer todo um banco de dados, quando gastaria menos e obteria a mesma informação se deixasse o estatístico estudar só uma amostra dos dados. Também nem sempre uma amostra maior significa uma melhor, pois a qualidade depende do modo como foi selecionada. Antonio explica que, por exemplo, pode selecionar uma amostra aleatória simples de tamanho n numa população de N unidades e terá certa precisão. Contudo, se puder agrupar as unidades semelhantes da população em grupos homogêneos, e selecionar uma amostra de cada grupo, então essa amostra pode fornecer estimativas mais precisas; o nome técnico disso é “amostragem por estrato”.

Quando algum conhecido desconfia da amostragem, Antonio dá exemplos de coisas que uma pessoa só pode descobrir por amostragem. Ele adora cozinhar, então propõe a cena: o conhecido vai cozinhar arroz. Coloca a cebola, o alho e o azeite na panela, espera dourar, coloca o arroz, tosta o arroz um pouquinho e, por fim, coloca a água e o sal. “Depois o que faz? Mexe e experimenta para ver se o tempero está bom. É algo que só pode fazer por amostragem, pois se fizesse um censo teria de comer todo o arroz — o resto do pessoal em casa morreria de fome!” [risos] Além disso, o sujeito que usa bem a amostragem consegue obter resultados com maior rapidez. Só precisa ter consciência de que está lidando com estimativas, e não verdades absolutas. “Se a amostra for bem-feita, usando ferramentas adequadas, temos a certeza de que há uma probabilidade muito grande daquele resultado estar bem perto da verdade. Inclusive a gente mede isso com o que chamamos de margem de erro.”

Quando o conhecido vai à feira e experimenta, por exemplo, um pedaço docinho do melão, toma uma decisão com base numa amostra. Pode levar para casa um melão sem graça, aguado. Pobre do feirante se o único melão ruim da banca era justamente aquele que o cliente levou. Comparada ao nível de sal na colherinha com a água do arroz, a variância na população dos melões é maior; o grupo é mais heterogêneo, e daí o processo de amostragem, embora seja eficiente, está mais sujeito a erros.

Antonio lembra que, na véspera da última eleição presidencial [em 2010], um grande jornal fez uma enquete via internet perguntando quem ganharia. 80% das pessoas responderam José Serra, mas no dia seguinte Dilma Rousseff ganhou. Será que o pessoal da enquete errou feio no jeito de fazer a pesquisa? Será que puxaram sardinha para o candidato da oposição? Será que algo fez os brasileiros mudar de ideia da noite para o dia? Não. Na verdade, diz Antonio, um erro comum é atribuir o resultado de uma enquete à população errada. As pessoas que responderam representam um grupo bem específico da população: são leitores daquele jornal, têm acesso à internet, e se dispuseram a responder à pergunta postada no website do jornal. Antonio ilustra esse erro usando uma situação mais explícita: “É como se um estrangeiro desembarcasse no Brasil e perguntasse qual foi o maior jogador de futebol de todos os tempos. Pelé. Mas e se desembarcasse na Argentina e fizesse a mesma pergunta? É por isso que precisamos tomar cuidado com o jeito como selecionamos a amostra.”

Antonio diz que nunca na vida foi escolhido para nenhum tipo de pesquisa por amostragem. “Infelizmente, também nunca ganhei na Mega-Sena. Se eu puder escolher, prefiro ganhar na Mega-Sena!” {}



{2}/ O teorema central do limite

Antonio José Ribeiro Dias, estatístico do IBGE, diz que este é o “pulo do gato” na teoria da amostragem. Antes de expressar o teorema em palavras, o estudante (codinome Filipe) faz melhor se puder visualizar o modo como ele funciona.

No primeiro passo, Filipe imagina um conjunto cujos elementos são variáveis aleatórias, mas são todas variáveis do mesmo tipo (por exemplo, o peso das crianças de 10 anos, ou a altura das mulheres de Natal, ou a temperatura no pico das Agulhas Negras às 11 horas da manhã de cada dia, mas nunca o peso e a temperatura misturados). Ele pode chamar esse conjunto de “população”. Em termos técnicos, e para simplificar, todas as variáveis da população devem ter o mesmo tipo de distribuição de probabilidade, com média μ e variância finita σ2 (a letra grega σ denota o desvio padrão; desvio padrão ao quadrado é variância). Chama esse conjunto de P(X), isto é:

Filipe usou as reticências para indicar uma coisa importante: talvez esse conjunto tenha um número infinito de elementos ou, de qualquer forma, talvez um número muito grande. No caso da temperatura no pico das Agulhas Negras: enquanto o pico existir, ele terá uma temperatura qualquer às 11 horas da manhã de cada dia. (Os elementos de P(X) não estão ordenados de modo nenhum; X1 significa apenas “primeiro elemento de P(X)”, mas não necessariamente “elemento de menor valor” ou “elemento de maior valor”.) De posse dos elementos de P(X), Filipe pode calcular a média aritmética μ e a variância σ2. Note bem o que Filipe fez aqui: ele conhecia os elementos da população, e com isso calculou a média μ real e a variância σ2 real.

Mas e se ele não tivesse como conhecer todos os elementos da população? Como faria para selecionar um subconjunto dessa população e, a partir dos elementos desse subconjunto, estimar o valor de μ e de σ2? (Em termos práticos: se Felipe medisse a temperatura no pico só uns dias por ano, mesmo assim poderia estimar a média e a variância reais?) Um ótimo primeiro passo é sortear, 100% ao acaso, n elementos de P(X). Tal subconjunto ganha o nome de “amostra”, e Filipe pode denotar uma amostra de n elementos de P(X) com a notação Pn(X).

Um detalhe de notação: o X1 de Pn(X) não necessariamente é igual ao X1 de P(X); pois o X1 de Pn(X) pode ser, por exemplo, o X759 de P(X). De novo, X1 agora significa “primeiro elemento a ser sorteado entre os elementos de P(X) e a ser colocado em Pn(X)”.

Agora Filipe tira a média aritmética dos elementos de Pn(X). Pode chamá-la de “média amostral” e pode denotá-la, se quiser, com o símbolo x’n:

Atenção ao que aconteceu com a notação: Filipe agora usou letras minúsculas. Isso porque x1 é o valor específico que a variável aleatória X1 exibiu; e x2 é o valor específico de X2. (Por exemplo: “o primeiro brasileiro sorteado, o Eliseus, media 176 centímetros de altura”, de modo que X1 = Eliseus e x1 = 176.) Se quiser, Filipe pode denotar o conjunto específico de valores de Xn assim: an(X) = {x1, x2, x3, …, xn}. (Nenhum desses detalhes de notação é obrigatório; Filipe está usando aqui a notação que Antônio acha mais eficiente.)

Filipe guarda essa média x’n e recorre a um computador para executar um passo mais complicado. Ele começa com um sistema cartesiano comum. No eixo X, marca quantos valores de Pn(X) ficaram iguais ou quase iguais a certo valor. Por exemplo, se está medindo a altura das mulheres de Natal, marca quantas mulheres da amostra têm 152 centímetros. No eixo Y, marca a altura: 152. Fazendo assim, Filipe vai montar um histograma como o da figura 1.

Depois Filipe põe o computador para achar a curva normal que mais se aproxima dos dados da amostra (na figura 1, é a curva em azul). O nome técnico disso é “regressão”, isto é: visto que Filipe tem uma amostra de dados aleatórios, e visto que desconfia que os dados seguem uma distribuição normal de probabilidade, qual é a curva normal que mais se aproxima dos dados? O computador vai realizar os cálculos e devolver uma curva cuja equação é:

Em outras palavras, o computador devolve o que julga ser a média μ e o desvio padrão σ2 da população; Filipe pode denotar essa equação inteira com o símbolo N(μ, σ2). Com esses dois valores μ e σ, mais o valor da média amostral x’n, Filipe pode realizar a conta abaixo:

Pronto! Filipe já tem condições de examinar uma definição do teorema central do limite: conforme o número de elementos n da amostra Pn(X) aumenta, a distribuição de Zn tende à distribuição normal padrão. Esse teorema é importante porque a distribuição normal padrão é superconhecida: a média é 0 e o desvio padrão é 1; em outras palavras, é a distribuição N(0, 1). Assim, o teorema central do limite diz que:

Filipe tenta rever tudo isso, e se imagina numa situação prática: obteve a altura de 300 brasileiros, sorteados ao acaso. Com o computador, por meio de regressão, calculou a média μ da altura dos 300 brasileiros e o desvio padrão σ. E daí ele vai sistematicamente e passo a passo: sorteia, talvez, 50 alturas dentro do conjunto de 300 alturas, para calcular x’n e Zn. Marca num gráfico o ponto cujas coordenadas são, no eixo das abscissas, o valor de x’n, e no eixo das ordenadas, o valor de Zn. E depois sorteia outras 50 alturas, e repete o processo. E depois outras 50. E outras. E outras. E depois sorteia 60 alturas, e repete o processo várias vezes. E assim vai. Ao olhar os pontos que está marcando no gráfico, vê que devagar eles formam uma curva normal. Daí Filipe usa as informações a respeito dessa curva que emergiu do processo para obter mais informações sobre os valores de P(X), especialmente a média μ verdadeira e o desvio padrão σ verdadeiro. E daí repete de novo o processo inteiro, para verificar tudo. E de novo.

Tudo isso é fácil com um computador e com software especializado. Depois que os dados já estão armazenados no computador, Filipe precisa de uns poucos dias para concluir o processo.

Outro jeito de olhar isso (há muitos jeitos): se Filipe obtiver um número n de valores de P(X), número esse grande o suficiente, e calcular a média aritmética dessa amostra Pn(X), daí a média aritmética dessa amostra estará próxima da média da curva N(μ, σ2/n). Como Filipe pode interpretar essa afirmação? Ele pega a fórmula da distribuição normal, substitui a média μ pela média aritmética da amostra, e daí, como sabe o valor de n, calcula o valor do desvio padrão σ. Com isso, tem as informações sobre a população P(X) como um todo.

O teorema central do limite garante a validade de uma afirmação importante: com uma amostra de tamanho adequado, o estatístico obtém as informações essenciais sobre o conjunto P(X) inteiro, por maior que seja. Filipe pode chamar tais informações de “estimativas”, e agora consegue entender o que os estatísticos vivem dizendo: é verdade que, quanto maior o valor de n, mais próximas as estimativas ficam dos valores reais; contudo, em milhares de situações práticas, as estimativas ficam muito próximas dos valores reais mesmo para amostras bem menores que a população inteira. Por consequência, se Filipe escolheu uma amostra de perfil e de tamanhos adequados, fica dispensado de estudar a população inteira, o que, aliás, com frequência é impossível. Filipe tenta colocar toda a questão em termos muito simples: “Penso que seria fácil encontrar um homem que mede 193 centímetros de altura. Também seria fácil encontrar um homem que mede 160 centímetros de altura. Mas seria bastante difícil sortear 300 brasileiros e obter uma altura média de 193 centímetros ou uma altura média de 160 centímetros. Com 300 brasileiros na minha amostra, sorteados ao acaso, é muito provável que eu obtenha uma altura média próxima da altura média do brasileiro em geral.”

Nota. Em inglês, o teorema se chama “central limit theorem”; no Brasil, ele ora aparece como “teorema central do limite” e ora como “teorema do limite central”. Antonio prefere “teorema central do limite”, pois reflete melhor a história do teorema, na qual a palavra “central” sempre teve o sentido de “importante”, “principal”.



{3}/ O tamanho da amostra

Para o estudante (codinome Filipe) visualizar como o tamanho da amostra se comporta, Antonio José Ribeiro Dias, estatístico do IBGE, propõe um gráfico que relaciona o tamanho da população (N) e o tamanho da amostra (n). Detalhes técnicos: ele supõe variância de 10.000, margem de erro igual a 10, e nível de confiança de 95%. O leitor pode ver que conforme N cresce, n também cresce, mas a razão n/N tende a zero, isto é, n cresce a um ritmo muito menor que N. Ou seja, conforme o tamanho da população que estuda tende ao infinito, o tamanho da amostra tende a se estabilizar num valor finito. Segundo Antonio, é por isso que, ao fazer pesquisas eleitorais em São Paulo e no Rio, os institutos usam amostras de tamanho quase igual, ainda que São Paulo contenha quase o dobro de habitantes.

Nível de confiança. Em termos bem simples, “nível de confiança de 95%” significa o grau de certeza de que o valor de cada uma das variáveis na amostra está dentro da margem de erro. Mais precisamente, significa: ao longo dos milênios, caso você repita o procedimento de amostragem a intervalos regulares, o valor que obterá ao medir cada uma das variáveis da amostra ficará dentro da margem de erro em 95% das vezes; mas em 5% das vezes ficará fora da margem de erro, ou talvez bem fora. Apesar disso, no caso de fenômenos complicados, o pesquisador raramente pode dizer com certeza se os valores de sua amostra estão ou não estão dentro da margem de erro; tudo o que pode dizer é que, do modo como organizou a pesquisa, o nível de confiança é de 95%.

{FIM}



Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 42, julho de 2014, pág. 50. A versão que acabou de ler foi revista e ligeiramente reescrita, mas as informações factuais são as que valiam na ocasião.

2. A entrevista ficou a cargo da jornalista Mariana Osone, assim como a primeira versão do texto final.

3. Há várias outras matérias sobre probabilidade e estatística neste blogue, algumas fáceis e outras nem tão fáceis. Para vê-las todas em sequência, da mais recente à menos recente, clique aqui.

DNA: a lenda do teste infalível

Na primeira vez em que policiais usaram exames de DNA numa investigação, tiraram um inocente da cadeia e um assassino das ruas. Com uma estreia dessas, os exames de DNA ganharam a fama de infalíveis, mas essa fama não se justifica.


{1}/ Erros de procedimento

Que tipo de jovem entra no curso de medicina da Universidade de São Paulo? Ele é inteligente, e estuda feito um escravo, pois cada vaga do curso é disputada por 52 pessoas. Dentro da faculdade de medicina, há um curso de medicina legal. Na primeira aula desse curso, contudo, os professores têm de dar uma explicação: caros calouros, isto aqui não é o seriado de TV Crime Scene Investigation.

É o “efeito CSI”, como tem sido chamado por especialistas: todo mundo acha que vai achar um fiozinho de cabelo num porão escuro, vai submetê-lo a um teste de DNA, e vai usar os resultados para soltar um inocente da prisão (pobre) e prender um culpado que estava solto (rico). “Esse programa, e outros programas de TV do mesmo tipo, atraem jovens para o curso de medicina legal”, diz Cintia Fridman, bióloga, especialista em genética, e professora na faculdade de medicina. “Eles acham que vão chegar aqui e ter um curso de CSI, para resolver crimes. A primeira coisa que deixamos claro é que não temos um laboratório de CSI.” A USP, sendo uma universidade, nunca recebe material de crime. “Não temos casos reais para resolver.” Nos Estados Unidos, há relatos de jurados inconformados com o fato de que, no julgamento do qual fazem parte, ninguém fez testes de DNA em ninguém. Para eles, uma investigação policial sem teste de DNA é de um baixo nível indesculpável.

A lenda de que testes de DNA são infalíveis surgiu já na primeira vez em que foram usados numa investigação policial, e de lá para cá a lenda só se fortaleceu. O raciocínio funciona mais ou menos assim: a chance de que um teste de DNA positivo seja um falso positivo é de 1 em 1 milhão (por exemplo, o teste que liga o suspeito X ao sêmen de um estuprador, coletado no corpo da vítima). Alguns especialistas falam em 1 em 1 bilhão. Sendo assim, se o teste deu positivo, o caso está encerrado: basta jogar o suspeito X na cadeia. Esse raciocínio tão comum está errado, pois a humanidade ainda não sabe até que ponto um teste de DNA vale por si só.

O esquisitão inocente. Em 1983, no vilarejo de Narborough, no condado de Leicestershire (Inglaterra), um daqueles lugares que serviriam de cenário para filmes de época, alguém achou o corpo de Lynda Mann, de 15 anos. A polícia chegou à conclusão de que ela tinha sido estuprada e assassinada logo em seguida, e colheu amostras do sêmen deixado no corpo da vítima pelo estuprador. Especialistas em análises químicas disseram que o assassino produzia sêmen com uma enzima especial; só 10% dos homens fazem isso. Sem mais pistas, o caso ficou em aberto.

Em 1986, três anos depois, a polícia achou o corpo da jovem Dawn Ashcroft, também de 15 anos, nos arredores do vilarejo de Enderby, perto de Narborough. Ela havia sido estuprada e assassinada do mesmo jeito que Lynda Mann. De novo, a polícia coletou amostras do sêmen do estuprador. Um sujeito esquisito, Richard Buckland, confessou os dois crimes e foi preso. Por acaso, vivia no condado de Leicestershire o médico e geneticista Alec Jeffreys, professor na Universidade de Leicester. Um ano antes, em 1985, Alec havia publicado um artigo na revista Nature, no qual tratava de certas regiões do DNA. Alec chamou essas regiões de minissatélites, e escreveu que, por meio delas, um especialista poderia identificar uma pessoa com “quase 100% de certeza”. Ele também chamou essas regiões de “impressões digitais de DNA”.

A polícia conversou com Alec, e ele realizou exames de DNA com amostras do sêmen dos dois estupradores e de Richard Buckland, o réu confesso. Descobriu que as amostras pertenciam ao mesmo homem, e que esse homem não podia ser Richard Buckland. Parece que o esquisitão só queria publicidade, e conseguiu: entrou para a história como o primeiro inocente a se ver livre da cadeia por conta de um exame de DNA. As autoridades de Narborough simularam uma campanha de doação de sangue, e o médico Alec Jeffreys pôde analisar o DNA de 3.600 homens — toda a população masculina do lugar, com idade entre 14 anos e 40 anos. Segundo Alec, nenhum daqueles homens podia ser o estuprador.

Parecia que o assassino sairia impune, mas, como nos bons romances policiais, houve uma reviravolta. Em 1988, uma mulher contou à polícia que tinha ouvido uma conversa, na qual Ian Kelly, um funcionário de uma padaria de Narborough, disse que, na campanha de doação de sangue de dois anos antes, ele havia entrado na fila para doar sangue no lugar de um colega padeiro, chamado Colin Pitchfork. Então, as autoridades tinham exames de DNA de Ian Kelly marcadas como se fossem de Colin Pitchfork. A polícia foi atrás de Colin, que não teve escapatória senão fornecer seu próprio sangue para um exame de DNA. Os resultados mostraram que o estuprador e Colin eram a mesma pessoa. Colin confessou os crimes, e entrou para a história como o primeiro homem a ser condenado por causa de um exame de DNA.

O maior de dois erros. Com uma estreia dessas, todo mundo entende por que os exames de DNA se transformaram na prova das provas e por que vivem aparecendo em episódios de CSI. No entanto, quando um especialista faz testes de DNA para determinar se um suspeito fez ou não fez o que não deveria ter feito (matar alguém, ou gerar um filho e negá-lo), o especialista se concentra em apenas 13 regiões do DNA. Essas regiões são chamadas de marcadores genéticos, e contêm certas sequências de nucleotídeos repetidas uma depois da outra (ou em repetidas em tandem, como dizem os especialistas). As repetições são conhecidas pela sigla em inglês, STR, de short tandem repeats, e são uma espécie de minissatélite tal como descrita por Alec Jeffreys na revista Nature. No artigo “It’s a Match”, Philip Dawid e Rachel Thomas dão como exemplo o marcador D7S280, localizado no cromossomo 7, no qual a sequência GATA aparece em tandem entre 6 e 15 vezes no DNA humano. Philip e Rachel incluem no artigo um trechinho do marcador D7S280 de uma pessoa real, no qual a sequência GATA aparece em tandem 12 vezes:

AATTTTTGTATTTTTTTTAGAGACGGGGTTTCAC

CATGTTGGTCAGGCTGACTATGGAGTTATTTTAAGG

TTAATATATATAAAGGGTATGATAGAACACTTGTCATA

GTTTAGAACGAACTAACGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGATAGACA

GATTGATAGTTTTTTTTTATCTCACTAAATAGTCTAT

AGTAAACATTTAATTACCAATATTTGGTGCAATTCT

GTCAATGAGGATAAATGTGGAATCGTTATAATTCTT

AAGAATATATATTCCCTCTGAGTTTTTGATACCTCAGATTTTAAGGCC

Os 13 marcadores genéticos. CSF1PO, D3S1358, D5s818, D7s820, D8S1179, D13s317, D16s539, D18s51, D21s11, FGA, THO1, TPOX, VWA. Esses 13 marcadores estão descritos num banco de dados conhecido como sistema Codis, organizado pela polícia federal dos Estados Unidos (FBI), mas também usado pela polícia de muitos outros países, inclusive pela polícia brasileira.

Num exame de DNA, especialmente num exame feito para investigações policiais, em geral o especialista conta o número de STRs em cada um desses 13 marcadores; a possibilidade de que duas pessoas tenham a mesma quantidade de STRs em todos os marcadores é de 1 em 1 milhão para alguns especialistas, e de 1 em 1 bilhão para outros. (Essa diferença é bem grande. O estudante pode imaginar um carro de 4 metros de comprimento como sendo 1 em 1 milhão; nesse caso, 1 em 1 bilhão significa um risquinho de 4 milímetros de comprimento na pintura desse carro.)

Mas esse não é o principal problema, avisa Leonard Mlodinow no livro O Andar do Bêbado. Qualquer equipe de especialistas que realize procedimentos complicados vai errar uma vez a cada cem vezes que realiza cada procedimento. Esse número está em artigos científicos sobre controle de qualidade, e vale para equipes que constroem carros, fazem transplantes do coração, investigam assassinatos — e coletam amostras de elementos do corpo humano para análise de DNA. Como é pouco provável que os dois erros ocorram ao mesmo tempo, isto é, que a equipe de investigadores erre ao coletar amostras e que o exame dê um falso positivo, Leonard diz que essa possibilidade pode ser desprezada. Então, o negócio é achar a probabilidade de que tenha acontecido ou um erro ou o outro. O resultado seria uma soma: 1% mais 0,0001% (isso para ficar com a probabilidade maior de erro num teste de DNA impecável — de 1 erro em 1 milhão de testes). “Como o segundo caso é 10.000 vezes menor que o primeiro”, escreve Leonard, “uma excelente aproximação de que ocorra um dos dois erros é igual à chance do erro mais provável — ou seja, a probabilidade [de erro num exame de DNA] é de 1/100.”

Para ter uma ideia do que significa essa taxa de erro, o estudante supõe esta situação: ele virou o suspeito número 1 de um crime hediondo, mas é inocente. Um policial se aproxima e diz:

“Vou jogar essa moeda para cima sete vezes. Se sair cara sete vezes seguidas, você será condenado pelo crime e passará o resto da vida na cadeia.”

Ora, um exame de DNA parece infalível numa situação dessas? Paul Kinas, professor do Instituto de Matemática, Estatística e Física da Universidade Federal do Rio Grande, diz que se esforça para que seus alunos entendam que todo ser humano, inclusive o cientista, inclusive o especialista em DNA, trabalha constantemente com informações incompletas. Para piorar, em geral não têm boas noções do papel do acaso no universo — só com treinamento um ser humano passa a compreender o acaso bem. “Forçosamente as informações que coletamos estão sujeitas a erros”, diz Paul. “Elas são passíveis de modificação com a aquisição de mais informações.” Paul já usou exames de DNA para estimar em que locais nascem as espécies de tartarugas encontradas na região sul do Brasil. Não há nenhum crime envolvido, e nenhuma tartaruga tem condições de se opor à coleta de sangue, e mesmo assim Paul não pode dizer com certeza absoluta em que locais elas nascem. {}



{2}/ Apêndice: informações adicionais

DNA. Para resumir bem, o DNA é uma molécula muito longa, organizada no formado de uma dupla hélice, e que está presente no núcleo de quase todas as células de quase todos os seres vivos. O DNA é uma espécie de livro de instruções escrito com quatro letras (A, T, G, C; essas “letras” são os nucleotídeos); cada célula do corpo segue certos trechos desse livro ao nascer, ao se reproduzir, e ao realizar tarefas bioquímicas de manutenção. Os trechos mais importantes do DNA são conhecidos como genes (cada gene contém instruções para a fabricação de uma proteína); quando uma célula se divide (por exemplo, na reprodução sexuada), os genes se juntam sozinhos em grandes grupos, batizados de cromossomos.

Deu positivo? Prenda! Nos Estados Unidos, um tribunal do estado de Oklahoma condenou Timothy Durham a mais de 3.100 anos de prisão por causa de um estupro. O teste de DNA realizado com o sangue de Timothy deu positivo para o sêmen do estuprador — mas 11 testemunhas disseram que viram o suspeito em outro estado no momento do crime! Mais tarde, os especialistas perceberam que o laboratório não tinha sido competente o suficiente para separar completamente o DNA da vítima do DNA do estuprador. Timothy foi solto depois de quatro anos de cadeia. {FIM}


Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 18, julho de 2012, pág. 36. A versão que acabou de ler foi revista e ligeiramente reescrita, mas as informações factuais são as que valiam na ocasião.

2. As entrevistas foram realizadas pelo jornalista Evanildo da Silveira.

3. Hoje o sistema Codis tem 20 marcadores genéticos. Além disso, a análise de material genético está mais automatizada. Logo, a probabilidade de falso positivo diminuiu. Contudo, a probabilidade de erros de procedimento continua mais ou menos a mesma, 1/100, e, além do mais, os testes de DNA estão mais baratos, e por isso são feitos mais frequentemente. Uma probabilidade menor de falso positivo aplicada a um número maior de testes pode resultar num número não desprezível de falsos positivos. Em resumo: testes de DNA são bons, mas toda instituição deve pensar duas vezes antes de usá-los para prejudicar uma pessoa, especialmente se outras evidências sugerem que essa pessoa é inofensiva.

A lógica dos crimes: não existe maldade inexplicável


O estudioso, ao seguir métodos estatísticos, põe essa lógica no papel com clareza, e faz até mesmo um governador influente admitir seus erros.


{1}/ Pesquisador contra político

O governador Sérgio Cabral Filho (PMDB) assumiu o Estado do Rio de Janeiro em 2007 e, poucos anos depois, pôde comemorar um dos feitos de seu governo: no triênio de 2007 a 2009, a taxa de homicídios no estado tinha ficado em 16.753 casos. Esse número representava queda de 22% na taxa de homicídios em relação ao triênio anterior, pois, de 2004 a 2006, ocorreram 21.558 homicídios no estado. Daniel Cerqueira, economista, pesquisador no Instituto de Pesquisa Econômica Aplicada, desconfiou. Até onde ele sabia, tudo no estado estava funcionando mais ou menos como antes; a única mudança significativa em 2007 tinha sido um novo governador. “Se uma diminuição dessa ordem na taxa de homicídios fosse verdadeira”, conta Daniel, “representaria um caso de sucesso internacional de combate à violência.”

No mundo inteiro, políticos e policiais tendem a esconder os mortos por assassinato recorrendo a classificações neutras ou até ridículas. Se o país é governado por uma ditadura, acontecem os casos em que a vítima se enforca com as próprias meias, como se isso fosse possível. Se o país é mais democrático, as autoridades escondem os assassinatos em classificações mais neutras, do tipo “morte por motivos indeterminados”. Por isso Daniel Cerqueira seguiu um conselho da Organização das Nações Unidas: Em vez de pedir dados ao gabinete do governador ou ao chefe da polícia, peça dados de instituições de saúde — por exemplo, hospitais. No Brasil, profissionais de saúde registram as ocorrências de acordo com metodologia aprovada na Organização Mundial da Saúde; se não fizerem isso, o Brasil perde o direito de tomar empréstimos de instituições como o Banco Mundial. Além do que, diz Daniel, no Brasil o Ministério da Saúde disponibiliza os dados na internet. “Os registros policiais são pouco confiáveis.”

Padrões bem demarcados. No Brasil, quando ocorre uma morte violenta, ou quando alguém morre em circunstâncias desconhecidas (em casa, por exemplo), só um médico legista pode emitir o atestado de óbito, e depois de realizar uma autópsia. Ao preencher os formulários, o legista deve preencher um campo dizendo qual foi a circunstância que levou a vítima à morte — não a causa física da morte (uma bala alojada na cabeça), mas a circunstância que levou alguém a atirar na vítima (latrocínio, que é assalto seguido de assassinato). Quando o legista não tem informações, ele anota nesse campo um código que significa “indeterminado”. Depois do legista, o atestado de óbito é entregue a um profissional chamado codificador da classificação internacional de doenças. Esse profissional entra em contato com a polícia. Se obtiver mais informações, o codificador troca o “indeterminado” por algum código mais preciso.

Quando Daniel obteve os dados do Ministério da Saúde, notou que, no triênio 2007-2009, o número de “mortes violentas por causas não determinadas” havia aumentado quase 25% em comparação com o triênio 2004-2006. Em vez de 16.753 casos no total, como divulgou o governador Sérgio Cabral, Daniel achou que o número correto seria algo em torno de 21.000 casos. Ao comparar os dados do Rio de Janeiro com os de outros estados, surpreendeu-se: em todo o Brasil, esse tipo de morte estava diminuindo, e não aumentando. “Entre 2000 e 2009”, diz Daniel, “a taxa de mortes violentas por intenção indeterminada diminuiu de 6 por 100.000 habitantes para 5 por 100.000 habitantes. No Rio, essa taxa dobrou para chegar a 20 por 100.000 habitantes em 2007, e continuou a aumentar nos anos seguintes.”

Nos países da Europa, diz Daniel, classificar as circunstâncias de uma morte violenta como “indeterminadas” é exceção. No Rio, ele não pôde comparar os dados do Ministério da Saúde com os dados da polícia, pois, em 2007, o governador havia sancionado uma lei para impedir um cidadão comum de olhar os registros da política; para olhar, só sendo do próprio governo.

Apesar disso, Daniel usou métodos da estatística para analisar os dados que tinha em mãos. Um fenômeno como esse, o de mortes violentas, funciona de acordo com certos padrões, que Daniel chama de “padrões estatísticos de regularidade”. No Brasil, se uma pessoa se suicida, é mais provável do que improvável que ela seja adulta, branca, e com nível universitário; e é mais provável que tenha cometido o suicídio em casa. Se uma pessoa morre em razão de uma queda, é mais provável que seja idosa. E se uma pessoa morre em circunstâncias violentas, é mais provável que ela tenha menos de 20 anos, seja negra ou parda, e que tenha morrido na rua, possivelmente com tiro. Diz Daniel: “Esses padrões estão bem demarcados.”

Então ele comparou os dados do Ministério da Saúde com tais padrões estatísticos de regularidade, para ver se os homicídios não estavam sendo contados como “indeterminados”. Montou uma série de equações estatísticas com variáveis que incluíam informações sobre a região em que cada morte violenta ocorreu — como a renda per capita, o grau médio de escolaridade, porcentual de jovens e de adultos maduros, porcentual de mulheres que são também chefes e arrimos de família, tipo de crime mais frequente na região. Com seu modelo matemático pronto, Daniel examinou 10.062 casos um a um, todos ocorridos no triênio 2007-2009, e colocou as informações no banco de dados. “Olhei prontuário por prontuário”, diz Daniel. A partir dos dados, o computador deveria dizer o que era mais provável: que uma morte fosse consequência de um assassinato ou que não pudesse ser classificada? A tabela a seguir resume o resultado que o computador produziu.

Ano

Número de homicídios divulgado pelo governo

Número de homicídios obtido com o modelo estatístico

Diferença porcentual

2007

6.304

9.133

45%

2008

5.385

8.210

52%

2009

5.064

8.229

63%

2007-2009

16.753

25.572

53%

Se o modelo de Daniel estivesse correto, o governo do Rio havia escondido 8.819 homicídios. “Não tenho condições de afirmar que houve má-fé do governo estadual, e seria leviano se eu fizesse isso”, diz Daniel [na ocasião em que deu entrevista, em 2012]. “Mas estamos falando de erros grosseiros aqui.” Ele publicou seus resultados no final de 2011 como um trabalho acadêmico, cujo título era “Mortes Violentas Não Esclarecidas e Impunidade no Rio de Janeiro”.

Axioma de economista. O trabalho de Daniel foi duramente criticado pelo secretário responsável pela segurança pública do Rio de Janeiro. “Ele ameaçou me processar”, diz Daniel. “Esse trabalho foi solitário e sofrido.” Mas o Ministério da Justiça rebaixou o Estado do Rio de Janeiro por conta da baixa qualidade dos dados fornecidos pelo estado e, logo depois, as autoridades do Rio foram obrigadas a voltar atrás e a reconhecer o erro. “Parece que vão fazer uma recontagem”, diz Daniel. “Essa é a maior recompensa que um pesquisador pode alcançar.”

A não ser que as autoridades do Rio recorressem à violência para calar Daniel, essa era uma briga perdida desde o começo. Por meios democráticos, nenhum governo consegue nocautear uma pessoa bem treinada em métodos quantitativos, ainda mais quando ela tem acesso a bancos de dados (mais ou menos) confiáveis. Tatiane Menezes, economista, professora na Universidade Federal de Pernambuco, diz que os cientistas hoje seguem um protocolo bem definido para pesquisar problemas sociais, que é chamado por alguns de “protocolo axiomático”. Funciona assim:

O cientista estabelece os axiomas que pretende testar. Tais axiomas são os pressupostos tidos como verdadeiros, e com eles o cientista vai criar o modelo, preencher os bancos de dados, descrever bem o problema a ser investigado. Um exemplo de axioma: Um sujeito comete crimes para maximizar o próprio bem-estar (mas a sua visão particular de bem-estar), ainda que tal maximização esteja sujeita a restrições (ele terá de viver escondido, por exemplo) e a punições severas (ele será preso ou assassinado pela polícia).

A partir dos axiomas, o cientista imagina proposições que sejam consequência lógica dos axiomas. Por exemplo: Se o sujeito está sempre avaliando os possíveis ganhos e as possíveis perdas de seus crimes, seria possível evitar o crime mudando alguma característica de alguma instituição? Outro exemplo: Se a possibilidade de ganho é muito superior à possibilidade de perdas, a severidade das punições faz diferença?

Com os axiomas e as proposições, o cientista monta um modelo estatístico do fenômeno que pretende compreender, isto é, ele monta um sistema de equações que deve funcionar de modo análogo ao fenômeno que pretende compreender.

“Feito tudo isso”, diz Tatiane, “os modelos são colocados à prova.” Daniel Cerqueira concorda. “Sem a teoria, os dados ficam perdidos, não ganham significado.” Se o cientista pegar seu modelo e explicar melhor a realidade, e talvez previr acontecimentos e consequências, significa que o modelo é aceitável. (Mas não significa que o modelo é a realidade; um modelo matemático nunca pode representar a realidade com perfeição.)

A desordem social. Nos Estados Unidos, Rudolph Giuliani, prefeito de Nova York de 1994 a 2001, ficou famoso pela política de tolerância zero até mesmo com infrações simples da lei. No Brasil, Leandro Piquet Carneiro, economista formado na Universidade Federal do Rio de Janeiro, especializado em métodos quantitativos na Universidade do Michigan, em 2006 recebeu verba para estudar a violência na cidade de Santos (SP). Leandro quis saber se era verdade no Brasil o pressuposto teórico da política de tolerância zero: a de que desordem social aumenta a incidência de crimes violentos. Desordem social significa: ruas cheias de lixo, paredes pichadas, carros depredados, janelas quebradas, prostitutas andando pelas ruas, bares em todo lugar, vendedores de droga dando bobeira aqui e ali à espera de clientes, lâmpadas queimadas — coisas desse tipo. Se fosse verdade, lugares em que há maior desordem social deveriam ter taxa maior de crimes violentos. “Santos serviu como laboratório para estudar essa possível relação”, diz Leandro; hoje ele dá aulas na Universidade de São Paulo.

Primeiro, ele entrevistou gente que sabe das coisas: líderes comunitários, funcionários de ONGs, funcionários públicos (como diretores de pronto-socorro e policiais). Com isso, montou um mapa das regiões da cidade mais suscetíveis à desordem social. Com uma máquina fotográfica, visitou essas regiões e fez imagens. Por último, obteve informações oficiais a respeito de crimes e contravenções. Quando cruzou os dados, viu que os teóricos americanos tinham razão: nas regiões em que havia sinais visíveis de desordem social, havia também mais gente cometendo pequenos crimes e contravenções, e havia também mais gente cometendo crimes graves como assassinato. “Algumas dessas áreas eram a zona do porto, o centro antigo (onde está o mercado municipal), o entorno do estádio da Vila Belmiro, e ruas próximas de universidades.” Ao contrário do que acontece nos Estados Unidos, contudo, em Santos havia desordem social e crimes espalhados pela cidade inteira, em pequenos bolsões. “Nos Estados Unidos, por conta principalmente da segregação de grupos étnicos, as ocorrências ficam mais concentradas.”

Muitas cidades brasileiras têm taxas altas demais de assassinatos por 100.000 habitantes — por exemplo, Recife. Em 2000, era a primeira da lista brasileira, com 97,5 assassinatos por 100.000 habitantes; em 2009, a taxa caiu para 71,9 e a cidade ficou no terceiro lugar. (Para comparar: 1,6 no Canadá, 0,4 no Japão, e 1,2 em Portugal.) Por isso Tatiane Menezes obteve verba da Fundação de Amparo à Ciência e Tecnologia do Estado de Pernambuco e apoio da Secretaria de Segurança Pública para estudar os assassinatos da cidade.

Tatiane também cruzou dados a respeito de cada bairro, e ela também descobriu uma conexão entre crimes e desordem social: nos bairros mais pobres, onde tudo é mais bagunçado, a taxa de crimes era mais alta — havia uma correlação. “Não se trata de reducionismo”, diz Tatiane. “Não se trata de dizer que o pobre é um criminoso. Mas nos bairros mais injustos há crescimento desordenado, e seu vizinho passa a ser um desconhecido. Não há vínculos sociais mais estreitos.” Tatiane descobriu uma espécie de fluxo do crime: os bairros mais organizados empurram o crime para os bairros mais desorganizados, onde os mecanismos de controle não funcionam bem. Isso bate com a teoria. Contudo, Tatiane descobriu também uma característica por enquanto inexplicável: bairros com uma boa porcentagem de chefes de família jovens (entre 15 e 20 anos) apresentaram taxas de homicídio menores, e bairros com uma boa porcentagem de idosos apresentaram taxas maiores — isso sem considerar a ordem ou desordem social do bairro. “Precisamos avançar mais nos estudos.”

Os três economistas dizem que não é mais possível compreender a criminalidade sem usar métodos quantitativos, e que os políticos profissionais estão cada vez mais conscientes disso. Leandro, por exemplo, está usando o que aprendeu em Santos em estudos sobre a cidade do Rio de Janeiro, com apoio e verba da Secretaria Especial de Ordem Pública. Mais uma vez quer estudar a correlação entre desordem social e criminalidade; com os resultados do estudo, as autoridades da cidade planejam treinar melhor os guardas municipais e organizar melhor o roteiro de ronda. Hoje, se um guarda passa por uma esquina e vê lixo jogado na calçada e paredes pichadas, talvez não faça nada. Depois do treinamento, ele deve ligar para uma central e reportar a desordem, de modo que funcionários da prefeitura recolham o lixo e limpem as paredes. Em todas as cidades do mundo iniciativas assim reduzem tanto o número de crimes quanto sua gravidade, pois passam um recado a todos: “Cuidado: a comunidade se importa com o que acontece por aqui.” {}



{2}/ Apêndice: Quem se beijou?

O cientista social estuda matemática não só para ver melhor os fenômenos sociais, mas também para não ver o que não está presente nos fenômenos. A história do sociólogo húngaro Sandor Szalai ilustra bem essa ideia.

Na década de 1960, Sandor notou que, em qualquer grupo com mais ou menos 20 crianças, ele sempre achava quatro crianças que eram todas as quatro amigas entre si, ou ao contrário achava quatro crianças que não eram nenhuma das quatro amigas entre si. Ele se sentiu tentado a criar alguma teoria sociológica sobre o fato, mas algo o incomodava, e por isso pediu o conselho de três ótimos matemáticos húngaros — Paul Erdös, Pál Turán, e Vera Sós. Os três puderam mostrar que ele estava diante de uma coincidência matemática, digamos assim, e não diante de um fenômeno sociológico.

Se X é um conjunto com 18 elementos ou mais, e se R é alguma relação simétrica no conjunto X, então existe um subconjunto S dentro de R, com quatro elementos, e com as seguintes propriedades:

Ou xRy é verdadeira para quaisquer dois elementos x e y de S.

Ou, ao contrário, xRy é falsa para qualquer par de elementos x, y de S.

No caso de Sandor, se X é um conjunto com 18 crianças ou mais, e se R é uma relação simétrica do tipo “é amigo de”, então existe um subconjunto S dentro de X, com quatro crianças, no qual para quaisquer duas crianças x e y dentro do subconjunto S ou xRy é verdadeira para todas as quatro crianças de S ou xRy é falsa para todas as quatro crianças de S.

Esse fato matemático é conhecido como teorema de Ramsey, pois foi provado pelo matemático britânico Frank Plumpton Ramsey em 1930 (o ano em que morreu com apenas 26 anos). Com o teorema de Ramsey, os matemáticos criaram toda uma área da combinatória, que batizaram de teoria de Ramsey. É um estudo sistemático de um fenômeno comum: uma estrutura grande X, seja ela qual for, tem de conter subestruturas grandes e muito bem organizadas, mesmo que a estrutura X tenha se formado de modo arbitrário e caótico. (O estudante pode entender por “estrutura” os elementos de um conjunto e pelo menos um tipo de “ligação” entre os elementos; um grafo é um bom exemplo de estrutura.) O matemático israelita Theodore Samuel Motzkin resumiu a teoria de Ramsey assim: “A desordem completa é impossível.”

O teorema de Ramsey tem consequências curiosas. Num grupo de 18 pessoas, se elas tiverem idade suficiente para que exista no grupo a relação simétrica “se beijaram”, então existe no grupo um subgrupo de 4 pessoas no qual ou todas as quatro se beijaram ou nenhuma das quatro se beijou. {FIM}



Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 22, novembro de 2012, pág. 54. A versão que acabou de ler foi revista e ligeiramente reescrita, mas as informações factuais são as que valiam na ocasião.

2. As entrevistas foram realizadas pelo jornalista Francisco Bicudo.

3. Há mais um texto sobre grafos e o teorema de Ramsey neste bloque; clique aqui.

4. Escrevi o texto da seção 2 com o apoio de um artigo de Noga Alon e Michael Krivelevich, publicado no livro The Princeton Companion to Mathematics.

5. Só para deixar claro: nas culturas de natureza europeia, como a americana e a brasileira, sinais de desordem aumentam a probabilidade de crimes, mas não explicam os crimes. (Esse é mais um exemplo da velha máxima: uma correlação não necessariamente significa uma relação de causa e efeito.) Há lugares na Ásia, por exemplo, onde os sinais de desordem pululam, e no entanto o índice de crimes violentos por 100.000 habitantes é baixo.

Será que o acaso existe mesmo?


Se você pudesse perceber o mundo em câmera lentíssima, de modo que visse o que está para acontecer, usaria menos a palavra “aleatório”. Nesta matéria, especialistas discutem as inter-relações entre as ideias contidas em palavras como “aleatório”, “pseudoaleatório”, “ciência”, e “dinheiro”.


{1}/ “Aleatório” “Barato”

Um professor escreve na lousa uma sequência de algarismos:

[2] [1] [5] [1] [1] [9] [7] [?]

Vira-se para a classe e pergunta:

“Qual é o próximo algarismo nessa lista?”

A sala fica em silêncio. Francisco Cribari-Neto, professor no departamento de estatística da Universidade Federal de Pernambuco (UFPE), faz essa brincadeira com seus alunos para explicar o que é pseudoaleatoriedade. “O que estou fazendo é o seguinte: escrevo o primeiro dígito do meu CPF, depois o primeiro dígito do meu celular, o segundo dígito do CPF, o segundo do celular, e assim por diante. Em algum momento eu paro e eles não conseguem predizer o próximo número na sequência, mas eu consigo, porque conheço o mecanismo que a gerou.” Francisco anuncia então o próximo algarismo, por exemplo 7, e os alunos ficam inquietos: como ele sabe? Francisco escreve uma sequência de algarismos que tem todo o jeitão de ter sido escolhida ao acaso, mas que foi produzida por um algoritmo determinístico que ele mesmo criou: eis um bom exemplo de sequência pseudoaleatória.

Qualquer um pode usar métodos desse tipo para criar sequências as quais outra pessoa, a não ser que conheça o método, achará sem pé nem cabeça. Ou então teria de analisá-las de tal forma que descobrisse o algoritmo gerador. Era mais ou menos isso o que fazia o matemático britânico Alan Turing (1912-1954) quando trabalhava em Bletchley Park, centro de pesquisas especializado em mensagens cifradas, montado pelo governo britânico durante a segunda guerra mundial. Turing ajudou os aliados a vencer a guerra contra a Alemanha, a Itália, e o Japão ao quebrar o sistema de criptografia da máquina alemã Enigma. Analisava as sequências que representavam mensagens cifradas do exército nazista para descobrir qual algoritmo as gerava.

Uma vez que apresentou a pseudoaleatoriedade, Francisco faz outra brincadeira: recorta vários papeizinhos e escreve um único algarismo de 0 a 9 em cada um deles, então os dobra e os coloca num copo; chacoalha o copo e pede a alguém que retire um papelzinho a esmo. Ele escreve na lousa o algarismo sorteado, devolve o papel para o copo, e recomeça o processo. “Essa sequência é aleatória porque ninguém, nem mesmo eu, é capaz de predizer o próximo algarismo da sequência.” Porém, quando Francisco escreve lado a lado as duas sequências de dígitos, uma feita com os dígitos do CPF mais os do celular, a outra feita por sorteio, os alunos não conseguem dizer qual delas é aleatória e qual não é. “Essa é a natureza da pseudoaleatoriedade: a gente não quer que as pessoas sejam capazes de distinguir algo aleatório de algo pseudoaleatório.”

Especialistas sabem, no entanto, que as sequências pseudoaleatórias têm uma propriedade que as denuncia: a reciclagem. Em algum momento, a sequência começa a se repetir. Suponha que o número do CPF usado no exemplo do professor seja 251.798.337-28 e o do celular seja 11 976 548 123; quando terminar de escrever os dígitos, tem de recomeçar novamente com o mesmo algoritmo:

215119779685343871228321511977968534387122832151197796853438712283

Por causa do período tão curto até recomeçar do princípio (22 dígitos), um leigo não demora a notar o padrão, ainda que não possa explicar como surgiu. Por isso, o especialista em criptografia busca produzir sequências tenham duas características cruciais: parecer aleatória e ter longos períodos de reciclagem. Francisco conta que, no início, os algoritmos geravam sequências cujo segundo período começava na posição 32. Depois, criaram algoritmos em que o segundo período começava na posição 60, e hoje existem os que produzem sequências com períodos de quase 220.000 posições. “Hoje demora praticamente uma eternidade para a sequência começar a se repetir.”

Porém, para o sujeito saber com certeza se uma sequência é aleatória ou não, depende de alguém que saiba como ela surgiu ou de equipamentos com boa capacidade computacional. Avi Wigderson, especialista em ciências da computação da Universidade de Princeton, sugere que a aleatoriedade está nos olhos de quem a vê, ou na capacidade computacional de quem a vê. Ele deu uma palestra na qual discute se existe algo completamente aleatório no mundo real. (Veja em [http://goo.gl/YHrvke].)

Bicho imprevisível. Leigos chamam algo de aleatório quando tem um comportamento irregular, sem padrão aparente; mas os estatísticos definem sequências aleatórias (de valores, de objetos em fila, etc.) como aquelas cuja disposição só pode ser descrita em termos de probabilidade. Em muitas circunstâncias teóricas e práticas, a probabilidade de cada elemento da sequência é a mesma; por exemplo, se podem aparecer n elementos distintos em cada posição da sequência, a probabilidade de que um deles apareça é 1/n. (Para alguns especialistas, essa deve ser a única definição de aleatório: probabilidade igual de aparecer.) Para um matemático ou um especialista em ciências da computação, o exemplo mais comum é o da moeda não enviesada: se jogar cara ou coroa com uma moeda dessas, qual a probabilidade de acertar se o resultado será cara (ou coroa)? 50%. “Agora, imagine que eu repita a jogada”, diz Avi, “mas que desta vez você tenha a ajuda de equipamentos computacionais de última geração, e sensores precisos; por exemplo, você tem uma série de câmeras de alta velocidade ligadas a medidores. A moeda começa a parecer bem menos aleatória! Se o computador e os sensores forem bons o suficiente, você terá maior probabilidade de prever o resultado. Em ambos os casos a jogada foi a mesma, mas o observador mudou e, portanto, mudou também a aleatoriedade na situação.”

Dani Gamerman, professor na Universidade Federal do Rio de Janeiro e autor do blog Statpop (com o qual procura divulgar a estatística), explica que todo o estudo da probabilidade pressupõe que uma série de fenômenos é aleatória, como o caso da moeda. Ele concorda com Avi: o jogo de cara ou coroa, assim como outros fenômenos aleatórios, no fundo tem pouco de aleatório — e talvez não tenha nada de aleatório. “Uma vez que a moeda é lançada, posso estudar suas propriedades físicas, o ângulo do lançamento, a força do vento e, por meio de cálculos, determinar como ela vai cair.” Dani sugere que muitos eventos considerados aleatórios são na verdade uma sucessão de processos físicos bem determinados e conhecidos (ou talvez não tão conhecidos), mas cujos resultados, se o homem tivesse disposição, tempo, dinheiro, energia, e capacidade computacional, seriam perfeitamente passíveis de previsão.

Persi Diaconis, um matemático da Universidade de Stanford, nos Estados Unidos, diz que as pessoas poderiam discutir essa pergunta — Existe algo realmente aleatório? — para sempre, como ocorre habitualmente com as boas perguntas filosóficas. Contudo, Persi tem a capacidade de jogar uma moeda e de fazê-la cair sempre com o lado cara para cima; é um truque que aprendeu há anos. Um sujeito talvez veja a cena imbuído da pressuposição de que a probabilidade de cara (ou de coroa) é a mesma — mas, graças ao truque de Persi, não é. Para Persi, a probabilidade de que algo ocorra está mais ligada ao conhecimento do observador que ao mundo. O que isso significa? Se a humanidade soubesse todas as variáveis envolvidas num sistema, por exemplo na previsão do tempo, poderia predizer exatamente a que horas cairá a próxima gota de tempestade? Poderia desocupar uma área que, daqui a uma semana, será atingida por um terremoto?

“Não temos como saber”, diz Francisco Cribari-Neto. “Essa questão de será que existe uma aleatoriedade pura ou será que não é algo que nunca saberemos.” Para ele, não existem evidências que sustentem a ideia de que, com uma supercapacidade computacional, o homem faria previsões perfeitas. “É um pensamento interessante, uma conjectura que merece discussão. Mas em última instância é isso: uma conjectura.” Dani concorda que a discussão é muito mais filosófica que matemática: se algo do mundo real é aleatório, ou não, é uma decisão muito mais subjetiva que objetiva. Mas assumir que algo é aleatório (ainda que não seja), como ocorre com qualquer modelo matemático, é um bom jeito de se aproximar da realidade. Em muitas situações práticas, o analista sensato parte do pressuposto de que  um fenômeno é aleatório; pois, se não fizesse tal presunção e fosse atrás de todas as informações, precisaria de tempo infinito, verba infinita, paciência infinita.

Sutileza. Na matemática, que é o reino da imaginação pura, com toda a certeza existem processos aleatórios — não há nenhuma discussão quanto a isso. Suponha, por exemplo, um dado ideal, de modo que cada face tenha probabilidade de 1/6 de cair virada para cima. Esse dado existe? Ele pode existir? Sim, pois existe no reino da matemática, que é o reino das afirmações declaradas verdadeiras por hipótese.

O preço da certeza. Para o meteorologista, vale mais a pena dizer às pessoas que a chance de chuva no sábado é de 10% do que dizer: “Preparem o guarda-sol e o biquíni, pois com certeza absoluta não choverá de jeito nenhum no sábado.” Isso porque 10% de chance de chuva é uma boa aproximação, comparada ao custo e ao trabalho de obter uma previsão exata. “Não há nada de incerto na previsão do tempo”, diz Dani Gamerman. “Se souber como funcionam os ventos, a rotação da Terra em torno do Sol; se conhecer toda a física envolvida, você pode descobrir exatamente o que vai acontecer em cada local. Só que esse trabalho é gigantesco; é mais fácil tratar o tempo como algo aleatório.”

Ao classificar eventos reais como aleatórios, os probabilistas e estatísticos simplificam a complexidade do problema, e para esse fim a aleatoriedade é muito útil. “É complicado conviver com a incerteza”, diz Dani. “Mas muitas vezes o custo para obter a certeza é tão alto que preferimos considerar o fenômeno como incerto.” Então, é isso: às vezes, por questões práticas, os cientistas tratam coisas não aleatórias como aleatórias; noutras vezes, tentam imitar algumas características da aleatoriedade, gerando sequências pseudoaleatórias. “Essas sequências são muito úteis não só na computação, mas também na matemática, na estatística, e em várias outras áreas”, diz Francisco. “Muitas vezes a pseudoaleatoriedade é mais importante que a própria aleatoriedade.”

Francisco se especializou em econometria, que em resumo é estatística aplicada à economia, e começou a fazer análises empíricas, coletando e analisando dados. A certa altura de suas investigações, desenvolveu novos métodos estatísticos e precisava verificar se eram bons. Quando um cientista está criando uma nova vacina, tem de fazer uma série de experimentos em animais para ver se ela funciona bem. Do mesmo modo, o estatístico, quando cria um novo método, precisa testá-lo. Ele gera conjuntos de dados artificiais no computador (5.000, 10.000 , 50.000 conjuntos), que chama de “cenários”, e aplica o procedimento a cada um deles. Talvez Francisco aplique seu método em 10.000 cenários, e obtenha bons resultados em 9.750. “Isso indica que meu procedimento é bom. Mas, se dos 10.000 ele funcionar bem apenas em 430, não é um procedimento que mereça mais estudos.”

Para gerar esses cenários artificiais, Francisco usa as famosas simulações de Monte Carlo. O matemático Stanislaw Ulam criou, com Nicholas Metropolis e John von Neumann, o método de Monte Carlo. E o chamou assim em referência ao cassino de Monte Carlo, em Mônaco. Com o método, queria encontrar soluções aproximadas usando experimentos amostrais repetidos, para observar em qual proporção certa propriedade surgia. Para métodos com probabilidades mais complexas, o estatístico usa o computador para simular as repetições do experimento e ver a frequência relativa n/N da propriedade naqueles experimentos (onde n é o número de vezes que a propriedade é satisfeita, e N é o número de experimentos realizados).

Nesse caso, não tem interesse em produzir os cenários de forma aleatória, pois precisa que outras pessoas tenham a capacidade de reproduzir os experimentos. Se gerar esses 10.000 cenários de forma aleatória e alguém disser que não acredita nos resultados, o cientista não será capaz de gerá-los de novo para refazer tudo. “Precisamos da capacidade de reproduzir os experimentos científicos da física, da química, da biologia”, diz Francisco. “Queremos checar, por exemplo, se os resultados foram fraudados. É importante saber quando a reprodutibilidade é desejável, como na criptografia ou nas simulações de Monte de Carlo, e quando não é, como no caso das loterias.”

Quando o responsável pela Mega-Sena organiza o sorteio da semana, com as bolinhas marcadas de 1 a 60, fabricadas com a maior perfeição possível, ele quer que tudo esteja preparado para um evento imprevisível. (No sentido de que ninguém poderá prever as seis dezenas sorteadas.) Caso fizesse o sorteio por meio de um método determinístico, talvez um funcionário fosse capaz de roubá-lo e de predizer os resultados da loteria nas próximas semanas. “No caso da loteria, não precisamos de reprodutibilidade”, diz Francisco. “O sujeito não precisa reproduzir perfeitamente a série de eventos que gerou os números do sorteio ocorrido na semana passada.”

Futuro incerto. Os especialistas em segurança da informação usam sequências pseudoaleatórias para criptografar senhas como as do banco. Quando o usuário acessa a página do banco na internet e digita sua senha, um algoritmo a quebra em uma sequência de números e letras, e depois disso o sistema do banco a recebe e é capaz de reconstruir a senha, pois conhece o algoritmo. Se, no entanto, alguém interceptar a senha durante a comunicação entre os computadores, só verá um monte de letras e números sem nenhum significado aparente. “Nesse caso, a pseudoaleatoriedade também é mais útil”, diz Francisco. “Pois se usasse um mecanismo totalmente aleatório, quando o banco recebesse a senha, não conseguiria reconstruí-la.”

Francisco explica que ele mesmo também precisa verificar se um algoritmo é bom, e quando isso acontece costuma usar uma bateria de testes chamada “diehard”. George Marsaglia (1924-2011), cientista da computação norte-americano, criou esse método para checar se uma sequência pseuadoaleatória tem uma série de propriedades estatísticas que se esperaria de uma sequência verdadeiramente aleatória. “Quando um algoritmo gera sequências e esses testes (são uns 17 ou 18) não detectam nenhum tipo de regularidade, ficamos satisfeitos”, diz Francisco. “Isso significa que o algoritmo gera sequências determinísticas que, para todos os fins práticos, são indistinguíveis de sequências aleatórias.”

A certa altura de sua palestra, Avi Wigderson pergunta ao público: “Como lidar com um mundo em que não existe aleatoriedade? Isto é, se ela não existisse, as aplicações que a levam em consideração também deixariam de existir?” Para exemplificar o que está dizendo, ele recorre a um problema: Suponha que tenha uma região no plano como o da figura 1; daí use ladrilhos em formato de dominó, 2 por 1, como na figura 2. De quantas maneiras distintas pode dispor tais ladrilhos?

Figura 1

Figura 2

Cientistas chamam esse problema de “contagem do monômero-dímero”; é uma questão fundamental na física e na química, que está relacionada à organização de moléculas com dois átomos na superfície de um cristal. A partir do modo como determinada região é coberta pelos dominós, o cientista pode prever as propriedades termodinâmicas de um cristal. Contudo, o problema é difícil mesmo para regiões pequenas; supercomputadores levariam toda a eternidade para contar todas as possibilidades em regiões maiores. Então o cientista pode recorrer ao método de Monte Carlo para obter estimativas, o que costuma ser suficiente para propósitos práticos.

Com esse algoritmo probabilístico, pode fazer passeios aleatórios (veja o texto da seção 2) na terra de todos os ladrilhados possíveis, mas visitando apenas algumas poucas possibilidades. Porém, isso depende crucialmente de escolhas perfeitamente aleatórias. (Assim: o sistema testa umas poucas possibilidades pseudoaleatórias numa região; dá um salto verdadeiramente aleatório para outra região e testa outras poucas possibilidades pseudoaleatórias; dá um salto etc.) Se não existe aleatoriedade no mundo real, pergunta Avi, de onde o matemático poderia tirar a aleatoriedade para esta e outras aplicações do método de Monte de Carlo, ou de tantos outros algoritmos probabilísticos?

Para Francisco, a conjectura de Avi sugere dois cenários possíveis: Se houver mecanismos puramente determinísticos por trás dos eventos que parecem aleatórios, como terremotos ou um asteroide vindo na direção da Terra, caso os cientistas e matemáticos obtenham conhecimento desses mecanismos, poderão prever todos esses eventos. Ou então: existem sim mecanismos puramente aleatórios por trás desses eventos, daí o jeito é desenvolver tecnologia e conhecimento suficiente para melhorar as previsões. “Mas, neste caso, nunca chegaremos a uma previsão completamente precisa, porque a natureza dos eventos é de fato aleatória.”

Dani diz que dá para tratar muito bem vários fenômenos apenas assumindo que são aleatórios, mesmo que não sejam; a questão é se faz diferença saber se eles são aleatórios ou não. “Isso eu não sei responder, mas acho que a questão acaba sendo mais filosófica, pois vamos pensar nas implicações de assumir que algo não pode ser predito, quando na verdade pode.” Talvez uma pessoa ache mais eficiente admitir a aleatoriedade do que gastar tempo e dinheiro com uma previsão mais precisa de eventos não aleatórios. “A questão de fundo que fica é: essa pergunta tem consequências? Ora, se você presume que não pode conhecer algo que poderia conhecer, e se você, depois de conhecer esse algo, poderia adquirir maior controle sobre ele, então acho que a pergunta tem consequências sim…”

Francisco se lembra do filme Pi (1998), no qual um matemático começa a enxergar padrões na natureza, na expansão decimal do número π, nas flutuações da bolsa de valores, na Torá (o livro sagrado do judaísmo). Ele ganha a capacidade de predizer coisas que antes todos julgavam aleatórias, isto é, descobre que existem mecanismos determinísticos por trás desses fenômenos. “Esse filme parece uma paródia artística da conjectura principal contida nessa palestra [de Avi Wigderson]”, diz Francisco. Como estatístico, ele acredita que há fenômenos gerados por algum mecanismo aleatório e que só cabe aos estudiosos acumular conhecimentos técnicos e ferramentas computacionais para prevê-los. “Não ambiciono chegar ao cenário onde eu teria uma previsão perfeita. Em todo caso, não sei dizer se tudo na vida é determinístico. Eu admito que há coisas aleatórias, mas não saberia dizer quais são.” {}



{2}/ Brincando com passeios aleatórios

Crédito da imagem: Morn (talk)/Wikipedia

Um estudante (vamos chamá-lo de Bernardo) estuda o que são passeios aleatórios. Imagina um plano no qual um animal (uma bolinha) dá uma sucessão de passos aleatórios para a direita ou para a esquerda. O animal começa na origem 0, e por isso Bernardo descreve cada passo à direita como 1 e cada passo à esquerda como 1. Então entra na página Random.org e gera uma tabela com 100 valores binários, do tipo 0 ou 1 (quanto ao zero, Bernardo o troca em todo lugar por –1). Coloca os valores num gráfico, no qual o eixo vertical representa a distância da origem e o eixo horizontal o número de passos; com isso descreve o trajeto do animal. Depois gera mais algumas tabelas do mesmo modo, cada uma resultando num gráfico diferente.

Com tal experiência, Bernardo nota uma propriedade dos passeios aleatórios: após n passos, a distância da origem é, aproximadamente, √n. Ou seja, após 100 passos, o animal em geral está a mais ou menos 10 passos da origem. “Interessantíssimo!”, pensa Bernardo. “Mas será que tais passeios servem de alguma coisa no mundo de verdade?” Resolve pesquisar mais sobre assunto e descobre que os físicos usam passeios aleatórios para modelar o movimento das partículas de gases numa sala. Visto que as partículas mudam de direção sempre que colidem umas com as outras, o físico usa os passeios para estimar quanto tempo elas demoram para se mover de um local ao outro. Fica ainda mais surpreso ao descobrir que pode aplicar os passeios ao beisebol; basta para isso fazer umas suposições estranhas, tais como: uma equipe de beisebol perfeitamente mediana, isto é, com 50% de chances de ganhar ou perder cada jogo. “Parece que tudo sempre volta à ideia de tirar cara ou coroa com uma moeda perfeita…”, pensa Bernardo. “Aposto que dá até para pensar num passeio aleatório pseudoaleatório.”

Bernardo descobre que ninguém sabe se existe mesmo a aleatoriedade pura, perfeitinha, axiomática, tal como Kolmogorov a expressou em 1956. O que todos os matemáticos sabem é: eles criaram um grupo de objetos matemáticos perfeitos dentro da mente, e a eles deram o nome de “teoria da probabilidade”, e com eles conseguem descobrir tanta coisa verdadeira sobre fenômenos reais os quais, a princípio, compreendem mal.

Lembrete. Existem outras interpretações da ideia de probabilidade (e de aleatório) além da interpretação de Kolmogorov. Uma das mais interessantes se chama “interpretação por meio de frequências”. Segundo essa interpretação, você não pode dizer que a probabilidade de tirar cara (ou coroa) é igual a 50%. Em vez disso, deve dizer: “Caso eu lance esta moeda um número n de vezes, sendo n um inteiro positivo, e, além disso, caso a razão entre o número de caras e o número n de lançamentos tenda a 50% conforme o inteiro n fica maior, daí posso dizer que, com esta moeda, e só com ela, a probabilidade de tirar cara é de 50%.”

{FIM}


Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 46, novembro de 2014, pág. 26. A versão que acabou de ler foi revista e reescrita.

2. A primeira versão deste texto foi escrita pela jornalista Mariana Osone, com base nas entrevistas realizadas pelo jornalista Dubes Sônego.

Mega-Sena: entre na rede e fique riquíssimo!


Há centenas de gurus que, por meio da internet, ensinam o internauta a bolar uma estratégia para jogar em alguma das loterias brasileiras. Muitos desses gurus até usam linguagem matemática para legitimar sua mensagem. Será?

Observação: Publiquei o texto a seguir pela primeira vez na revista Cálculo: Matemática para Todos, edição 15, abril de 2012, pág. 40. O texto foi revisto e ligeiramente reescrito, mas os fatos são os que valiam na ocasião.



{1}/ Uma receita racional

Existem 137.000 milionários no Brasil, entre 190,7 milhões de brasileiros, então a probabilidade de que o leitor não seja um milionário é de, grosso modo, 99,93%. No Brasil, os jogos de azar são monopólio do governo federal (com algumas exceções para redes de TV), e se o leitor entrar em qualquer casa lotérica, pode escolher dez jogos: Mega-Sena, Timemania, Quina, Lotomania, Dupla-Sena, Loteria Federal, Loteria Instantânea, Loteca, Lotogol, e Lotofácil. Como acertar numa dessas loterias? Ora, isso é muito fácil: na internet, há centenas de websites com dicas infalíveis, fórmulas certeiras, conselhos de quem sabe das coisas tanto do mundo dos homens quanto do mundo dos espíritos. O leitor só não entra para a lista dos milionários porque não quer. Ou talvez porque, sendo amante de matemática, é um desses sujeitos de mentalidade tacanhamente cartesiana, em cuja alma não há lugar para fé nas coisas ocultas. Pobre leitor!

Talvez seja o caso de examinar as dicas de Munir Pé-Quente, apelido pelo qual é conhecido o matemático Munir W. Niss; nos seus folhetos na internet, Munir anuncia a si mesmo como “um estudioso de apostas, que já acertou 40 vezes na Mega-Sena”. Ele simplesmente faz as contas, escolhe os números de acordo em essas contas, organiza um bolão, e vende cotas do bolão. Nunca acertou os seis números da Mega-Sena, mas já acertou a quadra várias vezes e a quina algumas vezes; os compradores das cotas dividem o prêmio (a quadra sempre paga prêmios na casa das centenas de reais). Por conta de sua história, Munir escreveu um livro, que lançou em 2003: O Segredo das Loterias. Para escrever sua receita de como ficar milionário com a Mega-Sena, Munir estudou os resultados dos sorteios anteriores; usou estatística para descobrir quais dezenas saem menos, e quais saem mais. Em 2008, falou sobre o livro num programa de TV. Desde então, o livro se transformou numa boa fonte de renda: ou Munir vende o livro, ou dá o livro de brinde a quem compra uma cota de bolão de preço alto, como 200 reais.

Munir sugere ao leitor que recorra à lei de Pareto ao pensar na Mega-Sena, ou em qualquer loteria. A lei de Pareto foi criada por Joseph Moses Juran (1904-2008), um consultor de empresas romeno; Joseph escolheu o nome em homenagem ao economista italiano Vilfredo Pareto, que dava o seguinte conselho: ao organizar os dados de uma situação qualquer num gráfico de barras, ponha à esquerda a categoria com maior frequência, e vá assim até a categoria com menor frequência à direita. Isso permite ao administrador visualizar os fatores mais importantes dessa situação. Hoje economistas e administradores resumem a lei de Pareto assim: 20% das causas respondem por 80% das consequências. O mundo inteiro parece ser mais ou menos assim: 20% dos vendedores de uma empresa respondem por 80% do faturamento, 20% das peças de um carro respondem por 80% das falhas mecânicas. Segundo Munir Pé-Quente, 20% das seis dezenas da Mega-Sena são sorteadas em 80% dos jogos. Fazendo as contas: até agora, com 1.371 sorteios, uma ou outra de 12 bolinhas caiu dos globos duplos em 1.096 jogos.

Com base nos seus cálculos e na lei de Pareto, Munir recomenda a seus leitores que evitem apostar nas dezenas com final 9 e 0, pois são as dezenas que saem menos. (Talvez por isso ninguém tenha acertado a sena do concurso 1.371, em que saiu 49.) Também recomenda que evitem jogar nas dezenas 01, 02, 03, 11, 22, 44, 55, 48 e 57, que saem pouco. (Talvez por isso também ninguém tenha acertado o concurso 1.371, em que saiu 03 e 11.) Munir Pé-Quente ainda recomenda a seus leitores que não joguem em dezenas sequenciais (como as dezenas 04 e 05 do concurso 1.370), nem nas que estejam na mesma linha vertical (como as dezenas 49 e 59 do concurso 1.370), nem que apostem em muitas dezenas ímpares ou muitas pares (como no caso do concurso 1.358, em que saíram cinco dezenas ímpares). Outra dica é dividir o volante em quatro quadrantes, e marcar dezenas em todos os quadrantes, pois concursos como o 1.363, em que saíram quatro dezenas no mesmo quadrante, são mais raros.

Entra a numerologia. Nem todo mundo aprecia esse tipo de receita, muito racional, muito calcada em matemática, muito científica; se for esse o caso do leitor que está lendo esta postagem bem agora (e cuja probabilidade de não ser um milionário, como já mostramos no primeiro parágrafo, é alta), bem, há receitas mais… místicas, digamos assim. Num dos websites na internet, alguém classifica a numerologia como “uma técnica interessante, que funciona para aqueles que acreditam nos poderes mágicos dos números”. Mais para a frente, essa mesma pessoa afirma que “os números realmente podem interferir no destino, e podem lhe ajudar a ganhar o sorteio, deixando você rico”. Por fim, ela arremata: “Basta acreditar e tentar.” Os numerólogos trabalham com números de um algarismo, mas, mesmo assim, os internautas escrevem receitas para que qualquer pessoa chegue às dezenas que, no dia do sorteio, cairão dos globos duplos. Basta responder às perguntas:

Qual é o número de letras de seu nome completo?

Qual é o número do dia mais o número do mês de nascimento?

Qual é o número do dia, mais o número do mês, mais o número do ano de nascimento?

Qual é o número de letras do nome completo, mais o número do dia, mais o número do mês de nascimento?

Qual é o número de letras do nome completo, mais o número do dia, mais o numero do mês, mais o número do ano de nascimento?

Qual é o número de letras do nome completo, mais o número do dia em que está fazendo a aposta?

Qual é o número de letras do nome completo, mais o número do dia da semana em que está fazendo a aposta?

Qual é o número da hora, mais o dia da semana em que está fazendo a aposta?

Qual é o número de letras do nome completo, mais o número da hora em que faz a aposta?

Qual é o número de letras do nome, mais o número do dia da semana em que joga?

Qual é o número de letras do nome, mais o número do dia do sorteio?

Em resumo, esses folhetos da internet dizem o seguinte: anote num papel o número do sorteio, as dezenas sorteadas, a data e a hora em que ocorreu o sorteio, etc. Anote tudo o que puder a respeito do sorteio. Depois disso, faça alguns exercícios de numerologia. Não há como errar: o leitor achará as dezenas de qualquer sorteio na sua numerologia. Por exemplo: no dia 13 de março de 2012, a Caixa Econômica Federal sorteou as bolas do concurso 1.371, e saíram as dezenas 03, 04, 08, 11, 47 e 49. Um sujeito com 20 letras no nome, que tenha nascido no dia 20 de julho de 1967, e que tenha feito a aposta à 1 hora da tarde, bem, esse sujeito não tem como não ficar rico. Pois a dezena 03 é o mês em que aconteceu o sorteio. A dezena 04 é o mês mais a hora da aposta. A dezena 08 é o mês do sorteio, mais a hora da aposta, mais o dia da semana (4ª feira). A dezena 11 é o número de letras do nome do meio (8 letras) mais o mês do sorteio. A dezena 47 é o dia do nascimento (20), mais o mês de nascimento (07), mais o número de letras do nome (20). E a dezena 49 é o dia do nascimento, mais o mês do nascimento, mais o dia da aposta no calendário lunar chinês (22 eryue, 4709). Esse exercício mostra, e de uma vez por todas, e de modo indiscutível e irrepreensível, que se o leitor não está milionário, é porque não quer, ou porque não sabe ouvir o sussurro dos números.

Embora paguem menos que a Mega-Sena, as outras loterias da Caixa também resolvem vários problemas financeiros (caso o apostador ganhe), e por isso também são objeto de estudos de matemáticos como Munir Pé-Quente e de outros videntes menos cartesianos. O leitor pode achar na internet um esquema para acertar um terno da Quina, que, no concurso 2.848, pagou 85 reais e 89 centavos — dá para almoçar fora, com uma taça de vinho e com sobremesa. Trata-se de uma matriz, que permite ao jogador apostar em dez dezenas usando apenas sete cartelas. Caso o apostador acerte quatro dezenas entre as dez escolhidas, o esquema promete ao apostador embolsar um terno.

Nessa matriz, o apostador usa letras para representar o lugar em que deve pôr as dezenas escolhidas:

A B C E I

A B F H K

A C E F H

A F G J K

B C E G J

F G H I K

F H I J K

Se as dezenas escolhidas forem 06 (A), 11 (B), 15 (C), 23 (E), 26 (F), 35 (G), 41 (H), 50 (I), 55 (J) e 59 (K), a matriz fica assim:

06   11   15   23   50

06   11   26   41   59

06   15   23   26   41

06   26   35   55   59

11   15   23   35   55

26   35   41   50   59

26   41   50   55   59

Do ponto de vista matemático, o esquema funciona: caso o leitor acerte quatro números entre os dez que escolheu para montar as sete cartelas, vai embolsar um terno (uns 130 reais). O problema é que, com sete cartelas de cinco dezenas, a chance real de embolsar um terno é de 0,8%.



{2}/ A hora e a vez de um pequeno probleminha

Carlos Alberto de Bragança Pereira, chefe do departamento de estatística do Instituto de Matemática e Estatística da Universidade de São Paulo, diz que só existe um pequeno probleminha com esses conselhos, esquemas e receitas da internet: eles não funcionam. A chance de que uma bola qualquer cair dos globos duplos giratórios da Mega-Sena (ou de qualquer outra loteria) é a mesma de qualquer outra bola. Como há um globo para cada dezena, com 60 bolas dentro de cada globo (uma bola para cada dezena), na verdade a chance de sair a bola 31, depois que já saiu a bola 31, é a mesma de qualquer outra bola; e depois disso a chance de sair a bola 31, depois que ela já saiu duas vezes, é a mesma de qualquer outra bola. (Quando sai uma bola repetida de um dos globos, os organizadores do sorteio devolvem a bola para dentro do globo, para não alterar suas propriedades mecânicas.)

Na Mega-Sena, por exemplo, a chance de sair uma bola é 1/60, pois há 60 bolas no globo giratório. A probabilidade é sempre 1/60, não importa quais sejam as dezenas mais sorteadas, nem as menos sorteadas, nem o número de letras no nome do leitor, nem o dia da aposta no calendário lunar chinês. “Como essa bola pode aparecer em qualquer uma das seis posições da sena”, diz Carlos Alberto, “na verdade a chance de que uma bola caia de um dos seis globos duplos é de 6/60.” No próximo globo, há 60 bolas, mas só 59 serão aceitas, visto que uma já saiu no globo anterior. “Neste caso, a chance de sair a segunda dezena é de 1/59, mas como temos cinco posições possíveis nas quais essa segunda dezena vai sair, a chance verdadeira é 5/59.” Colocando isso tudo em linguagem matemática e fazendo as contas, a chance de que saia determinado conjunto de seis dezenas é de:

Essa é mais ou menos a mesma chance de jogar uma moeda comum para cima 26 vezes e tirar cara 26 vezes seguidas.

Outro professor do IME-USP, Marcos Nascimento Magalhães, também usa o pensamento cartesiano para desmontar outro mito da internet. Tudo leva a crer que os globos duplos e as bolas numeradas são fabricados com esmero, e que o Inmetro fiscaliza todo o material com frequência e com cuidado. Se for assim, diz Marcos, conforme a Caixa realize mais e mais concursos, e conforme o número de concursos tenda ao infinito, essa coisa de dezenas que mais saem e dezenas que menos saem vai desaparecer. Todas elas vão sair igualmente 1/60 vezes o número de concursos. Isso significa que, quando o número de concursos tender ao infinito, muito provavelmente já terão sido sorteadas as dezenas 01, 02, 03, 04, 05 e 06, assim como as dezenas 01, 11, 21, 31, 41 e 51, assim como a mais legal de todas, 01, 10, 25, 26, 51 e 60, que, no volante da Mega-Sena, forma uma espécie de X. Marcos sugere uma analogia com o jogo de cara e coroa. Se a moeda for jogada dez vezes para o alto, é bem possível que saia cara 7 vezes e coroa 3 vezes, e também é possível que saia coroa 8 vezes e cara 2 vezes. Mas, se a moeda for perfeita e o número de jogadas para cima tender ao infinito, o número de caras e o de coroas tenderá a 50% cada um.

Marcos também “desmitifica” uma crença comum entre leigos sonhadores: a de que é mais difícil sair um jogo com dezenas em sequência do que um jogo com dezenas bem misturadas. Imagine o leitor que, num determinado concurso, a primeira bola a sair seja aquela com a dezena 25. “E aí você pensa: bem, é uma dezena só, a 26, contra todas as outras 58 dezenas do globo; logo, a chance de sair 25 e 26 é menor que a chance de sair 25 e qualquer outra dezena.” Contudo, Marcos diz que a lógica do sorteio não é essa. “Os seis números são sorteados fora de ordem, e só então colocados em sequência. Sendo assim, a probabilidade de sair uma sena sequencial é a mesma de sair qualquer outra sena.”

Para deixar seu raciocínio mais claro, Marcos pede ao leitor que pense no bairro do Itaim Bibi, um bairro rico de São Paulo, onde moram mais pessoas brancas que negras. “Se você for sortear uma pessoa qualquer do bairro, a chance de que sorteie uma pessoa branca é maior. Mas qual é a probabilidade de você sortear uma pessoa específica, o Fulano, que é branco, ou então o Sicrano, que é negro? É a mesma.” Neste caso, a chance de sortear uma pessoa específica é de 1 dividido pelo número de moradores do bairro.

Voltando à Mega-Sena, o leitor pode fazer uma lista com todas as 50.063.860 combinações possíveis. Se fizer isso, verá que o número total de combinações em que há dezenas em sequência é menor que o número de combinações com dezenas misturadas. Esse raciocínio leva o leigo a achar que as senas só com dezenas em sequência são em número muito menor. “Contudo, quanto aos seis números que caem dos globos duplos, cada um deles tem a mesma chance de sair. É a mesma história do Itaim Bibi. Isso me leva a dizer que uma sena com dezenas em sequência tem a mesma probabilidade de sair que uma sena qualquer.”

Cada pessoa cria sua própria teoria a respeito das coisas imprevisíveis. No livro O Andar do Bêbado, Leonard Mlodinov cita o espanhol que uma vez ganhou na loteria nacional da Espanha. Ele comprou um bilhete terminado em 48, e ficou rico. Numa entrevista, explicou seu feito aos jornalistas: “Sonhei com o número 7 por 7 noites consecutivas, e 7 vezes 7 é 48.” Leonard explica assim o que aconteceu: “Todos nós criamos um olhar próprio sobre o mundo e o empregamos para filtrar e processar nossas percepções, extraindo significados do oceano de dados que nos inunda diariamente.” Se o sujeito não sabe tabuada direito, o modo como tira significado do que lhe acontece pode, por pura sorte, levá-lo à riqueza.

O professor Flavio Wagner Rodrigues (já falecido), também do IME-USP, uma vez escreveu um artigo sobre a Mega-Sena, e explicou por que talvez valha a pena cair “nessa pequena fraqueza de arriscar de vez em quando”, recorrendo ou não aos truques de Munir Pé-Quente ou da numerologia: “Se você pode, sem nenhum sacrifício, dispor de 10 reais por semana e decidir guardá-los, você terá, em valores não corrigidos, 520 reais após um ano e consequentemente 10.400 reais após vinte anos”, escreveu Flavio. “Com esse procedimento, a probabilidade de que você fique rico é zero. Se você jogar 10 reais por semana, a probabilidade de que você fique rico é quase zero, mas não é zero.” {FIM}



Observações adicionais:

1. As entrevistas ficaram a cargo do jornalista Evanildo da Silveira.

2. O número de milionários no Brasil caiu para mais ou menos 117.000 pessoas, segundo a Associação Brasileira das Entidades dos Mercados Financeiro e de Capitais (Anbima). Para a Anbima, milionário é quem tem pelo menos 1 milhão de reais em aplicações financeiras. O critério internacional é diferente: milionário é quem tem pelo menos 1 milhão de dólares.

3. Mais recentemente, em vários sorteios da Mega-Sena, a Caixa tem usado seis globos, um para cada bola sorteada; cada globo contém sessenta bolas, cada uma com exatamente uma das dezenas de 01 a 60.

4. Para deixar brutalmente claro: a seção 1 contém ironia, mas a seção 2 é conversa séria.

Pode rezar para a deusa Fortuna. Funciona


No dia a dia, inclusive no dia a dia de gente com boa educação formal, muitos chegam a conclusões absurdas sem perceber que são absurdas. Isso porque não levam em conta a ideia de regressão à média.


{1}/ A felicidade de fortunoso

Existe um jeito de montar um experimento científico para provar duas afirmações extraordinárias: que rezar à deusa Fortuna por um doente funciona, mesmo que o doente não saiba que estão rezando por ele; e que Fortuna, tão mal falada pelos outros deuses em razão de sua propensão a atrocidades, na verdade dá prioridade aos que estão mais gravemente doentes. Basta que o estudante (vou chamá-lo de Tjo) proceda assim:

1. Ele sorteia 100 pessoas entre as que entraram ontem no pronto-socorro dos hospitais da cidade. Esse é o grupo 1.

2. Depois, sorteia quaisquer outras 100 pessoas da cidade. Esse é o grupo 2.

3. Pede a um grupo de religiosos que reze à Fortuna e lhe peça que interceda pelos dois grupos junto a Júpiter, o deus mais poderoso do panteão romano.

4. Espera uma semana, e depois investiga o que aconteceu com cada membro dos dois grupos.

Sabe o que deve acontecer, muito provavelmente? Muitos dos que há uma semana estavam mal no pronto-socorro, hoje já estão bem melhor; quanto aos membros do grupo 2, estão mais ou menos como estavam. O experimento fica interessante quando Tjo compara um grupo com o outro. Os dados deixam bem claro que Fortuna se compadeceu dos doentes, e deve ter sido bastante insistente ao interceder por eles junto a Júpiter. Conclusão? Rezar para Fortuna dá resultados, e se o fortunoso reza por algum amigo ou parente numa situação difícil, é bem provável que Fortuna se apresse em ajudá-lo.

A deusa Fortuna na visão do artista e matemático alemão Albrecht Dürer (1471-1528). Os romanos morriam de medo dela, e com frequência a chamavam de “a atroz Fortuna”; achavam até que gente muito sortuda tinha achado um jeito de fazer sexo com ela. Naquela época, muitos tinham a receita certa para incentivar a benevolência de Fortuna: cultivar virtudes como a sabedoria, a coragem, a justiça, a temperança.

Mas Tjo já ouviu falar de regressão à média. Sabe que, diante de um caso desses, pode tanto ter testemunhado um fenômeno extraordinário (rezar para Fortuna funciona) quanto ter testemunhado um simples caso de regressão à média. É uma ideia da estatística. Tjo imagina um conjunto de medições de alguma variável aleatória — por exemplo, o estado de saúde de uma pessoa, classificado de 0 (morto) a 10 (saúde perfeita). Não há escapatória: esse conjunto tem de ter uma nota média (algo que Tjo pôde provar com facilidade; bastou excluir a existência de conjuntos vazios). Ao escolher uma medição a esmo dentro do conjunto, se ela estiver longe da média, então é mais provável que improvável que a próxima escolha esteja mais perto da média.

É possível afirmar que o estudante Tjo é uma exceção, pois conhece a ideia de regressão à média. Boa parte das pessoas comuns não a conhece, assim como boa parte dos estudantes de matemática, e não só no Brasil — especialistas em estatística reclamam disso no mundo inteiro. Giovana Oliveira Silva, chefe do departamento de estatística da Universidade Federal da Bahia, ao conversar sobre o modo como dá aulas, sem querer revela um dos motivos pelos quais poucos ouvem falar de regressão à média: os próprios professores não a mencionam. “Que eu me lembre, acho que nunca usei em sala de aula a expressão regressão à média”, diz Giovana. “Costumo explicar bem a ideia de regressão linear simples [veja a explicação mais abaixo], que contém essa ideia de regressão à média. Até fui conversar com outros professores aqui do departamento, e perguntei se eles usam essa expressão, mas parece que ela não faz parte do costume, até porque não aparece na grade curricular.”

Gauss Moutinho Cordeiro, professor na Universidade Federal de Pernambuco, às vezes nota um jornalista pasmo com algo que não deveria provocar pasmo nenhum — por exemplo, pasmo porque o filho de Pelé não é um jogador tão talentoso quanto o pai. “O Pelé é um ponto longe da curva”, diz Gauss. “Mesmo que Pelé tivesse tido 50 filhos, provavelmente nenhum seria tão bom jogador quanto ele foi.” Outra história engraçada de ponto fora da curva é a do polvo Paul, que, durante a copa do mundo na África do Sul (2010), previu os vitoriosos em 11 de 13 jogos. Giovana explica: “É claro que isso foi um acaso. Mas, quando um acaso desses acontece, vejo que as pessoas gostariam que continuasse acontecendo. Talvez tenhamos dificuldade de aceitar que a vida é aleatória.” Depois do polvo Paul, o polvo longe da média, os polvos regressaram à média e não adivinham mais nada. Um país que mal conhece a ideia de regressão à média não produz apenas consequências cômicas — produz também algumas consequências de tom mais sombrio.

Curva reta. Antes de continuar, Tjo acha que é hora de entender melhor essa ideia de regressão. O que é regressão?

Tjo usa a palavra “regressão” para dar nome a um modelo matemático, assim como usa “oscilação harmônica simples” para dar nome a outro ou “teorema de Pitágoras” para dar nome a outro ainda. Pode encarar a palavra “regressão” como o rótulo que cola numa caixa, dentro da qual estão várias fórmulas e as regras pelas quais manuseá-las e interpretá-las. Para que serve uma regressão?

Com ela, descreve o jeito como o valor médio de uma variável aleatória depende de outra variável (no singular) ou de outras variáveis (no plural).

Tjo passa a estudar um exemplo, com o qual planeja deixar esses conceitos mais palpáveis. Imagina: e se ficasse num consultório, vestido de branco e com estetoscópio no pescoço, e pela porta do consultório entrassem mil crianças, uma de cada vez? A cada criança, Tjo mede sua altura e seu peso, e também pergunta sua idade; anota tais informações numa planilha eletrônica, junto com o sexo. As crianças não correspondem a nenhum tipo de padrão — umas são mais novas e outras mais velhas, umas são negras e outras brancas, umas estão gordas e outras magras. Nesse caso, peso, altura, idade e sexo são variáveis aleatórias, pois, antes que uma criança entre pela porta, Tjo não pode prever que tipo de criança entrará.

Enquanto trabalha, Tjo pensa num problema: será que conseguiria usar as informações das mil crianças para estimar o peso médio de uma criança se souber apenas sua altura? Ou então será que conseguiria estimar o peso se usasse tanto a altura quanto a idade e o sexo? Sim, conseguiria, se usasse os dados das mil crianças para montar uma regressão. Daí, sabendo que determinada criança tem 10 anos e mede 139 centímetros de altura, usa a regressão recém-montada e tem condições de fazer uma aposta: seu peso deve estar perto do valor médio, que, neste caso, é de 32 quilogramas. (Não significa que o peso real seja esse mesmo, mas sim que o peso médio para crianças de 139 centímetros de altura e 10 anos é esse, de 32 quilogramas.)

Depois desse preâmbulo, Tjo já se sente em condições de estudar uma definição mais formal de regressão. Primeiro, estuda o significado do símbolo E(Y | x); ele significa: “Esse é o valor médio da variável aleatória Y, visto que obtive o valor x da variável X, que é outra variável qualquer, mas de algum modo associada à variável Y.” Pode ainda ler E(Y | x) assim: “Eis o valor médio de Y condicionado ao valor x de X”.

(Aqui, Tjo está usando letras maiúsculas para indicar a variável, pois uma variável é um conjunto, dentro do qual existem muitos valores distintos. Com as letras minúsculas, está indicando um valor específico da variável. Por exemplo, perguntou a idade de três crianças e guardou as informações no conjunto I = {12, 6, 8}, de modo que i1 = 12, i2 = 6 e i3 = 8. Essa é uma prática comum na estatística.)

Bem, quando Tjo escreve E(Y | x), está dizendo que, quando o valor x varia, E(Y | x) também varia; sendo assim, E(Y | x) é uma função de x. À moda dos especialistas, pode chamar essa função de “regressão de Y em função de x”.

Mais um exemplo: se Tjo já obteve a altura A, o peso P e a idade I de umas mil crianças, pode construir uma regressão do peso em função da idade, que vai denotar como E(P | i), e daí, ao inserir a idade i nas fórmulas, obterá o peso médio das crianças daquela idade. Não significa que obterá o peso da criança em questão, aquela que está bem diante dele limpando os dedos sujos de chocolate na cadeira, mas o peso médio de todas as crianças com aquela idade.

E quanto às fórmulas?

Tjo estuda o caso mais simples de todos, o da regressão linear, no qual o modelo de regressão é uma linha reta. (Nesse caso, a curva é uma reta.)

Como os especialistas chamam a variável aleatória Y? Fuçando na internet, Tjo acha vários nomes: variável de resposta, variável dependente, variável de efeito, regressando. E como chamam o valor x da variável X? Variável explicativa, variável fixa, variável independente, variável predicada (um predicado é uma característica inerente a alguma coisa), variável previdente, variável causal.

Quanto aos parâmetros β0 e β1, Tjo descobriu que pode chamá-los de “coeficientes da regressão”. Como são valores constantes, essa versão mais simples de regressão linear é uma reta (isso se x varia continuamente, isto é, se x não varia em saltos). Em geral, são desconhecidos; significa que Tjo deve partir das medições que tem em mãos e descobrir o valor desses coeficientes. Como faz isso? Se fizer as contas à mão (haja paciência!), recorre à teoria das matrizes; mas pode inserir os pontos na memória de um computador, equipado com software especializado em estatística, que o software devolve o valor mais provável de β0 e β1.

“Devolve o valor de β0 e β1 ou devolve o valor mais provável de β0 e β1?”, Tjo pergunta. Depois de uma pesquisa, descobre que, conforme as circunstâncias, só pode realmente saber o valor exato de β0 e β1 se obtiver a altura, o peso, a idade, e o sexo de todas as crianças do Brasil (se seu interesse for o Brasil), ou de todas as crianças do mundo (se seu interesse for o mundo). Só no Brasil, são umas 48 milhões de crianças; no mundo, são 1 bilhão e 850 milhões. Então, em circunstâncias práticas, Tjo vai sempre procurar o valor mais provável de β0 e β1 para aquelas circunstâncias.

Agora, Tjo examina um caso bem comum de regressão linear, pois esse caso todo especialista em estatística conhece de cor e salteado. (É o caso que a professora Giovana procura sempre explicar bem.) Nesse caso comum, Tjo assume que os valores de Y seguem uma distribuição normal, com variância σ2 constante, mas desconhecida (σ é o símbolo de desvio padrão; desvio padrão ao quadrado é variância); assume também que tal variância não depende dos valores de X. Se obtiver uma amostra de n pares independentes de valores de X e de Y, isto é, se obtiver uma amostra de n pares ordenados (xi, yi), nos quais i é um inteiro positivo que vai de 1 até n, daí pode usar a teoria sobre regressões para calcular o valor b0 e b1de β0 e β1; b0 e b1são os valores mais prováveis de β0 e β1nessas circunstâncias, e Tjo deve chamá-los pelo nome técnico de “estimadores de máxima verossimilhança”.

Tjo então pressupõe que Y segue a distribuição normal, e aceita todas as outras pressuposições como corretas; o próximo passo é calcular os valores de b0 e b1que mais se aproximam de β0 e β1. Para isso, usa o método dos mínimos quadrados, que Gauss usou em 1801 para determinar a órbita de Ceres (um dos asteroides no cinturão de asteroides entre Marte e Júpiter). Na prática, o que Tjo tem de fazer é minimizar a expressão a seguir.

Ao fazer isso, vai descobrir os valores de b0 e b1, que, no fim das muitas contas, são:

Bate os olhos em expressões com o sinal de somatório e já sabe: não são meras expressões matemáticas, pois beiram uma complicada receita de bolo. (Em outras palavras, têm parentesco forte com os algoritmos.) Nos casos acima, o xis e o ípsilon com a barrinha em cima significam “a média aritmética de x” e “a média aritmética de y”. Apenas para pegar um senso do que está acontecendo, Tjo traduz o que significa a expressão de b1:

Tjo descobre ainda que pode estender a ideia de regressão de várias maneiras, incluindo a regressão linear múltipla, na qual há p > 1 variáveis explicativas x1, x2, x3, …, xp, e além disso:

Com a expressão (1), está olhando o valor médio esperado de Y como sendo função dos parâmetros βi; assim, (1) é função linear desses parâmetros; Tjo pode usar as palavras “modelo de regressão linear” mesmo no caso de modelos que não sejam lineares em xi. Por exemplo, se monta uma expressão na qual xi = xi, daí a função de regressão (1) vira na verdade um polinômio de grau p.

Com os estudos, Tjo descobriu que, se não puder usar a pressuposição de que os valores de Y variam conforme a distribuição normal, e de que sua variância é constante, daí tem de trabalhar muito mais para montar um modelo de regressão confiável. Em vários casos reais, montar um bom modelo de regressão às vezes leva uns poucos meses, e às vezes ainda uns poucos anos. Por isso, em vários casos reais, como o das mil crianças, o analista simplesmente presume que o peso varia conforme a distribuição normal (OK, é uma presunção correta) e que a variância do peso não tem correlação com a altura, a idade, e o sexo; Tjo pode questionar a verdade dessa última pressuposição, mas, se quiser contas mais simples, faz melhor se a aceita.

Olhando o gráfico 1 (abaixo), que mostra uma regressão linear de uma variável cuja distribuição é normal, Tjo entende o que toda essa conversa de regressão tem a ver com o fenômeno da regressão à média (o fenômeno que engana tanta gente): se é possível passar uma linha reta que fica mais perto do que mais longe da maioria dos pares ordenados (xi, yi), então é porque a maioria dos pares ordenados (xi, yi) está mais perto que mais longe dessa reta, isto é, se num momento Tjo está lidando com um ponto longe da curva, no momento seguinte é bem provável que vá lidar com um ponto mais perto da curva. “Se não fosse assim”, escreveu Tjo numa folhas soltas de papel A4, “seria impossível desenhar uma reta com tais características!”

Gráfico 1

A aparência da regressão linear da variável Y (cujos valores estão no eixo das ordenadas) em função do valor da variável X (cujos valores estão no eixo das abscissas). Neste caso, Y segue a distribuição normal. (Crédito do gráfico: Sewaqu/ Wikipedia.)

Jogador de dardos. Tjo entra no website Random.org e providencia três conjuntos de números aleatórios, C, D, e F — cada um deles contém 20 números, e todos seguem a distribuição normal. (São números aleatórios de verdade, e não pseudoaleatórios.) A única diferença entre eles é a média e o desvio padrão. Com os números do Random, organiza a tabela 1.

TABELA 1

Nome do conjunto

Características dos números gerados

Números

C

Média: 10. Desvio padrão: 4.

{12 | 11 | 12 | 9,8 | 7 | 16 | 7,4 | 12 | 4,1 | 7,2 | 12 | 17 | 7,1 | 0,98 | 13 | 31 | 7,3 | 6,2 | 19 | 9,4}

D

Média: 12. Desvio padrão: 6.

{11 | 9,6 | 18 | 12 | 26 | 14 | 12 | 19 | 13 | 21 | 22 | 15 | 9,4 | 13 | 20 | 12 | 13 | 17 | 13 | 16}

F

Média: 8. Desvio padrão: 3

{3,7 | 8 | 7,9 | 6,1 | 8,1 | 5,9 | 3 | 9,6 | 12 | 8,9 | 8,4 | 11 | 6 | 9,7 | 11 | 8,6 | 9,4 | 10 | 11 | 9,2}

Lembrete: pode chamar os elementos do conjunto C, por exemplo, de {c1, c2, …, c20}.

Nota. Os números da tabela 1 mostram os valores duma variável aleatória, mas não mostram nenhuma variável que possa ser usada como variável explicativa numa regressão linear simples. Então, se o estudante olha a tabela com a fórmula E(Y | x) = b0 + b1x na cabeça, deve notar que a tabela mostra apenas os valores de Y.

Feito isso, imagina uma história para esses números. São os números referentes a um jogador de dardos; são as medidas, em centímetros, do centro do alvo até o ponto no qual o dardo se fincou. Sendo assim, quanto menor o número, melhor: o dardo ficou mais perto do alvo; da mesma forma, quanto maior o número, pior. E daí Tjo usa as informações dos professores Gauss e Giovana para olhar essas três coleções de números como se fosse um especialista e também como se fosse um boboca.

• O número c14 = 0,98 é extraordinário: o dardo se fincou a menos de 1 centímetro do alvo! Contudo, logo depois dele, vem um número mais perto da média. Da mesma forma, o número c19 = 19 é muito alto, mas logo depois dele vem um número perto da média. Isso também acontece bem claramente no conjunto F. Depois de números muito baixos, como f1 e f7, ou de números mais altos, como f9 e f15, aparecem números mais perto da média. Giovana explica: “O mesmo vale para audiências de novelas, que têm picos. Muitos desses picos são claramente exceção, e não tendência, pois depois deles a audiência tende a voltar à média. O mesmo vale para um filho muito alto, cujos pais são baixos — os outros irmãos tendem a ficar com altura mais próxima dos pais. O mesmo vale para as notas de um aluno; às vezes, uma nota fica muito alta ou muito baixa, mas é um acaso imprevisível.”

• Para quem acompanha o jogador de dardos, por exemplo um empresário ou um apostador, é essencial guardar os números e analisá-los de tempos em tempos. Isso porque um número excepcional às vezes não é apenas acaso — mas o primeiro sinal de que ocorreu, ou está ocorrendo, uma mudança na média. Olhando os três conjuntos, o estudante Tjo imagina a seguinte história: havia esse jogador de dardos, que era até razoável, pois seus lançamentos ficavam a 10 centímetros do alvo com uma boa consistência (conjunto C). Depois, esse jogador se associou a um treinador, e começou a estudar uma técnica nova de lançamento; enquanto assimilava a técnica, seus lançamentos ficaram mais longe do alvo, e as distâncias variaram mais (conjunto D). Depois de dominar a técnica, agora o jogador lança os dados mais perto do alvo, e com ótima consistência (conjunto F). Só que, para quem olha os dados sem saber que essa história está em curso (como ocorre em muitas situações reais), não consegue ver direito a transição do conjunto C para o D, pois os quatro primeiros números do D são consistentes com o histórico de C. O mesmo quanto à transição do conjunto D para o F, com aquele f1 = 3,7 (que ótimo!) e aquele f2 = 8 (não se pode elogiar…): só fica claro que a média mudou de patamar depois de vários lançamentos. “Temos de acompanhar os números que nos interessam”, diz Giovana. “Só assim podemos dizer: será que esse número excepcional foi fruto do acaso, e o próximo número tende a regressar para a média, ou será que algo está melhorando ou piorando substancialmente?”

• Tjo desconfia dos números no conjunto D. “Eles não parecem retirados de um conjunto cuja média é 12.” Pega os vinte números de D e faz as contas: a média é 15,3; a mediana é 13,5; a moda é 13 e o desvio padrão da amostra é 4,47. Com isso, vê como se manifesta na prática algo que os especialistas vivem dizendo: uma amostra pequena quase nunca revela bem a estrutura matemática da qual surgiu, ainda mais se o desvio padrão dessa estrutura é grande. Os números do conjunto D seguem a distribuição normal e sua média é 12, mas Tjo só poderia ver isso com clareza se tivesse pedido ao Random.org, por exemplo, uns cinquenta números. Entende assim o que a professora Giovana quis dizer: em situações reais, deve colecionar os números que julga importantes, pois só assim terá condições de construir um modelo matemático mais condizente com a realidade.

• Se Tjo tivesse elogiado o jogador depois de c14 = 0,98 centímetro, e logo em seguida o jogador conseguisse 13 e 31, teria o direito de pensar: “Não se pode elogiar. Basta um elogio e o cabra já fica folgado.” O mesmo vale para números como c18 = 6,2 e f7 = 3: depois de um número muito bom, vêm números piores, e isso parece assim: basta um elogio e o cabra se esbalda na incúria. Se Tjo tivesse dado uma baita bronca no jogador depois de c6 = 16, c12 = 17, c16 = 31, d5 = 26, d11 = 22 e f9 = 12, o jogador teria logo em seguida obtido números melhores, e seria natural se Tjo concluísse: “Tenho de ser duro com esse cabra, e tenho de ficar em cima, senão ele pega uma garrafinha de água fresca e se acomoda numa sombra.”

O psicólogo israelense Daniel Kahneman, especialista em teoria das decisões, relembra a primeira vez que notou esse fenômeno humano. Ele contava a um grupo de militares israelenses, com grande entusiasmo, alguns resultados que havia obtido ao treinar pássaros:

“Tive a mais satisfatória experiência de eureca da minha carreira quando tentava ensinar instrutores de voo. Eu queria passar a ideia de que, para estimular o aprendizado de algo difícil, o elogio funciona melhor que o castigo. Quando terminei meu discurso entusiasmado, um dos mais experientes instrutores na audiência levantou a mão e fez um breve discurso. Começou reconhecendo que reforço positivo talvez funcione com pássaros, mas seguiu afirmando que não acreditava em reforço positivo no treinamento de pilotos de caça. Ele disse: ‘Em muitas ocasiões, elogiei um cadete pela execução perfeita de alguma manobra acrobática, mas em geral, quando ele tentava de novo, fazia pior. Por outro lado, com frequência eu grito na cara de um cadete por causa duma manobra pessimamente executada, e da próxima vez ele a executa melhor. Então, por favor, não me diga que reforço positivo funciona e que reforço negativo não funciona — pois a verdade é justamente o contrário!’ Esse foi um momento de grande alegria, pois entendi uma verdade importante sobre o mundo: visto que tendemos a premiar os outros quando vão bem e a castigá-los quando vão mal, e visto que existe a regressão à média, faz parte da condição humana ser estatisticamente punido por premiar os outros, e estatisticamente premiado por puni-los. Na mesma hora, bolei uma demonstração desse fato: cada membro da audiência teve de jogar duas moedas contra um alvo atrás de si, sem virar a cabeça para olhar, e sem nenhuma ajuda de ninguém. Medimos a distância da moeda ao alvo e constatamos — os que foram melhor da primeira vez, foram pior da segunda, e os que foram pior da primeira vez, foram melhor da segunda. Porém, eu sabia que essa demonstração não alteraria os efeitos de uma vida inteira exposto aos efeitos perversos da sorte.”

Depois de trabalhar nesse assunto por muitos anos, em 2002 Kahneman ganhou o prêmio Nobel de economia. Gauss Cordeiro diz que hoje não há, em tese, nenhum empecilho para que mais gente tome decisões levando em conta a ideia de regressão. “Até a planilha Excel faz regressão sozinha.” (É verdade. Se o estudante Tjo coloca numa coluna uma série de medidas, como o peso de cada criança, e na coluna ao lado coloca a altura de cada uma, o Excel gera automaticamente a regressão linear com a qual Tjo pode calcular o valor médio do peso em função da altura, por exemplo. Daí, se para uma criança específica o peso for muito maior ou muito menor que o valor médio esperado, é bem provável que, pela regressão à média, a próxima criança esteja com o peso mais perto da média.) Mesmo assim, diz Gauss, poucos fazem regressões e poucos conhecem a ideia de regressão à média, e isso vale para empresas e instituições do governo. Talvez o assunto seja novo. “Quando criamos a Associação Brasileira de Estatística, em 1984”, diz Gauss, “a Royal Statistical Society, no Reino Unido, estava fazendo 150 anos.”

Agora, tanto Gauss quanto Giovana sugerem um conselho importante: sim, existe a regressão à média; mas não, Fortuna não recompensa ninguém. Se Tjo topou com um número longe da média, pode apostar num número mais perto da média da próxima vez, mas não significa que ganhará a aposta. A regressão à média não é, de nenhuma forma, um tipo de compensação. Tjo pode ver isso nos números da tabela 1. Depois de c11 = 12, que é mais alto que a média 10, veio c12 = 17, que é mais alto ainda; depois de c15 = 13, veio c16 = 31! No caso de números que seguem uma distribuição bem comportada, como a normal, quase sempre Fortuna manda um número mais perto da média depois de mandar um mais longe. Mas Fortuna não tem essa obrigação, e Tjo não deve esperar dela nenhuma consideração, por mais que reze, pois é famosa pelo temperamento difícil. {}



{2}/ Um pouco sobre a distribuição normal

Num resumo super-hiper-resumido, uma função de distribuição de probabilidade é uma fórmula matemática com a qual o estudante pode calcular a probabilidade de que determinada variável assuma determinado valor. A distribuição normal é uma dessas funções; é muito útil tanto na matemática pura quanto na aplicada. Suas principais características são: ela é simétrica em relação à linha vertical x = μ (sendo μ a média do conjunto), ou seja, metade dos valores está abaixo da média e metade, acima; e 68% dos valores estão a um desvio padrão ou menos de distância da média μ.

A distribuição normal com vários parâmetros distintos. Crédito da ilustração: Inductiveload/ Wikipedia.

{FIM}


1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 39, abril de 2014, pág. 22. A versão que acabou de ler foi revista e ligeiramente reescrita. Os fatos são os que valiam na ocasião.

2. As entrevistas ficaram a cargo do jornalista Francisco Bicudo.

3. Ao longo da reportagem toda, usei a palavra “aleatório” para dizer “algo que você só pode descrever corretamente caso recorra aos axiomas de Kolmogorov”. Nem todo especialista usa a palavra “aleatório” dessa maneira; em particular, para vários deles, “aleatório” se refere a “fenômenos distintos cuja probabilidade de ocorrer é idêntica”. A palavra-chave é “idêntica”. Assim, se você joga um dado, e a probabilidade de sair qualquer uma das faces para cima é 1/6, pode dizer que esse dado é um gerador de números aleatórios. Mas, se a probabilidade de sair uma das faces é mais alta ou mais baixa que a probabilidade de qualquer uma das outras faces, de acordo com tais especialistas, você já não pode mais considerar esse dado como um gerador de números aleatórios. Ele é um gerador de números não aleatórios, porém estocásticos, que, em todo caso, você só pode descrever adequadamente caso recorra aos axiomas de Kolmogorov.

Ano de eleições é ano de estatística é ano de erros


Uma previsão para as próximas eleições, quer ocorram este ano, quer ocorram em 2018: em algum momento, em alguma cidade, algum instituto de pesquisa errará feio. Os acadêmicos sabem disso, os institutos sabem disso, e neste texto o leitor entende os porquês.


{1}/ O problema de métodos baratos e rápidos

Nas eleições de 1985 para a prefeitura de São Paulo, uma pesquisa do Datafolha indicava a vitória de Fernando Henrique Cardoso sobre Jânio Quadros. Fernando Henrique chegou a se sentar na cadeira do prefeito, e o fotógrafo presente (Jorge Rosenberg) clicou a cena várias vezes, de vários ângulos. Há várias cópias dessas fotos na internet: uma delas mostra o candidato olhando para a câmera, segurando uma caneta sobre um papel, como se já fosse o prefeito e estivesse a ponto de assinar um documento importante. Terminadas as eleições e apurados os votos, Jânio Quadros se elegeu prefeito com 4 pontos porcentuais de vantagem sobre FHC. Na internet, também existe a cópia de outra foto: antes de se sentar na tal cadeira, Jânio teve o cuidado de, digamos assim, desinfetá-la. A foto mostra Jânio passando inseticida sobre o espaldar.

Todos os institutos erram: Ibope, Vox Populi, Sensus; todos eles já divulgaram pesquisas que, depois, se mostraram muito erradas. Visto que os funcionários desses institutos tiveram tempo de estudar os erros do passado, o que acontecerá na próxima vez que houver eleições? É bem provável que eles, os funcionários e os institutos, errem feio de novo — isso é tão batata quanto uma batata é uma batata. Se não em São Paulo, errarão em Brasília; se não em Brasília, em Vitória; se não em Vitória, em Palmas. Pois tais funcionários não podem recorrer ao método mais confiável de realizar uma pesquisa eleitoral: ele é caro, mas, pior do que isso, ele só permite uma boa previsão depois de semanas de trabalho. Então os funcionários recorrem ao método com o qual produzem uma previsão em dois ou três dias, e que também é mais barato, mas com o qual, de quando em quando, produzem erros difíceis de explicar.

Três bairros em São Paulo. De modo geral, o analista de um instituto de pesquisas pode escolher dois métodos, e quase sempre ele escolhe o método de amostragem por cotas, que é mais rápido e mais barato, mas também menos confiável. Se ele quer saber em quais candidatos os eleitores de São Paulo pretendem votar, primeiro procura saber qual é o perfil dos eleitores de São Paulo: como tais eleitores podem ser classificados por sexo, idade, escolaridade, renda mensal, endereço?

Se o analista pudesse entrevistar só 1.000 pessoas, e se São Paulo tivesse só três bairros (o bairro A, de classe alta, que representa 10% da população; o bairro B, de classe média, que representa 30% da população; e o bairro C, de classe baixa, que representa 60% da população), o analista faria assim: ele localizaria, em cada bairro, um lugar por onde passa muita gente daquele bairro. No bairro A, esse lugar seria um shopping center. No bairro B, uma galeria. No bairro C, um mercadão. O analista iria até o shopping do bairro A e entrevistaria a esmo 100 pessoas. Iria até a galeria do bairro B e entrevistaria a esmo 300 pessoas. E iria até o mercadão do bairro C e entrevistaria a esmo 600 pessoas. É assim que funciona o método por cotas: o analista vai até o lugar por onde as pessoas de determinado perfil andam, e aborda as pessoas mais ou menos a esmo (mais ou menos porque, se tem de entrevistar 100 homens e 100 mulheres, por exemplo, ele aborda a esmo 100 homens e aborda a esmo 100 mulheres; se tem de entrevistar 20 mulheres grávidas, aborda a esmo 20 mulheres grávidas). No segundo turno das eleições de 2010 para presidente, por exemplo, o Datafolha usou esse método para ouvir 6.554 eleitores em 257 cidades ao longo de dois dias.

O instituto de pesquisa, quando divulga os resultados, divulga também a margem de erro, de dois a três pontos porcentuais. Se 51% dos eleitores planejam votar no candidato Direita e 49% planejam votar no candidato Esquerda, e se a margem de erro é de 3 pontos porcentuais, então o analista deveria divulgar uma tabela mais ou menos assim:

Direita Esquerda
51% 49%
54% 46%
48% 52%

O cenário divulgado pelo instituto diz que Direita deve ganhar de Esquerda, mas talvez direita ganhe de lavada ou talvez Esquerda ganhe com alguma folga — ou talvez ainda aconteça qualquer coisa entre esses dois extremos. Especialistas não veem problema nenhum nas margens de erro — toda pesquisa eleitoral, não importa o método, tem margem de erro. Mas Cristiano Ferraz, professor de pós-graduação em estatística na Universidade Federal de Pernambuco, diz que com frequência a realidade se revela muito além ou muito aquém da margem de erro das pesquisas feitas com o método por cotas.

Em 1989, nas eleições para presidente, o Datafolha disse que Collor teria 26% dos votos, mas teve 30,5% (diferença de 4,5 pontos porcentuais); disse que Ulysses Guimarães teria 11% dos votos, mas teve 4,7% (diferença de 6,3 pontos porcentuais). Em 1986, nas eleições para governador, o Ibope disse que Itamar Franco (39%) ganharia o governo de Minas Gerais concorrendo com Newton Cardoso (36%), mas Newton Cardoso ganhou com 40% dos votos (diferença de 4 pontos porcentuais). No Pará, ainda segundo o Ibope, Hélio Mota Gueiros ganharia o governo do estado com 63% dos votos; Hélio ganhou de fato as eleições, mas com 55% dos votos (diferença de 8 pontos porcentuais). Em 1994, foi a vez do Vox Populi errar feio. Nos últimos dias do segundo turno, o instituto disse que Valmir Campelo (48%) ganharia de Cristovam Buarque (42%), mas, terminada contagem dos votos, Cristovam ganhou a eleição com 51% dos votos (diferença de 9 pontos porcentuais). Em 2010, na última pesquisa antes das eleições, o Datafolha disse que os paulistas elegeriam dois senadores, Marta Suplicy (24%) e Netinho de Paula (24%), e deixariam de fora Aloysio Nunes (20%), mas, no fim das contas, os paulistas elegeram Aloysio Nunes com 30,42% dos votos (diferença de 10,42 pontos porcentuais) e Marta Suplicy com 22,61% dos votos (dentro da margem de erro).

O grandão mal-encarado. Autores de livros didáticos sobre estatística dizem que, para que uma amostra da população represente bem o que pensa a população inteira, cada membro da população tem de ter a chance de ser incluído na amostra. Isso significa que, se o Datafolha ou o Sensus querem organizar uma pesquisa para saber em qual prefeito os paulistanos pretendem votar, cada paulistano deve ter uma chance maior que zero de ser ouvido. Na amostragem por cotas, contudo, assim que o instituto escolhe o lugar em que vai realizar as entrevistas (por exemplo, o mercadão), ele automaticamente exclui todos os paulistanos que nunca vão ao mercadão. A chance de que tais paulistanos sejam ouvidos se iguala a zero.

Cristiano diz que essa ideia é difícil de entender. Em geral, diz ele, o leigo associa a palavra “aleatório” com “vale tudo e qualquer coisa”. Sendo assim, o leigo não vê problema quando descobre que o instituto colocou pesquisadores na esquina da Ipiranga com a São João, mesmo que ele nunca tenha passado por tal esquina na vida. Além disso, talvez o pesquisador (um homem), postado na tal esquina, tenha de entrevistar 50 homens e 50 mulheres. Lá vem um homem. Ele é grande, está sujo, e olha à sua volta como se buscasse a oportunidade de roubar um relógio. Deixa esse homem para lá. Lá vem outro. Ele usa óculos, carrega uns livros, está com fones de ouvido e está sorrindo; parece que está curtindo o passeio e a música. “Boa tarde”, diz o pesquisador. “Pode responder uma pergunta para o instituto X?” Lá vem uma mulher. Tem o rosto bem enrugado, os cabelos brancos desgrenhados, e está falando sozinha. Deixa essa para lá. Lá vem outra, bem atrás, jovem, linda. Ela viu o pesquisador de longe, entendeu o que está acontecendo, e no seu rosto se lê: me escolhe! me escolhe! “Boa tarde”, diz o pesquisador, e assim, sem perceber, o pesquisador reduziu a chance do homem grande e da velha doida a zero, e tal redução não ocorreu por acaso.

José Ferreira de Carvalho, professor aposentado da Universidade Estadual de Campinas (Unicamp) e coordenador da Statistica Consultoria, traduz essa cena toda numa palavra: subjetividade. “Na amostragem por cotas”, diz Ferreira, “os pesquisadores atribuem probabilidades de seleção iguais dentro de cada extrato.” No exemplo da São Paulo com três bairros, os três extratos são classe alta, classe média e classe baixa. “Mas isso sai da cabeça deles; eles não têm nenhuma base para dizer isso. Não dá para dizer que esse tipo de pesquisa é enviesado. Ele simplesmente… não é uma pesquisa!”

Foi por conta dessa subjetividade que o Datafolha errou em 1985, na disputa entre FHC e Jânio Quadros. Funcionários do Datafolha fizeram reuniões para entender o que aconteceu, e chegaram à conclusão de que havia muitos velhos entre os eleitores de Jânio, e eles haviam se recusado a responder às perguntas dos moços e das moças do Datafolha. No caso de Aloysio Nunes, em 2010, havia muitos votos do tipo “não sei”. Como o eleitor escolhe o senador dentro da escola, na fila para votar; e como muito eleitor também escolhe o senador pela sigla, ao votar no governador, e como o eleitor votou em Geraldo Alckmin (50,63% dos votos válidos), os funcionários do Datafolha não captaram a guinada na direção de Aloysio Nunes.

Aleatório não doma aleatório. Estatísticos como Cristiano e Ferreira batizaram seu método preferido de método por amostragem probabilística; às vezes, eles também chamam esse método de método por amostragem aleatória. Nesse método, todas as pessoas da população a ser estudada têm chance maior que zero de participar da pesquisa, quer frequentem o shopping do bairro A ou não, quer frequentem a galeria do bairro B ou não, quer frequentem o mercadão do bairro C ou não, quer sejam grandes e sujos ou pequenos e limpos, quer penteiem os cabelos ou os deixem desgrenhados, quer falem sozinhos ou cantem no banheiro, quer sejam lindos ou tenham uma verruga peluda no nariz.

Como eles fazem isso? Eles levantam o perfil da população a ser estudada, dividem a população em extratos (por idade, sexo, renda, escolaridade, etc.), depois sorteiam as pessoas a entrevistar, e por fim entrevistam somente as pessoas sorteadas. Na São Paulo de três bairros, eles sorteariam 10% das pessoas do bairro A, 30% das pessoas do bairro B e 60% das pessoas do bairro C. Dito assim, isso tudo parece simples, mas, se um instituto consegue cumprir o método de amostragem por cotas em uns poucos dias, precisa de meses para cumprir o método de amostragem aleatória. Primeiro, terá de conseguir algum banco de dados confiável com os dados da população a ser estudada, pois, em geral, o analista precisa de um banco de dados antes de sortear as pessoas a entrevistar. Conseguir um banco desses, contudo, ou é caro, se for comprado pronto, ou é difícil de construir, se for construído do zero. Depois do sorteio, o entrevistador tem de ir até a casa do entrevistado tantas vezes forem necessárias até que consiga realizar a entrevista. Supondo que o entrevistado esteja acampando no Denali National Park, no Alasca, o instituto terá de realizar um novo sorteio. Esse é o método usado pelo Instituto Brasileiro de Geografia e Estatística (IBGE) para produzir a Pesquisa Nacional por Amostra de Domicílios (PNAD); em 2009, o IBGE ouviu 399.387 pessoas em 153.837 domicílios do Brasil inteiro.

Segundo Cristiano, a questão é que é impossível domar o aleatório com o aleatório. Para compreender o aleatório, o analista precisa de método; não pode recorrer à subjetividade vale-tudo da amostragem por cotas. “O sorteio sistematiza a amostra de forma objetiva.” Ferraz concorda. “O sorteio é o ingrediente-chave, o diferencial científico do método probabilístico.”

Cristiano até acha que os institutos, ao divulgar pesquisas apuradas com o método por cotas, se comportam de modo quase irresponsável. “Não é difícil encontrar eleitor que tenha a vontade de derrotar quem está na frente”, diz Cristiano, “e também não é difícil encontrar eleitor que tenha a vontade de votar em quem está na frente, simplesmente porque ela não gosta de perder.” Em outras palavras, as pesquisas interferem no comportamento dos eleitores, mas não só isso — elas interferem no comportamento de candidatos também. Um exemplo: em 2010, na disputa pela presidência, José Serra usou o segundo turno para condenar o aborto. As pesquisas mostravam duas coisas: que uma parcela importante dos eleitores não gostava de aborto, e que, se Serra insistisse na polêmica, não perderia os eleitores que já tinha conquistado. Ora, num mundo perfeito, o candidato deveria ser honesto com o eleitor, e o eleitor deveria votar no candidato que achasse melhor.

Trabalho em vão. No Datafolha, Renata Nunes César ouve todas essas explicações e críticas sem que seu rosto se altere um milímetro. Ela se formou em estatística, e trabalha no Datafolha desde 1998, onde chegou ao cargo de gerente de operações. Só para realizar uma pesquisa na cidade de São Paulo, por exemplo, o Datafolha emprega umas 150 pessoas, entre entrevistadores, checadores, planejadores e coordenadores. Há o risco de subjetividade na abordagem? O Datafolha, diz Renata, treina os entrevistadores para que eles conheçam o risco e saibam evitá-lo; eles até passam por simulações. Há o risco de alterar a resposta do entrevistado pelo jeito de fazer a pergunta? “Não fazemos perguntas prévias”, diz Renata. “Vamos direto para a intenção de voto, para não contaminar a manifestação do entrevistado.”

Além disso, Renata acha que estatísticos de perfil mais acadêmico, como Cristiano e Ferreira, confundem prognóstico com diagnóstico. “Temos claro que uma pesquisa de intenção de voto é diagnóstico, é uma fotografia do momento.” Como exemplo, Renata diz que o Datafolha foi o primeiro instituto a detectar, nas eleições de 2010, a onda verde, isto é, a existência de brasileiros simpáticos a Marina Silva (que na ocasião estava no Partido Verde); no fim das contas, ela ficou em terceiro lugar, com quase 20 milhões dos votos válidos. Logo em seguida, Renata afirma: “Uma pesquisa não é prognóstico. Não há como prever o que vai acontecer nas urnas.” Uma semana faz diferença: basta uma denúncia nos jornais, basta uma entrevista na TV, basta um debate, basta uma propaganda de TV bem-feita, basta um sermão numa igreja lotada, basta um boato no Facebook — e, de uma semana para outra, o eleitorado muda de opinião. “Se adotamos o método por amostragem aleatória, quando a pesquisa terminar, muito possivelmente a fotografia será outra. Todo o trabalho terá sido em vão.”

Cristiano acha que, se os institutos vão continuar usando o método das cotas, pelo menos deveriam divulgar as falhas do método. Será que isso funcionaria?

Diante do analista, talvez uma eleitora lhe diga:

“Eu tenho aqui duas moedas. Uma delas é viciada: tem duas caras. A outra é uma moeda comum. Vou escolher uma delas ao acaso, jogá-la para cima e deixá-la cair no chão cinco vezes seguidas.”

A eleitora faz o que prometeu, e o analista anota o resultado: deu cara cinco vezes seguidas. O que ele pode concluir dessa experiência? O analista usa o teorema de Bayes para chegar à conclusão de que a probabilidade de que a eleitora tenha escolhido a moeda viciada é de quase 97%. O que o instituto de pesquisa deveria divulgar, e o que os jornalistas de TV deveriam dizer no jornal da noite?

“O instituto X divulgou hoje os resultados da última pesquisa eleitoral”, diz o apresentador de TV. “A probabilidade de que a eleitora tenha escolhido a moeda viciada é de 97%.”

Corta para entrevistas com analistas e políticos, e um dos políticos até diz:

“Ahá! Eu sabia! Isso demonstra claramente que, se a eleitora jogar a moeda para cima 500 vezes, 500 vezes vai obter cara! Precisamos urgentemente tratar dessa questão no Congresso.”

Depois disso, corta para o apresentador de TV:

“Mas o instituto também avisa: talvez nada disso seja verdade, pois há 3% de probabilidade de que a eleitora tenha simplesmente escolhido a moeda comum, e que essa moeda comum caiu com a cara virada para cima cinco vezes seguidas por mero acaso.”

É pouco provável que aconteça algo assim, tão sensabor.

Cristiano e Ferreira, de um lado, e Renata, de outro, pelo menos concordam numa coisa: para quem gosta de estatística, não há lugar melhor no qual trabalhar do que num instituto de pesquisas em ano de eleição. Talvez essa seja a única situação na qual, no fim das contas, terminadas as eleições, o analista consegue acesso ao que toda a população de fato pensava uns momentos antes de clicar suas escolhas na urna eletrônica. Ainda assim, Renata não pode divulgar quantas vezes o Datafolha acertou nos últimos anos, quando comparado com as eleições reais. Seus chefes não permitem que essa informação seja divulgada, pois muito eleitor muda de ideia no dia da eleição. “Apesar do alto índice de acertos”, disse uma vez um dos executivos do Datafolha, “nós rejeitamos essa contabilidade, pois não é correta.” {❏}



{2}/ A famosa margem de erro

Estatísticos usam a expressão “margem de erro” para dizer algo de significado bem especial: se a margem de erro de uma pesquisa é de 3 pontos porcentuais, com nível de confiança de 95%, significa que, se alguém realizar 100 pesquisas como aquela, usando o mesmo método, em 95 das pesquisas os resultados deveriam estar a três pontos porcentuais do valor correto (seja ele qual for) e em 5 das pesquisas os resultados estarão muito longe do valor correto. Isso tudo tem três consequências importantes:

[1] Embora as 95 pesquisas mostrem um valor que está a 3 pontos porcentuais do valor correto, talvez o valor correto não apareça em nenhuma delas.

[2] É bem possível que 5 dessas 100 pesquisas mostrem valores muito distantes do valor correto, só que não existe matemático no mundo que possa dizer qual pesquisa é qual. Em outras palavras: é possível que as notícias no jornal e na TV se refiram a uma dessas 5 pesquisas completamente erradas.

[3] Se a margem de erro de uma pesquisa é de 3 pontos porcentuais, e se na próxima pesquisa, realizada pelo mesmo instituto com o mesmo método, os números variarem muito pouco em relação aos números da pesquisa anterior, então talvez nada tenha mudado. Por exemplo: se a intenção de voto no candidato A ficou em 45% na primeira pesquisa, significa que ficou entre 42% e 48%; se na segunda pesquisa a intenção de voto ficar em 47% (isto é, ficar entre 44% e 50%), talvez nada tenha mudado. Talvez a intenção de voto no candidato A era de 46% na primeira pesquisa e continuou em 46% na segunda. Portanto, essa segunda pesquisa deveria ser divulgada com cuidado, sem alarde, embora provavelmente será divulgada descuidadamente e com muito alarde… {❏}



{3}/ Um curso de estatística em poucas palavras

Jogue três moedas comuns para cima. O leitor não tem como prever como as três cairão no chão, se com a cara (C) ou a coroa (K) virada para cima, mas pode usar duas ideias bem básicas da matemática para estudar esse fenômeno.

● Defina o espaço amostral Ω, isto é, defina o conjunto de todos os resultados possíveis:

Ω = {CCC, CCK, CKC, CKK, KCC, KCK, KKC, KKK}

● Defina a densidade de probabilidade dentro do espaço amostral, isto é, defina como 1 a probabilidade associada ao espaço amostral Ω, e como 1 – pn a probabilidade associada a cada subconjunto n de Ω que você esteja considerando. (Dois lembretes: Ω tem 2n subconjuntos, sendo n o número de elementos de Ω; neste caso, n = 8 e 28 = 256. Além disso, na probabilidade e na estatística, pode chamar cada subconjunto de um espaço amostral de evento.) Por exemplo, o subconjunto {CKK} é um evento do espaço amostral Ω; o subconjunto {CKK, KKK} é outro evento. Fazendo assim, p1 + p2 + … + pn = 1, sempre conforme o perfil dos subconjuntos que esteja analisando. No caso do espaço amostral Ω, se estiver interessado apenas em eventos com um único elemento de Ω (como o evento {KCC} ou o evento {CCK}), a probabilidade de cada evento do espaço amostral é igual a 1/8 (12,5%), pois existem 8 eventos com apenas um elemento de Ω.

Pode parecer incrível, mas os matemáticos construíram toda a probabilidade, e depois dela a estatística, em cima dessas duas ideias fundamentais. Só com este breve exercício o leitor já pode responder várias perguntas sobre Ω:

(a) Qual é a probabilidade de que as moedas saiam com três caras ou três coroas? É 2/8 = 25%.

(b) Qual é a probabilidade de que as moedas caiam de tal modo que pelo menos duas coroas estejam viradas para cima? É 4/8 = 50%.

(c) Qual é a probabilidade de que a moeda do meio saia com a cara virada para cima? É de 4/8 = 50%. {FIM}


Observações:

1. Publiquei essa matéria pela primeira vez na revista Cálculo: Matemática para Todos, edição 16, maio de 2012, pág. 40. A versão que acabou de ler foi revista e reescrita.

2. As entrevistas foram realizadas pelo jornalista Francisco Bicudo.

3. O exemplo da cidade de São Paulo com apenas três bairros foi adaptado de um exemplo publicado pelo jornal Correio Braziliense.