Imagine um pai jogando futebol com seu filho. Nas primeiras jogadas, a bola passa longe, o filho chega atrasado, erra o tempo da bola. Com o tempo, sem saber muito bem como, ele começa a ajustar o movimento do corpo, das pernas, dos pés. Começa a internalizar o tempo das jogadas, a defender todas as bolas, até mesmo a antecipar os movimentos do pai. É o seu corpo que aprende.
Como acontece esse aprendizado? A cada jogada o filho está construindo um novo circuito neuronal, uma função capaz de mapear parâmetros (como peso da bola, velocidade e ângulo do chute) em uma predição (de onde a bola estará e quando) e depois em ações no corpo que correspondam a essa predição.
Assim como qualquer função matemática, esse circuito é definido por um conjunto fechado de mapeamentos e, portanto, limitado a esse. Em outras palavras, ele é limitado às experiencias anteriores do menino. Em situações completamente diferentes (ex: com bolas diferentes, a distâncias diferentes, chutes com força diferente), o circuito do filho pode começar a errar e muito.
Agora suponhamos que o filho cresça e aprenda Física. Imagine que ele aprenda exatamente a equação que descreva sempre o movimento da bola dados esses parâmetros. Se ele entender verdadeiramente o significado das variáveis nessa equação em termos de conceitos no mundo (distância, massa, gravidade, força), não precisará de mais dado algum.
A equação substitui não só os dados que ele experienciou, mas todos aqueles que poderia experienciar, ou seja, ele estaria preparado, pelo menos mentalmente, para jogar futebol em Marte, com bolas de outras massas, jogadas de outras distâncias, etc.
Essa história ilustra dois processos de raciocínio descritos no livro "Pensando Rápido e Devagar", do psicólogo Daniel Kahneman, ganhador do prêmio Nobel de economia. O Sistema 1 (o pensamento rápido) usa uma estratégia aproximada, inexata, intuitiva e baseada em associações. A função neuronal que o menino constrói a partir de experiências, associando parâmetros a ações, é um exemplo desse tipo de estratégia cognitiva.
Em contraste, o Sistema 2 (o pensamento lento) funciona de forma deliberada, através da manipulação consciente de conceitos (ex.: gravidade, distância, velocidade do vento, força do chute) e de regras lógicas de raciocínio. A compreensão e manipulação da equação perfeita pelo menino agora adulto exemplifica o Sistema 2.
Nos melhores casos, os processos produzidos pelo Sistema 2 substituem todos os dados atuais e todos os dados possíveis. Além disso, são processos passíveis de explicação: as ações do adulto conhecedor da equação são sempre explicáveis através dela e em termos dos conceitos envolvidos. O Sistema 2 nos dá, portanto, uma enorme vantagem evolutiva.
Então por que precisamos do Sistema 1? Porque nem sempre dispomos da "equação perfeita" para um problema, nem de tempo para produzi-la. Derivar essa equação é um processo lento, orientado por uma teoria sobre o mundo e avaliado empiricamente: formulamos hipóteses, testamos com dados, refinamos sucessivamente. Em muitas situações, precisamos decidir de imediato e o raciocínio inexato, aproximado, baseado em experiências passadas é o que nos serve melhor.
Essa dança entre Sistema 1 e Sistema 2, bem como qual deles deve prevalecer em cada situação, é coordenada por um processo metacognitivo, ou seja, um processo de pensamento sobre o nosso próprio pensar. São também esses processos que nos permitem agir em situações completamente inéditas: ao encontrarmos algo novo, somos capazes de abstrair daquela situação uma correspondência com teorias gerais de senso comum (ex: sobre a permanência de objetos ou causalidade de eventos).
Peço aos leitores que são motoristas que se lembrem de quando estavam aprendendo a dirigir: eram obrigados a pensar em cada ação, raciocinar sobre cada escolha. Dirigir era lento, cognitivamente custoso e deliberado. Uma vez construído o circuito, o processo se torna automático. Motoristas experientes dirigem de forma pouco consciente e, como consequência, por vezes já chegaram erroneamente ao trabalho num fim de semana, ou à suas antigas casas.
Apesar de frequentemente deliberado, o processo de escolha de qual estratégia cognitiva empregar pode ser também associativo e pouco consciente. No livro "O Erro de Descartes", o neurocientista António Damásio trata exatamente dessa questão. Ele estudou pacientes com lesões em uma área do cérebro que conecta os circuitos de tomada de decisão ao processamento de emoções.
No dualismo cartesiano, mente e corpo eram matérias separadas, e as emoções seriam empecilhos ao raciocínio. Uma mente sem corpo e sem emoções seria, para Descartes, um exemplo de racionalidade pura.
Damásio observa o contrário. Sem a influência das emoções, seus pacientes não conseguiam raciocinar nem tomar decisões: escolhiam uma estratégia, paravam, tentavam outra, paravam, e por aí vai. Para problemas complexos, soluções ideais são custosas demais, afinal existem muitas possibilidades, e computar o melhor resultado pode ser proibitivo. As emoções funcionam então como atalhos decisórios: seletores de caminhos intuitivos, inexatos, compilados no corpo como experiências emocionais.
A capacidade de raciocinar com emoções, de abstrair situações concretas para teorias gerais sobre o mundo, e de aprender com o corpo, tem dimensões que não são aprendidas no nível do indivíduo, mas são predisposições construídas no nível da espécie, ou seja, já nascemos com habilidades para resolver problemas cognitivos extremamente complexos.
Em resumo: raciocinamos de forma inexata e associativa, mas também de forma lógica, conceitual e deliberada, pensamos sobre o pensar, pensamos com o corpo e com as emoções, aprendemos no nível individual e da espécie, e raciocinamos interagindo com todos esses aprendizados em uma dança coordenada que nos permite sobreviver num mundo complexo e imprevisível.
O que tudo isso tem a ver com Inteligência Artificial? Muito mais do que parece.
A história da IA seguiu dois caminhos paralelos, análogos aos nossos Sistemas 1 e 2. A chamada IA Simbólica é análoga ao Sistema 2: raciocinar, para ela, é manipular conceitos e regras lógicas. Com ela produzimos sistemas tão úteis e bem-sucedidos que nem os chamamos de IA. Um exemplo claro são os softwares de navegação como Google Maps ou Waze. No entanto, essa abordagem tem seus limites: existem inúmeros problemas para os quais não sabemos quais regras lógicas operam, e o processo de construção dessas regras é lento, caro e trabalhoso.
Para esses problemas, surgem como alternativa os sistemas de aprendizagem de máquina frequentemente baseados em redes neurais artificiais e análogos ao Sistema 1. Essas redes aprendem uma função a partir de uma montanha de dados e produzem programas necessariamente opacos, cujo código não podemos conhecer e que são incapazes de explicar suas ações. No entanto, para todos os problemas nos quais não conhecemos um conjunto de regras satisfatório, são frequentemente nossa melhor ou única opção.
Presentes na história da computação desde a primeira metade do século passado, esses últimos sistemas só se tornaram viáveis nas últimas duas décadas, devido fortemente à evolução da capacidade computacional disponível e à profusão de dados (ex: gerados pela Web, redes sociais, smartphones e pela proliferação de sensores em todos os tipos de dispositivos, de carros a geladeiras).
De forma completamente acidental, a história da IA inverte a evolução da cognição natural, essa última evoluindo do Sistema 1 para o Sistema 2. Na IA, por um acidente histórico, a aprendizagem de máquina (análogo ao Sistema 1 artificial) ganha terreno prático depois da abordagem simbólica (análogo ao Sistema 2 artificial).
Se olharmos para a sofisticação da cognição humana, não deveria surpreender que apostar em uma estratégia única para automatização da inteligência seja insuficiente. No entanto, é isso que muitos tem feito nos últimos anos colocando todas as suas fichas em uma IA tipo Sistema 1. Apesar disso, a chamada "hipótese da escala" (de que aumentar continuamente dados e capacidade computacional produziria ganhos exponenciais de desempenho) tem sido repetidamente falsificada.
Apesar de investimentos na ordem de trilhões de dólares e do uso de praticamente toda a internet, esses sistemas entraram numa curva de ganhos decrescentes: dobram-se os recursos, mas o ganho de desempenho não dobra; na verdade, por vezes é marginalmente superior e, em alguns casos, passa a ser inferior.
De todo modo, por que renunciaríamos a tudo que já sabemos para que seja reaprendido de forma aproximada e inexplicável? Se já conhecemos todas as capitais brasileiras, inúmeras fórmulas da física bem como as estruturas conceituais que descrevem processos químicos, biológicos e econômicos, por que desejar que esses fossem reaprendidos de forma aproximada por uma rede neural artificial?
Como discutimos anteriormente, quando conhecemos os conceitos, os dados e as regras de uma determinada área da realidade, não existe conhecimento mais sofisticado (sintético, resiliente, explicável) que podemos ter sobre aquilo.
Recentemente, vários sistemas de IA bem-sucedidos começam a combinar estratégias análogas aos Sistemas 1 e 2. Essa estratégia se encaixa no que é chamado de IA Neuro-simbólica – uma terceira via em IA que integra uma computação baseada em dados (aprendizagem de máquinas e redes neurais), de um lado, com uma computação baseada em teorias, conceitos e regras (IA Simbólica), de outro.
Exemplos bem-sucedidos dessa integração incluem os sistemas da Google DeepMind AlphaGeometry e AlphaProof (recentemente usados em olimpíadas internacionais de matemática), bem como o sistema Claude Code (um agente de auxílio a programação da Anthropic). No entanto, essa classe é extensa e engloba estratégias muito diversas. Cito aqui por brevidade apenas dois exemplos:
(1) A Nasa experimenta com o uso de modelos de linguagem (uma rede neural) para transformar documentos de requisitos sobre sistemas aeroespaciais em conjuntos de fórmulas lógicas. Essas são então analisadas por sistemas que constroem e verificam provas matemáticas com precisão absoluta, sem alucinações, e de forma explicável (um sistema simbólico). Vale lembrar que a Nasa usa IA simbólica há décadas e que, apesar de experimentar com alguns usos de LLMs, recomenda forte precaução no seu uso em sistemas críticos;
(2) Em sistemas de navegação, o cálculo da rota mais curta é feito simbolicamente manipulando um modelo de mundo que representa ruas com suas direções e interseções (no estilo Sistema 2), mas o tempo estimado a ser gasto no trânsito em cada rua em uma viagem futura é predito por aprendizagem de máquina (estilo Sistema 1).
Julgo que alguma forma de IA Neuro-simbólica implementando e integrando sistemas análogos aos nossos Sistemas 1 e 2 seja um dos caminhos mais promissores para o futuro da IA. No entanto, embora possivelmente necessário, somente isso não será suficiente para criarmos sistemas artificiais autônomos e confiáveis. Ainda precisamos resolver o problema da representação do senso comum, da abstração e sua função na adaptação a situações inéditas, do raciocínio metacognitivo, e do papel equivalente às emoções em processos de raciocínio artificial. Ainda há muito por fazer!
Por isso, precisamos investir em todas essas direções, ao invés de queimar trilhões de dólares em uma única aposta. E precisamos ter os mecanismos éticos e de segurança prontos antes de continuar avançando, ao invés de realizar experimentos sociais com toda a humanidade usando uma tecnologia inexata, imperfeita, inexplicável e, no limite, incontrolável.
Tenho pensado em tudo isso nas últimas semanas, nas quais fui de Palo Alto (o coração do Vale do Silício) a Montreal, no Canadá, até chegar a Marrakech, no Marrocos, de onde escrevo esta coluna.
Montreal é hoje um dos principais centros de pesquisa em IA no mundo. Foi lá que foi inventada a arquitetura computacional que deu origem a todos os grandes modelos de linguagem (LLMs). Lá fiz uma palestra sobre o tema desta coluna, seguida por um debate com cientistas de diversos laboratórios da cidade.
No fim, perguntei a um deles - conhecido como o fundador da cena de IA da cidade - como Montreal havia se tornado o "Vale do Silício canadense". Ele me respondeu: tudo se resume a uma única pessoa, um imigrante marroquino de origem judaica, emigrado para Montreal quando criança.
Esse imigrante, Yoshua Bengio, inventaria as redes neurais profundas, ganharia o prêmio Turing (o Nobel da computação) e transformaria para sempre a cena de ciência e tecnologia da cidade.
O mundo realmente conecta tudo, mas de forma imprevisível! Por isso, precisamos raciocinar não só com os dados do passado (como em um sistema estritamente baseado em dados), mas também de forma adaptativa e aberta, pensando em como o mundo pode e deve ser (manipulado teorias, regras lógicas e conceitos).
Ao refletirmos sobre a IA e seu impacto em indivíduos e sociedades, precisamos também "pensar devagar", de forma deliberada, considerando valores que vão além da velocidade. Contra o slogan do Vale do Silício "move fast, break things" (mova-se rápido mesmo quebrando coisas), progresso não é produzir tecnologias novas o mais rápido possível, mas construir aquelas alinhadas com nossos valores éticos e que nos melhorem como indivíduos e como sociedade.