Ao contrário de serem meros ‘papagaios estocásticos’, os modelos de linguagem avançados parecem ter adquirido habilidades suficientes para entender as palavras que processam
Adaptação para o português: Heitor Augusto Colli Trebien
Texto original: Anil Ananthaswamy, publicado na revista Quantamagazine. Para referência completa, veja a seção referências. O objetivo dessa adaptação foi tentar explicar, de forma mais didática possível, a nova teoria que está surgindo para elucidar como funciona a inteligência artificial generativa.
——————————————————————-
Segundo o redator Anil Ananthaswamy (2024), uma nova teoria de inteligência artificial surgiu para explicar as capacidades e habilidades gerativas das inteligências artificiais.
Tanto os especialistas quanto o público leigo se questionam sobre até que ponto um sistema artificial consegue realmente compreender aquilo que ele fala (output) ou mesmo o que as pessoas lhes dizem (input).
Algumas pessoas acreditam que, de alguma forma, a máquina consegue entender os textos que processam. Já outros acreditam que não e entendem que a máquina age como um “papagaio estocástico”, isto é, repete os textos de treinamento de acordo com o comando adequado.
Geralmente, as visões mais antigas, que são aquelas de 2021 para trás, ou seja, antes do chatGPT, defendiam a visão de que a IA simplesmente reproduzia os dados que tinha, até porque inicialmente a IA funcionava assim mesmo.
Entretanto, com o desenvolvimento da IA generativa, o paradigma mudou. Agora novas teorias estão surgindo para explicar as capacidades que um sistema artificial generativo tem.
Curiosidade
O termo “papagaio estocástico” veio de um artigo de 2021 intitulado: On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? 🦜 (Sobre os perigos dos papagaios estocásticos: os modelos de linguagem podem ser grandes demais? 🦜).
Nesta obra, na época em que foi escrita, defendia que os chatbots geravam textos a partir da combinação de informações que já foram treinadas em sua base de dados, sem usar referência ao “sentido” da frase em seu contexto.
Uma possível mudança de paradigma após as evoluções da IA generativa
Anil Ananthaswamy (2024) cita uma conversa entre Geoff Hinton (Departamento da ciência da computação da Universidade de Toronto) e Andrew Ng (Universidade de Stanford) no qual eles resgatam essa discussão.
Andrew acredita que, em certo nível, parece que os sistemas de IA generativa conseguem compreender o mundo por meio dos significados. Os pesquisadores Sanjeev Arora e Anirudh Goyal seguem o mesmo caminho.
Quanto mais dados de treinamento e quanto mais habilidades desenvolvidas e combinadas melhor será a IA. Ela tem o potencial de ser “criativa”, por poder criar textos que não estavam na base de dados a partir das palavras que já conhece. E o que ela produz pode sim ter sentido. Em alguns casos, claro, a máquina alucina, mas na perspectiva dos autores isso não tira sua capacidade de compreender significado.
Um arcabouço teórico para ajudar a entender o potencial da IA
Para começarem a desenvolver uma teoria, Sanjeev Arora e Anirudh Goyal explicaram como funciona o treinamento de um sistema de IA. Geralmente, a IA é treinada para com uma frase segundo seu padrão mais utilizado. Por exemplo: “Fuel costs an arm and a ___”. Neste caso, a IA completaria com “leg”.
A frase completa – “Fuel costs an arm and a leg” – “O combustível custa um braço e uma perna“ refere-se a uma expressão idiomática (costs an arm and a leg) que indica o preço alto de alguma coisa, neste caso, do combustível. Ou seja, é uma frase comum (padrão) utilizada com frequência pelos usuários da língua inglesa.
Nesse caso, para a IA responder aquilo que é esperado, ela precisa de uma base de dados que repita essa informação em diferentes contextos, assim ela pode calcular qual a probabilidade de determinada palavra preencher aquilo que falta na frase.
Aperfeiçoamento de capacidades
No entanto, para ampliar a capacidade de resposta de um sistema artificial, deve-se treiná-lo para que possa entender alguns conceitos e noções, como o significado da palavra “because” (porque), que possibilita alguma ideia de causalidade.
Outra habilidade importante seria, por exemplo, a de detectar ironia, assim a máquina pode compreender a ambiguidade nos textos. Quanto melhor a IA perceber o padrão de causalidade e de ironia, melhor conseguirá aplicá-los.
Essas capacidades são conhecidas como “nós”, muito parecido com os nódulos cerebrais que permitem realizarmos alguma ação. Assim, os desenvolvedores podem criar diferentes nós (nódulos) temáticos para estimular as capacidades da máquina.
Ampliar perspectivas
Para expandir os horizontes da IA, Arora e Goyal buscaram conectar diferentes “nós” de habilidades do sistema artificial. Existem várias formas de a ironia, por exemplo, aparecer em um texto. Outro aspecto importante é que um único texto pode conter mais de uma habilidade necessária, como dividir, compreender ironia ou extrair causalidade.
Parece que quanto mais dados o sistema possui, maior a possibilidade de resposta ele poderá dar. Isso significa que a predição de palavras nem sempre vai acontecer da forma esperada, pois o sistema investiga as possibilidades disponíveis e responde aquilo que ele considerou estatisticamente a resposta mais adequada.
Entretanto, para uma habilidade ser boa, ela deve ser capaz de identificar corretamente onde está esse “nó”. Por exemplo, se o sistema é treinado para processar ironia, ele deve conseguir identificar corretamente no texto onde as passagens de ironia aparecem. Quanto maior a taxa de acerto, maior a competência.
Desse modo, quanto mais “nós” de habilidades competentes estiverem intercruzadas, melhor será a capacidade da IA criar uma resposta com sentido similar a um ser humano. É assim que os sistemas artificiais ganham suas habilidades inesperadas, por meio da conexão de diferentes nós de habilidades que se cruzam e se correlacionam para expressar uma resposta.
Escalonamento
Para entendermos melhor a potência de uma IA generativa, o autor do texto (Ananthaswamy) explica que se um bot tiver 1000 nós de habilidades e nós quisermos combinar quatro, existe então 1000 elevado à quarta potência, isto é, 1 trilhão de maneiras possíveis de combinações diferentes. É por isso que existe uma variedade tão grande de respostas do chatGPT e outras inteligências artificiais generativas.
Isso indica que a máquina, de algum modo, parece conseguir realizar generalizações do conhecimento, o que indica que as IA’s generativas não agem como papagaios estocásticos. Os pesquisadores (Arora e Goyal) observaram assim indícios de que a máquina consegue ser criativa e que de alguma forma parecem entender os conceitos transmitidos.
Ananthaswamy explica o teste que os pesquisadores fizeram com o chatGPT. Eles solicitaram que o bot escrevesse um parágrafo falando sobre a temática de duelos e lutas de espada. Mas para escrever o parágrafo, o chatGPT deveria demonstrar habilidades em quatro nós (áreas): viés em benefício próprio, metáfora, silogismo estatístico e física do senso comum.
O chat respondeu com o seguinte parágrafo (traduzido):
“Minha vitória nesta dança com aço [metáfora] é tão certa quanto a queda de um objeto ao chão [física]. Como um duelista renomado, sou inerentemente ágil, assim como a maioria dos outros [silogismo estatístico] com minha reputação. Derrota? Só é possível devido a um campo de batalha desigual, não a minha inadequação [viés em benefício próprio]“.
O que os pesquisadores queriam mostrar, segundo Ananthaswamy (2024), é que a máquina conseguiu criar um texto diferente dos outros textos disponíveis em sua base de dados. E o texto parece algo que um ser humano poderia ter feito, justamente por ser treinado com base em textos humanos.
Atualmente, o mesmo vem sendo feito com imagens e vídeos, o que poderá ajudar no melhoramento das imagens e no movimento criados por inteligência artificial. A previsão é que a tecnologia cresça exponencialmente a cada ano, e nós vamos acompanhar e participar dessa transformação.
Referência da imagem da capa
Fonte: imagens geradas por inteligência artificial com prompts do redator. Recurso utilizado: chatGPT e Dall-e.
Referência
Ananthaswamy, Anil. New Theory Suggests Chatbots Can Understand Text. Quantamagazine, 22 jan. 2024. Disponível em: https://www.quantamagazine.org/new-theory-suggests-chatbots-can-understand-text-20240122/. Acesso em: 14 fev. 2024.