Entender LLMs

Concluído

Um modelo de linguagem grande (LLM) é um tipo de IA que pode processar e produzir texto em linguagem natural. Ele aprende com uma grande quantidade de dados coletados de fontes como livros, artigos, páginas da Web e imagens para descobrir padrões e regras de linguagem.

Qual o tamanho deles?

Os LLMs são criados usando arquiteturas de rede neural. Eles usam uma entrada, têm várias camadas ocultas que dividem diferentes aspectos da linguagem, e produzem na camada de saída.

As pessoas geralmente relatam como o último modelo fundamental é maior do que o último, mas o que isso significa? Em suma, quanto mais parâmetros um modelo tem, mais dados ele pode processar, aprender e gerar.

Para cada conexão entre dois neurônios da arquitetura de rede neural, há uma função: peso * entrada + viés. Essa rede produz valores numéricos que determinam como o modelo processa a linguagem.

Os LLMs são realmente grandes e crescem rapidamente. Alguns modelos podem calcular milhões de parâmetros em 2018. Mas hoje o GPT-4 pode calcular trilhões de parâmetros.

Diagrama mostrando as diferentes gerações de LLMs associadas ao número de parâmetros de cada modelo.

Onde os modelos fundamentais se encaixam em LLMs?

Um foundation model refere-se a uma instância ou versão específica de uma LLM. Por exemplo, GPT-3, GPT-4 ou Codex.

Os modelos fundamentais são treinados e ajustados em um grande corpo de texto, ou de código, se for uma instância de modelo Codex.

Um modelo fundamental usa dados de treinamento em todos os formatos diferentes e usa uma arquitetura de transformador para criar um modelo geral. Adaptações e especializações podem ser criadas para alcançar determinadas tarefas por meio de prompts ou ajuste fino.

Como um LLM difere do processamento de linguagem natural (NLP) mais tradicional?

Há algumas coisas que separam NLPs tradicionais de LLMs.

NLP tradicional Modelos de linguagem grandes
Um modelo por funcionalidade é necessário. Um único modelo é usado para muitos casos de uso de linguagem natural.
Fornece um conjunto de dados rotulados para treinar o modelo de ML. Usa muitos terabytes de dados não rotulados no modelo de base.
Descreve em linguagem natural o que você deseja que o modelo faça. Altamente otimizado para casos de uso específicos.

O que um LLM não pode fazer?

Por mais importante que seja entender o que um LLM pode fazer, é igualmente importante entender o que ele não pode fazer, para que você escolha a ferramenta certa para o trabalho.

  • Entender o idioma: Um LLM é um mecanismo preditivo que reúne padrões com base em texto pré-existente para produzir mais texto. Ele não entende linguagem ou matemática.

  • Entender os fatos: Um LLM não tem modos separados para recuperação de informações e escrita criativa; ele simplesmente prevê o próximo token mais provável.

  • Entender as boas maneiras, a emoção ou a ética: Um LLM não pode exibir antropomorfismo ou entender a ética. A saída de um modelo fundamental é uma combinação de dados de treinamento e prompts.