Publicado recentemente em um artigo de pesquisa intitulado “Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita”*, Atenção infinita é uma nova tecnologia do Google que permite ao mecanismo de busca melhorar seus atuais modelos de inteligência artificial no processamento de grandes quantidades de dados com contextos infinitamente longos.
O que é atenção infinita?
Para compreender plenamente a importância desta nova tecnologia, é importante saber que LLM (LGrandes modelos de linguagem) são limitados na quantidade de dados que podem processar ao mesmo tempo. Com efeito, nos modelos actuais a utilização de memória pode aumentar consideravelmente enquanto a potência de trabalho diminui à medida que o cálculo se torna mais complexo. “A memória é a pedra angular da inteligência”, explicam os investigadores, é portanto imperativo reduzir os custos financeiros.
Por isso, os pesquisadores também enfatizam que:
- “LLMs baseados em transformadores […] têm memória contextual limitada, devido à natureza do mecanismo de atenção…”
- “Escalar LLMs para sequências mais longas (ou seja, 1 milhão de tokens) é um desafio com arquiteturas Transformer padrão, e servir modelos de contexto cada vez mais longos torna-se financeiramente caro.”
- “Os modelos de transformadores de corrente são limitados em sua capacidade de processar sequências longas devido ao aumento quadrático nos custos computacionais e de memória. A atenção infinita visa resolver este problema de escalabilidade.”
Características da Atenção Infinita
O Infinite-Attention do Google está pronto para uso, cabe facilmente em outros modelos LLM, principalmente aqueles usados pelo algoritmo principal do Google. Essas características principais são:
- São sistema de memória compressiva o que permite compactar informações durante uma longa sequência de dados. Quando os dados são introduzidos, os dados mais antigos são reduzidos para otimizar o armazenamento de dados.
- São atenção linear de longo prazo o que permite processar dados que existem anteriormente na longa sequência de dados durante tarefas onde existe contexto em um grande plano de dados. Do ponto de vista do usuário, é como discutir um livro no contexto de todos os capítulos e ao mesmo tempo ser capaz de explicar o plano geral e as conexões entre os capítulos.
- São atenção mascarada local que processa partes próximas (localizadas) dos dados de entrada. Essa atenção é muito útil para respostas que dependem das partes mais próximas dos dados.
Resultado dos testes
Os pesquisadores explicam que o problema dos Transformers pode ser resolvido combinando os recursos de Atenção Infinita (compressão, atenção local e de longo prazo) em um único bloco Transformer. Eles chamam esse mecanismo de atenção de "mecanismo de atenção baunilha”. Como eles apontam, “Infinite-Attention incorpora memória compressiva no mecanismo de atenção vanilla e integra atenção local mascarada e mecanismos de atenção linear de longo prazo em um único bloco Transformer”.
Três testes foram realizados pelos pesquisadores:
- Modelagem linguística em contexto longo com sua pontuação de perplexidade: Os pesquisadores relatam que, com o aumento da sequência de treinamento, a pontuação de perplexidade dos modelos com atenção infinita cai, o que é o primeiro indicador de que eles têm desempenho melhor do que os modelos de linha de base.
- A chave mestra: Seguem os resultados do teste padrão, ou seja, a capacidade de encontrar texto oculto no início, meio ou final de uma longa sequência, o que confirma a qualidade dos modelos com atenção Infini.
- O resumo do livro: A excelência dos modelos com Infini-Attention é confirmada pelos resultados dos testes resumidos do livro que superam os principais benchmarks para alcançar novos níveis de desempenho SOTA**.
“Nosso modelo supera os melhores resultados anteriores e alcança um novo SOTA no BookSum, processando todo o texto do livro. […] Há uma tendência clara que mostra que com mais texto fornecido como entrada de livros, nossos Infinite-Transformers melhoram sua métrica de desempenho resumida.”
Atenção Infinita é um avanço na modelagem da atenção de longo e curto prazo. O “pré-treino contínuo plug-and-play” et “adaptação ao longo contexto por design”, significa que pode ser facilmente integrado aos modelos existentes.
Impactos para SEO e UX
Tendo entendido tudo isso, é totalmente legítimo questionar os impactos para SEO e UX. Aqui estão as primeiras ideias:
- Atenção infinita pode ser integrada ao algoritmo central do Google com bastante facilidade. Podemos vê-lo implementado rapidamente.
- Esta tecnologia poderia permitir que o motortreine sua IA conforme novos conteúdos são descobertos na web e entenda a importância de cada novo conteúdo seja no início, no meio ou no final da longa sequência (sobre um assunto específico, por exemplo). Portanto, não é surpreendente que os pesquisadores falem “entradas infinitamente longas”.
- É importante para o motor do ponto de vista COMER***, já que o motor quer “não deixe nenhum contexto para trás”, ou seja, julgar melhor a experiência e expertise de um autor em um assunto específico com base em todas as informações que ele possui sobre um assunto.
- Do ponto de vista da experiência do usuário, A atenção infinita permitirá que o motor se adapte melhor às necessidades de seus usuários e, portanto, mantê-los em seu site pelo maior tempo possível. Na verdade, não havia necessidade de ler todos os livros sobre um assunto se a IA pudesse responder a todas as nossas questões, incluindo as mais avançadas, num contexto longo e complexo.
Em resumo
O futuro do SEO reside na criação de conteúdos relevantes para a experiência do utilizador, integrando conhecimentos, mas sobretudo experiência e capacidade de adaptação aos desenvolvimentos da IA.
Referências:
* Não deixe nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita (Não deixando nenhum contexto para trás: transformadores de contexto infinito eficientes com atenção infinita)
** Uma rede DNN (Redes Neurais Profundas) pode obter o rótulo SOTA (estado da arte) com base em sua precisão, velocidade ou qualquer outra métrica relevante. Redes Neurais Profundas (DNN) (SOTA) de última geração são os melhores modelos que você pode usar para uma tarefa específica.
*** EEAT (Experiência, Conhecimento, Autoridade e Confiabilidade) faz parte das “Diretrizes do avaliador de qualidade de pesquisa do Google”.
Rossitza Mavreau, gerente líder de tráfego SEO SEA Analytics na UX-Republic