Mundo Positivo » O que é a IA Gemini?

Gemini é o nome do modelo de fundação desenvolvido pelo Google e construído desde a concepção como uma tecnologia multimodal — com capacidade de compreender, operar e combinar informações em diferentes formatos, incluindo texto, imagem, áudio, vídeo e código de programação.

O modelo de fundação substituiu o PaLM2 no chatbot de IA da companhia, o Bard, com disponibilidade inicial apenas no idioma inglês e está disponível também no Android (inicialmente no Pixel 8 Pro, mas futuramente em todo o ecossistema por meio de uma API).

A proposta da Big Tech é ampliar a utilização do Gemini para outros produtos e serviços, como a Busca, o Chrome, o Duet AI e o Google Ads.

–
CT no Flipboard: você já pode assinar gratuitamente as revistas Canaltech no Flipboard do iOS e Android e acompanhar todas as notícias em seu agregador de notícias favorito.
–

Modelo multimodal

De acordo com o Google, o Gemini é o modelo mais hábil e flexível desenvolvido pela empresa para aplicações de inteligência artificial em múltiplas escalas, desde o processamento em data centers até recursos de IA em celular.

Uma diferença deste modelo em relação aos LLMs concorrentes é o seu treinamento multimodal desde a base. Enquanto outras soluções desenvolveram separadamente o suporte sobre diferentes formatos para depois conectá-los na ferramenta, o modelo do Google já trabalhou essas relações desde o começo.

Gemini teve treinamento multimodal desde a base (Imagem: Divulgação/Google)

Essa característica do Gemini possibilita uma maior compreensão da IA sobre comandos combinados de textos e mídias, além de ampliar a capacidade de responder perguntas complexas. A ferramenta consegue discernir melhor os componentes de uma consulta e analisar grandes volumes de dados — o que permite que longos documentos sejam resumidos ou destrinchados pelo modelo.

Gemini em três tamanhos

Com a proposta de atender demandas de escalas diferentes, o Gemini se apresenta em três tamanhos. São eles:

Gemini Nano

O Nano é a versão mais compacta e com foco em eficiência do modelo para rodar diretamente em tablets e celulares. O Nano tem ainda duas variações: o Nano-1 com capacidade de processar 1,8 bilhão de parâmetros, e o Nano-2 com 3,25 bilhões de parâmetros — diferenciação que permite a aplicação em aparelhos com menos ou mais memória.

O Gemini Nano teve seu lançamento em formato de prévia com uma nova plataforma AICore para o Pixel 8 Pro. O sistema apresenta uma série de recursos de IA, como resumir páginas da web pelo Google Assistente e aplicar soluções inteligentes no Google Fotos. Outros modelos com Android 14 devem receber o Nano no futuro graças a uma API que permitirá a desenvolvedores incluírem recursos da IA em seus apps.

Gemini Pro

A versão intermediária do modelo de linguagem é a que já alimenta o Bard (em inglês) e futuramente deverá ser usada em outros serviços conectados à internet, como o Chrome e Busca do Google. De acordo com a Big Tech de Mountain View, o Gemini Pro é eficiente para a realização de tarefas criativas, produzir texto e resumir conteúdos.

Gemini Ultra

O Gemini Ultra é a versão mais poderosa do pacote, com um conjunto maior de parâmetros e a capacidade de executar tarefas altamente complexas. Segundo o Google, “o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de Grandes Modelos de Linguagem (LLMs).”

No entanto, essa versão do modelo ainda não está disponível em nenhum produto ou meio, e só será lançada em 2024.

Representação visual mostra a quantidade diferente de parâmetros das três versões do Gemini (Imagem: Divulgação/Google)

Como usar o Gemini

O modelo de linguagem de larga escala do Google pode ser testado através do Bard ao acessar o chatbot com configuração em inglês. Para isso, é preciso mudar a preferência de idioma em sua conta Google e atualizar a página da ferramenta.

O Canaltech preparou um tutorial que ensina como usar o Gemini e apresenta exemplos de perguntas que a IA é capaz de responder.

Trending no Canaltech:

Fonte: Canaltech

O que é a IA Gemini?

Publicidade