Conheça Imagen 2, Segunda geração da IA do Google capaz de criar imagens

Imagen 2 e as Inovações da Segunda Geração da IA do Google

O Google anunciou a segunda geração do Imagen, seu modelo de inteligência artificial capaz de criar e editar imagens a partir de prompts de texto. Batizado de Imagen 2, o aprimorado modelo foi discretamente lançado em versão prévia durante a conferência I/O da gigante da tecnologia em maio.

Desenvolvido com base na tecnologia do Google DeepMind, o principal laboratório de IA do Google, o Imagen 2 representa um avanço significativo em relação à primeira geração. O Google afirma melhorias “significativas” na qualidade de imagem, incluindo novos recursos como a capacidade de renderizar texto e logotipos. No entanto, a empresa adotou uma postura peculiar ao se recusar a compartilhar amostras de imagens antes da manhã desta revelação.

Um aspecto notável do Imagen 2 é a sua disponibilidade para clientes do Google Cloud que utilizam o Vertex AI, sendo necessário um acesso aprovado. Thomas Kurian, CEO do Google Cloud, destaca que o modelo permite a criação de imagens com sobreposição de texto, como, por exemplo, para fins publicitários.

A geração de texto e logotipo coloca o Imagen 2 em sintonia com outros modelos líderes de geração de imagens, como o DALL-E 3 da OpenAI. Uma característica distintiva é a capacidade do Imagen 2 de renderizar texto em diversos idiomas, incluindo chinês, hindi, japonês, coreano, português, inglês e espanhol, com a promessa de mais idiomas em 2024. Além disso, o modelo pode sobrepor logotipos em imagens já existentes, ampliando suas possibilidades criativas.

Vishy Tirumalasetty, chefe de produtos de mídia generativa do Google, revela que o Imagen 2 pode gerar emblemas, letras e logotipos abstratos, além de ter a capacidade de sobrepor esses elementos em produtos, roupas, cartões de visita e outras superfícies. Tais funcionalidades abrem novas perspectivas para designers e profissionais de marketing.

As inovações do Imagen 2 vão além da superfície visual. Graças a novas técnicas de treinamento e modelagem, o modelo pode compreender prompts mais descritivos e longos, fornecendo respostas detalhadas a perguntas sobre os elementos de uma imagem. O Google destaca ainda a melhoria na compreensão multilíngue do Imagen 2, permitindo que o modelo traduza prompts em um idioma para uma saída, como um logotipo, em outro idioma.

Outro ponto digno de nota é a implementação do SynthID, uma abordagem desenvolvida pela DeepMind, para aplicar marcas d’água invisíveis nas imagens geradas. O Google assegura que essas marcas d’água são resistentes a edições de imagens, incluindo compactação, filtros e ajustes de cores. Contudo, a detecção dessas marcas requer uma ferramenta exclusiva do Google, não disponível para terceiros. Diante das crescentes preocupações com a desinformação gerada por IA na web, a utilização do SynthID pode acalmar alguns receios, embora levante questões sobre a acessibilidade dessa tecnologia.

Conheça Imagen 2, Segunda geração da IA do Google capaz de criar imagens

Categorias do Artigo

Nenhum comentário!

Categorias do Artigo

Nenhum comentário!

Denunciar