Logo E-Commerce Brasil

IA Generativa é muito mais sobre "fluxo" do que "bons prompts"

Por: Eduardo Salvalaggio

CEO da Dishubtive

CEO da Dishubtive e Diretor de Tecnologia Criativa na Vitrio/B&Partners. Criou os primeiros cases comerciais com IA Generativa no Brasil: o primeiro case publicitário, o primeiro curso e o primeiro departamento criativo focado exclusivamente nessa tecnologia. Estrategista de plataformas digitais por Stanford, MIT e Boston University, com 25 anos de experiência em negócios online

A IA Generativa é muito mais sobre fluxo e repertório do que bons prompts e quase sempre a melhor solução não é composta de um passo apenas. Quer a prova? Tá aqui e com minha cara pra não acharem que é mais um daqueles copy & paste dos nossos fantásticos influencers.

Vamos analisar a imagem abaixo para nos guiar no conteúdo:

O desafio é criar um deepfake em qualidade 4k com texturização perfeita para qualquer tipo de saída a partir de apenas uma imagem. Sim, somente uma, por que se eu tivesse umas 15 imagens, poderia criar a partir de um LoRa, mas isso não é a realidade da maioria dos trabalhos 🙂

Do lado esquerdo esquerdo da imagem eu usei o MidJourney, que ainda é o benchmark para geração de imagens, onde usei um prompt bem estruturado e o Character Reference (feature que desenvolve boa consistência de personagens), mas como o pessoal mesmo do MidJourney diz, funciona melhor com personagens originários da própria ferramenta. De toda forma, algumas pessoas reportam bons resultados com personagens reais e eu já consegui também alguma coisa legal.

O problema é que não é consistente e a imagem de exemplo é uma prova disso. A imagem que usei como referência é a pequena do lado direito. Uma explicação é que meu rosto não tem traços marcantes e contraste, então dificulta um melhor resultado. Falando da parte técnica, as texturas são pobres e sintéticas. Contudo, a composição me agradou bastante e serviu como base para o restante do trabalho.

Do lado direito, temos a imagem finalizada. Pra mim, o grande detalhe é o rosto, bem mais condizente com a imagem real (minha Mãe aprovou), com uma rica variedade de texturas e coerente com o tema. A roupa também apresenta um aspecto mais natural, apesar de ter trabalhado menos nela.

Sobre o Fluxo

01. O primeiro passo foi buscar um bom resultado para o deep fake (roop, faceswap, reactor, facefusion,…). Testei todos, mas nesse caso em que queria manter a expressão original, usei o Picsi, uma ferramenta especializada que me tira de vários apertos;

02. O Picsi não fez milagres, ele simplesmente colocou o meu rosto na imagem. Para melhorar a textura, eu usei a ferramenta de upscale do Leonardo.AI (poderia ser Magnific.ai também). Essas ferramentas têm uma boa habilidade para revelar detalhes, mas o controle é pequeno;

03. Na sequência, abri o Fooocus (SD) e comecei o processo de ‘inpainting’, ou seja, a edição dos detalhes que faziam sentido;

04. No Photoshop, por fim, usando filtros e a parte generativa, busquei os detalhes menores e finalizei.

No final, obtive o resultado desejado e um fluxo consistente para uma imagem apenas como referência. Não é rápido, não é exatamente simples, mas acho que deu pra perceber a diferença 🙂

Disclaimer aos fãs de Star Wars: eu já fui alertado que o cenário não é ‘historicamente’ correto, mas aí que tá a beleza da coisa, eu faço o que eu quero 🙂