[ad_1]
O DALL-E 2 da OpenAI surpreendeu aqueles que pensavam que a inteligência artificial nunca (ou pelo menos não rapidamente) começaria a se infiltrar no reino da criatividade. Mas o DALL-E 2 está aqui para tirar empregos dos artistas?
Como funciona o DALL-E2?
DALL-E 2 é tão impressionante que quase parece mágica, mas os detalhes extensos de como ele cria imagens tão incríveis e realistas não são tão difíceis de entender.
Existem dois componentes principais no DALL-E 2. O primeiro é o GPT-3, que é sem dúvida o algoritmo de aprendizado de máquina de linguagem natural mais avançado disponível atualmente. O DALL-E 2 também usa outro modelo OpenAI conhecido como CLIP (Contrastive Language Image Pretraining).
GPT-3 e CLIP permitem que um computador entenda e gere uma linguagem natural sofisticada. Ao treinar a rede neural DALL-E com bilhões de imagens e suas descrições em linguagem natural (principalmente) da Internet, ela aprende as relações entre os conceitos.
De certa forma, DALL-E é o oposto de uma prática comum de aprendizado de máquina, onde você fornece uma imagem e a IA tenta descrever o que vê.
Pense no infame aplicativo “Not a Hotdog” do programa de TV. Vale do Silício. A diferença aqui é que em vez de perguntar à IA se a imagem é um cachorro-quente ou não, ela está descrevendo o cachorro-quente e gerando uma imagem de cachorro-quente completamente original com base em tudo que aprendeu sobre eles.
A segunda parte importante do DALL-E é como ele gera imagens. Ele usa um método conhecido como “broadcasting”. Especificamente, entender a descrição de uma imagem em linguagem humana que foi criada é convertida em uma imagem usando um modelo OpenAI chamado GLIDE. O GLIDE pega uma imagem que consiste em ruído gerado aleatoriamente e, em seguida, remove gradualmente esse ruído até que corresponda à imagem conforme descrito em linguagem natural. É algo que lembra um escultor começando com um bloco de mármore e cortando-o até restar apenas uma estátua.
Para uma descrição muito mais técnica e detalhada do DALL-E 2 nos bastidores, recomendamos o explicador DALL-E 2 no blog de aprendizado profundo do AssemblyAI.
Por que DALL-E 2 é tão prejudicial
O DALL-E 2 está longe de ser o primeiro software de aprendizado de máquina que pode gerar imagens. Houve muitos sistemas anteriores, e o DALL-E 2 se baseia nas lições aprendidas por esses outros projetos. Então, por que esse momento parece um ponto de inflexão disruptivo?
Uma razão importante é que as imagens que DALL-E e DALL-E 2 criam são esteticamente agradáveis. Outros sistemas de imagem de IA geralmente criam imagens que as pessoas descrevem como perturbadoras ou como algo de um sonho. É um pouco como Uncanny Valley, mas para as artes visuais. DALL-E 2 cria imagens que claramente têm um olhar artístico ou algum senso de estética por trás delas.
Portanto, as imagens criadas pelo DALL-E 2 são comparáveis às criadas por artistas ou fotógrafos talentosos que passaram a vida inteira desenvolvendo seu senso estético. Não é difícil imaginar alguém assim olhando para as imagens que o DALL-E 2 pode cuspir em segundos e sentindo que estão prestes a se tornar irrelevantes.
O sistema não só pode criar belas imagens de alta resolução em segundos a partir de prompts de linguagem natural, como também pode ajustar e editar essas imagens ou fornecer várias variações de uma imagem existente, mesmo uma fornecida pelo usuário. Então, isso significa que os artistas devem arrumar seus cavaletes e tablets de desenho e “aprender a codificar”?
DALL-E 2 significa que os artistas vão mudar, não desaparecer
A OpenAI tem sido muito cuidadosa em apenas lançar sua tecnologia para o mundo. Isso é sensato, pois há claramente muito potencial para abuso. No entanto, agora que eles mostraram que isso pode ser feito, não demorará muito para que pesquisadores comerciais ou independentes de IA repliquem o que DALL-E faz e o disponibilizem para todos. Os grandes players no espaço de aprendizado de máquina também têm seus próprios artistas de IA de alto desempenho esperando nos bastidores, como o Google Image.
Como a caixa de Pandora não pode ser fechada, teremos que aceitar que o mundo das artes visuais vai mudar irremediavelmente, mas isso não significa que os artistas sejam coisa do passado.
Uma maneira de ver isso é que uma tecnologia como essa coloca o poder de fazer arte nas mãos de qualquer pessoa. A ênfase agora muda da capacidade técnica de criar imagens para a capacidade de descrever e repetir com precisão sua visão, até que o que você vê na tela corresponda ao que você tinha em mente. Em outras palavras, mais pessoas agora terão a capacidade de se expressar visualmente, assim como mais pessoas agora podem fazer cálculos precisos graças à existência de calculadoras.
Certos tipos de artistas podem não ter mais modelos de negócios viáveis. Se você ganha a vida fazendo comissões por uma taxa, é difícil competir com um programa que pode gerar centenas de imagens por hora com base na descrição de um cliente e pode fazer alterações nessas imagens quase instantaneamente. Em vez disso, você pode usar essas ferramentas para realizar sua própria visão e depois vender essas imagens exclusivas com base em suas sensibilidades.
O cliente sempre tem razão
Também é importante lembrar que essas imagens são criadas para consumo humano. Nós humanos temos nosso próprio conjunto de valores que vão além da conveniência e superioridade técnica. Em um mundo onde a arte gerada é abundante e, portanto, relativamente barata e descartável, sempre haverá um público disposto a apreciar (e comprar) arte feita pelo homem, simplesmente porque pode ser uma relativa raridade.
Em outras palavras, softwares como o DALL-E 2 podem significar o fim para artistas que ganham a vida produzindo obras de arte na linha de montagem, mas é improvável que diminuam as perspectivas de artistas que têm algo a dizer e uma identidade visual única através da qual falar.
[ad_2]