Os Feitos Incríveis da Inteligência Artificial em 2020

2020: Um Ano repleto de trabalhos sobre IA

O ano de 2020 foi extremamente difícil para o mundo inteiro. Passamos por uma pandemia que levou a vida de milhões de pessoas. Apesar de tudo, há motivos para sorrir e se sentir animado. Os amantes de tecnologia vão ficar bastantes satisfeitos com os trabalhos que foram feitos no ano passado. Neste artigo separamos uma lista com alguns dos principais trabalhos sobre inteligência artificial feitos em 2020. O que você vai ver a seguir é uma lista organizada com o nome do trabalho e com um resumo do mesmo. Você também vai encontrar um link para mais informações sobre cada trabalho. Prepare-se para descobrir quão avançado a inteligência artificial está indo.

YOLOv4: Velocidade e precisão ideais de detecção de objetos

O algoritmo YOLO foi criado para a detecção de objetos de forma rápida. A primeira versão foi lançada há algum tempo e a mais recente, a versão 4.0 foi lançada em abril de 2020. A versão atual tem o objetivo de detectar objetos de forma super rápida com alta qualidade em termos de precisão. Qualquer pessoa que tenha tirado fotos com um smartphone sabe que o foco automático do aparelho tenta detectar objetos. O princípio é o mesmo, mas aqui estamos falando de máxima velocidade e precisão. Algo muito além do que os aparelhos celulares convencionais podem oferecer.

DeepFaceDrawing: geração profunda de imagens de rosto a partir de esboços

Você acha que tem a capacidade de desenhar o rosto de uma pessoa com perfeição ou algum nível de precisão? Bom, a menos que você tenha tomado algum curso especial de desenho, a resposta provavelmente é não. Já imaginou reproduzir a imagem realística de um rosto humano a partir de um esboço feito por uma pessoa sem muito conhecimento ou habilidade em desenho. É basicamente isso que se trata o DeepFaceDrawing. A partir de esboços simples ou até mal feitos, rostos humanos são criados. As aplicações para esse algoritmo são grandes. A polícia pode usar isso para a criação de retratos falados de suspeitos por exemplo.

Aprendendo a simular ambientes dinâmicos com GameGAN

Você já jogou PacMan? É um clássico arcade que marcou uma geração inteira. O jogo é simples, o usuário/jogador está em um ambiente dinâmico onde suas ações influenciam o ambiente. O ambiente em questão possui regras e nem tudo pode ser mudado de acordo com a vontade do jogador. Agora, para recriar esse jogo seria necessário engenharia de software. Ao menos seria necessário sem GameGan. O algoritmo GameGan é capaz de aprender como um jogo funciona, suas regras e características principais e recriar esse ambiente. Para provar sua eficácia, a equipe por trás do GameGAN recriou o jogo inteiro de PacMan.

PULSE: Amostragem de fotos auto supervisionada por meio de exploração espacial latente de modelos gerativos

Ok, talvez o título tenha te deixado um pouco confuso, então vamos explicar de uma formam mais simples. A qualidade de imagens é motivo de discussão para usuários e desenvolvedores de tecnologia relacionada a captura de imagens. De pessoas comuns até fotógrafos profissionais, as pessoas tendem a procurar formas de obter as melhores imagens possível. Acontece que PULSE está mudando este jogo de forma radical. O algoritmo é capaz de pegar imagens embaçadas e transformar em imagens de alta qualidade. A tecnologia é tão avançada que é capaz de transformar uma imagem de um rosto humano de baixa resolução 16×16 em uma imagem de alta qualidade 1080p!

Tradução não supervisionada de linguagens de programação

Traduzir códigos de uma linguagem de programação para outra tem sido o sonho de muitos programadores. Com o tempo, algumas linguagens de programação vão se tornando obsoletas. Não seria ótimo poder fazer a tradução sem ter que conferir linha por linha manualmente? A promessa dessa IA é entender qualquer sintaxe e transferir para qualquer linguagem de programação. Ainda é cedo para dizer quão preciso é esta IA, mas já vimos ótimos resultados com os últimos teste que foram mostrados para o público.

PIFuHD: Função implícita alinhada em pixels multinível para digitalização humana 3D de alta resolução

Parece complicado? Mas não é nem um pouco. A ideia é simples, com uma simples foto 2D é possível criar um avatar 3D que parece exatamente com a pessoas presente na foto 2D! O desafio aqui é claro, a foto 2D obviamente vai estar mostrando a parte da frente da pessoa, mesmo assim, o algoritmo consegue recriar até a parte de trás do indivíduo com precisão, formando assim um avatar perfeito em 3D.

Troca de face neural de alta resolução para efeitos visuais

Lembra-se da franquia de filmes Velozes e Furiosos? Paul Walker morreu antes de um dos filmes ser completado. Com ajuda de tecnologia de troca de face, foi possível encerrar o filme. O objetivo deste algoritmo é aprimorar esse processo que atualmente é demorado e trabalhos. Pesquisadores, a serviço da Disney, estão trabalhando para aprimorar a técnica e revolucionar a indústria do cinema. Agora, quando atores não estiverem disponíveis ou quando a cena em questão exigir o uso de dublês, será possível concluir as filmagens sem muito trabalho. considerando que a Disney está financiando essa pesquisa, podemos esperar avanços enormes nos próximos anos.

Manipulação profunda de imagem

Mudar a textura de uma imagem pode produzir resultados assustadores. Isto é, a qualidade da imagem pode ser completamente perdida. Bom, com essa tecnologia nova, esse problema desaparece. Trata-se de uma forma de mudar a textura de qualquer imagem mantendo a mesma completamente realística usando treino não supervisionado.

Aprendendo Transformações Conjuntas Espacial-Temporais para Video Inpainting

Se removermos um objeto de um vídeo, será necessário trabalho para preencher o que havia atrás desse objeto, isso para produzir um resultado nada satisfatório. Mas essa IA é capaz de preencher os pixels perdidos por trás de um objeto removido de forma precisa e pouco embaçada.

GPT de imagem – pré-treinamento gerador de pixels

Você já usou os serviços de auto completo do Google ou Gmail? Você está escrevendo uma frase e aparecem sugestões de como completa-la. Bom, essa IA faz a mesma coisa, só que com imagens! Isso mesmo, através de alguns pixels de uma imagem incompleta, é possível obter opções para completar uma imagem.

Aprendendo a desenhar usando representações de desenho animado de caixa branca

Desenhar uma pessoa a partir de uma foto é o que muitos artistas tentam fazer com precisão. Mas agora temos um algoritmo capaz de fazer isso de forma incrível. O funcionamento é simples, basta enviar uma foto ou até vídeo e escolher o estilo do desenho. Isto mesmo, é possível escolher um estilo especifico de desenho. Já existe um website aberto para o público onde a ferramenta pode ser usada por qualquer um.

FreezeG

Esta IA vai fazer você se lembrar do item anterior. A premissa é basicamente a mesma. Você envia uma foto, escolhe o tipo de estilo de desenho e então uma versão cartoon da foto enviada é criada. A diferença com FreezeG é que os estilos são bem mais específicos. Por exemplo, você pode ter sua imagem em estilo Simpsons ou até como cachorros! O que você vai notar com FreezeG é que esta consegue superar seus pares com resultados ainda mais satisfatórios.

Re-renderização neural de humanos a partir de uma única imagem

Este algoritmo é capaz de reposicionar uma pessoa a partir de uma única imagem. Isto é, com uma foto de uma pessoa fazendo uma pose, é possível transformar e fazer a pessoa dessa foto aparecer em diferentes poses ou até diferentes roupas. O que é incrível sobre essa IA é que a reconstrução é feita de forma fácil.

Navegação guiada por idioma

Este campo é bastante complexo, mas também bastante estudado. É fácil para um ser humano entrar na própria casa, ir até a cozinha, pegar um café e então ir até o quarto e pegar as chaves. Mas quando se trata de um agente guiado por IA, as coisas são diferentes. Com a navegação guiada por idioma, o agente, deve navegar em ambientes a partir de comandos dados através da linguagem/idioma do usuário. Para realizar essas tarefas, a IA utiliza deep learning.

Função Plenótica

Através de fotos de turistas, é possível reconstruir pontos de vistas conservando iluminação, sombras e o realismo da paisagem original, ao menos parte dela. Existe um campo chamado fotorrealismo que avança tremendamente com essa IA. Os resultados são surpreendentes.

Restauração de foto antiga com deep learning

Já pensou em ter as fotos de seus antepassados em alta qualidade? Não seria incrível ter uma foto de seus avôs ou até parentes mais antigos com a qualidade das fotos de hoje? Já existem esforços nesse sentido fora do campo da IA, mas esse trabalho abriu novos caminhos a serem explorados. Tudo isso usando o deep learning como abordagem.

Políticas de circuito neural permitindo autonomia auditável

Veículos capazes de conduzir a si mesmos não são novidade. Mas, o que é comum são sistemas semelhantes a um cérebro humano que conta com milhões de neurônios de controle. A novidade aqui é que estudos conduzidos por pesquisadores da IST Austria e pelo MIT conseguiram criar um novo sistema de inteligência artificial baseado no cérebro de animais pequenos. Isso reduz a complexidade do que estava sendo feito convencionalmente.

Síntese de Transformação de Tempo de Vida

Faz parte da natureza humana pensar no futuro. Isso inclui pensar nas nossas versões daqui há alguns anos. Isto, como seremos quando formos mais velhos. Pesquisadores da Adobe Research foram capazes de criar uma nova técnica de síntese de transformação de tempo de vida que permite mostrar a transformação de uma pessoa com o tempo tendo como base apenas uma foto. Os resultados são surpreendentes.

DeOldify

Trata-se de uma técnica para colorir fotos e vídeos em preto e branco. Todo este trabalho vem sendo desenvolvido por apenas uma pessoa, Jason Antic. Tudo é feito com código aberto e atualmente é aceito como o padrão para a colorização de fotos e vídeos.

COOT

De vídeo para texto com transformadores. É tão simples quanto parece. Essa IA gera descrições de texto precisas para cada sequência de um vídeo. Para que a coisa toda funcione, é necessário o vídeo, obviamente, e uma descrição geral sobre o conteúdo do mesmo.

Previsão do tempo com deep learning

Prever o clima com precisão tem sido uma ambição da humanidade há décadas. Já avançamos muito neste sentido, mas não estamos no que pode ser chamado de resultados perfeitos. Os modelos tradicionais de previsão do tempo usam a predição numérica do tempo. Funciona para o curto e longo prazo, mas exigem muitos recursos computacionais. Já temos pesquisadores trabalhando com machine learning para obter os melhores resultados possíveis com previsão do tempo e até então todo o trabalho de pesquisa é animador.

NeRV

A criação de cenas 3D existe há muito tempo. Mas há um porém, o custo computacional é tão alto que os resultados são limitados. Ao menos é assim para os métodos tradicionais de criação de cenas 3D. Este novo método tem a capacidade de criar cenas 3D e escolher a iluminação sem o custo computacional alto. Para a criação da cena 3D é necessário apenas algumas imagens de entrada.

I2L-MeshNet

Seu objetivo era propor uma nova técnica para Pose Humana 3D e Mesh Estimation a partir de uma única imagem RGB. O método atual já supera os métodos anteriores e o melhor de tudo é que o código é aberto.

GPT-3: Modelos de linguagem

Os atuais sistemas de PNL de última geração lutam para generalizar o trabalho em diferentes tarefas. Eles precisam ser ajustados em conjuntos de dados de milhares de exemplos, enquanto que os humanos só precisam ver alguns exemplos para realizar uma nova tarefa de linguagem. Esse era o objetivo por trás do GPT-3, melhorar a característica agnóstica de tarefas dos modelos de linguagem.

Conclusão

Apesar da pandemia (ou também por conta dela), 2020 foi um ano incrível para a inteligência artificial.

Quer começar 2021 entendendo como essa mágica toda acontece? Confira aqui algumas opções!