Thursday, October 17, 2024 - 6:36 pm
HomeWorldApple lança Depth Pro, um modelo de IA para estimativa de profundidade...

Apple lança Depth Pro, um modelo de IA para estimativa de profundidade monocular de código aberto

A Apple lançou vários modelos de inteligência artificial (IA) de código aberto este ano. Em sua maioria, são modelos de linguagem pequena projetados para uma tarefa específica. Somando-se à lista, a gigante da tecnologia com sede em Cupertino lançou um novo modelo de IA chamado Depth Pro. É um modelo de visão que pode gerar mapas de profundidade monoculares de qualquer imagem. Esta tecnologia é útil na geração de texturas 3D, realidade aumentada (AR) e muito mais. Os pesquisadores por trás do projeto afirmam que os mapas de profundidade gerados por IA são melhores do que aqueles gerados com a ajuda de múltiplas câmeras.

Apple lança o modelo Depth Pro AI

A estimativa de profundidade é um processo importante na modelagem 3D, bem como em outras tecnologias, como AR, sistemas de direção autônomos, robótica e muito mais. O olho humano é um sistema de lentes complexo que pode medir com precisão a profundidade dos objetos, mesmo quando os visualiza de uma perspectiva de ponto único. No entanto, as câmeras não são tão boas nisso. Imagens tiradas com uma única câmera fazem com que pareçam bidimensionais, removendo profundidade da equação.

Portanto, para tecnologias nas quais a profundidade de um objeto desempenha um papel importante, são utilizadas múltiplas câmeras. No entanto, modelar objetos como esse pode consumir muito tempo e recursos. Em vez disso, em um artigo de pesquisa intitulado “Depth Pro: Sharp Monocular Depth Metrics in Under a Second”, a Apple destacou como usou um modelo de IA baseado em visão para gerar mapas de profundidade de disparo zero a partir de imagens monoculares de objetos.

Como o modelo Depth Pro AI gera mapas de profundidade
Crédito da foto: maçã

Para desenvolver o modelo de IA, os pesquisadores usaram a arquitetura baseada no Vision Transformer (ViT). A resolução de saída foi escolhida em 384 x 384, mas a resolução de entrada e processamento foi mantida em 1536 x 1536, permitindo ao modelo de IA mais espaço para entender os detalhes.

Na versão pré-impressa do artigo, publicada atualmente na revista online arXiv, os pesquisadores afirmaram que o modelo de IA agora pode gerar com precisão mapas de profundidade de objetos visualmente complexos, como uma gaiola, o corpo e os bigodes de um gato peludo, e mais. Diz-se que o tempo de geração é de um segundo. Os pesos do modelo de IA de código aberto estão atualmente hospedados em uma lista do GitHub. As partes interessadas podem executar o modelo com base na inferência de uma única GPU.

Source

RELATED ARTICLES

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Recent Articles