Apple lança Depth Pro, um modelo de IA para estimativa de profundidade monocular de código aberto

October 7, 2024

11

A Apple lançou vários modelos de inteligência artificial (IA) de código aberto este ano. Em sua maioria, são modelos de linguagem pequena projetados para uma tarefa específica. Somando-se à lista, a gigante da tecnologia com sede em Cupertino lançou um novo modelo de IA chamado Depth Pro. É um modelo de visão que pode gerar mapas de profundidade monoculares de qualquer imagem. Esta tecnologia é útil na geração de texturas 3D, realidade aumentada (AR) e muito mais. Os pesquisadores por trás do projeto afirmam que os mapas de profundidade gerados por IA são melhores do que aqueles gerados com a ajuda de múltiplas câmeras.

Apple lança o modelo Depth Pro AI

A estimativa de profundidade é um processo importante na modelagem 3D, bem como em outras tecnologias, como AR, sistemas de direção autônomos, robótica e muito mais. O olho humano é um sistema de lentes complexo que pode medir com precisão a profundidade dos objetos, mesmo quando os visualiza de uma perspectiva de ponto único. No entanto, as câmeras não são tão boas nisso. Imagens tiradas com uma única câmera fazem com que pareçam bidimensionais, removendo profundidade da equação.

Portanto, para tecnologias nas quais a profundidade de um objeto desempenha um papel importante, são utilizadas múltiplas câmeras. No entanto, modelar objetos como esse pode consumir muito tempo e recursos. Em vez disso, em um artigo de pesquisa intitulado “Depth Pro: Sharp Monocular Depth Metrics in Under a Second”, a Apple destacou como usou um modelo de IA baseado em visão para gerar mapas de profundidade de disparo zero a partir de imagens monoculares de objetos.

Como o modelo Depth Pro AI gera mapas de profundidade
Crédito da foto: maçã

Para desenvolver o modelo de IA, os pesquisadores usaram a arquitetura baseada no Vision Transformer (ViT). A resolução de saída foi escolhida em 384 x 384, mas a resolução de entrada e processamento foi mantida em 1536 x 1536, permitindo ao modelo de IA mais espaço para entender os detalhes.

Na versão pré-impressa do artigo, publicada atualmente na revista online arXiv, os pesquisadores afirmaram que o modelo de IA agora pode gerar com precisão mapas de profundidade de objetos visualmente complexos, como uma gaiola, o corpo e os bigodes de um gato peludo, e mais. Diz-se que o tempo de geração é de um segundo. Os pesos do modelo de IA de código aberto estão atualmente hospedados em uma lista do GitHub. As partes interessadas podem executar o modelo com base na inferência de uma única GPU.

Source

Apple lança Depth Pro, um modelo de IA para estimativa de profundidade monocular de código aberto

Apple lança o modelo Depth Pro AI

África relata 1.100 mortes por Mpox e alerta que surto está “fora de controle”

‘Não vou para casa’: é improvável que Shakib Al Hasan viaje para Bangladesh para seu teste final

O Congresso concordou em disputar 2 cadeiras na UP? Reivindicação do Partido Samajwadi contestada

LEAVE A REPLY Cancel reply

Recent Articles

Quem foi Yahya Sinwar, o mentor do ataque do Hamas em 7 de outubro a Israel, um mestre em escapar da captura e moldar…

África relata 1.100 mortes por Mpox e alerta que surto está “fora de controle”

‘Não vou para casa’: é improvável que Shakib Al Hasan viaje para Bangladesh para seu teste final

Ingressos vendidos por 15 crores, ganhos de 4.000 crores, este é o filme de maior bilheteria da história da Índia, não Baahubali 2, RRR,...