A fusão entre processamento de linguagem natural e visão computacional
No dia 15 de outubro foram lançados o ChatGPT e o GPT-Vision, cumprindo a promessa de fusão entre processamento de linguagem natural e visão computacional. Esta iniciativa marca um grande progresso no campo da inteligência artificial. Os exemplos seguintes ilustram a diversidade de aplicações possíveis, abrindo assim novas perspectivas de exploração e inovação. Descubra como essas tecnologias estão transformando nossa interação com dados visuais e textuais.
Explorando aplicativos
A sinergia entre ChatGPT e GPT-Vision oferece novos recursos. Aqui estão alguns exemplos cativantes que demonstram a diversidade de aplicações possíveis.
- Modelagem a partir de uma imagem
Uma simples imagem pode ser transformada em um impressionante modelo 3D. Por exemplo, ChatGPT Vision pode gerar Gcode a partir de desenhos técnicos.
- Programa de treinamento de força personalizado de acordo com seu equipamento
ChatGPT Vision pode orientá-lo no desenvolvimento de um programa de treinamento de força personalizado com base no equipamento que você tem disponível.
- Análise e decodificação de documentos borrados
Graças ao GPT-Vision, é possível analisar documentos desfocados e revelar seu conteúdo oculto.
- Convertendo fotos em texto para uma carta complexa
O GPT-Vision pode transformar uma imagem de carta em texto editável, facilitando a escrita de cartas complexas.
- Recuperando objetos complexos em uma imagem
A tecnologia GPT-Vision permite identificar e recuperar objetos complexos presentes em uma imagem.
- Detecção de imagens do Google Street View ou satélites
O GPT-Vision pode detectar com precisão imagens do Google Street View ou de satélites.
- Análise detalhada de um raio-x
O GPT-Vision pode analisar um raio X detalhadamente e fornecer respostas em segundos.
- Análise complexa de imagens
Mergulhe na análise de uma imagem altamente complexa com GPT-Vision.
- Criação de cenários a partir da análise de diversas imagens
O GPT-Vision pode criar um cenário coerente a partir da análise de quatro imagens separadas.
- Análise de um motor de carro
GPT-Vision pode realizar uma análise cuidadosa do motor de um carro e oferecer recomendações para reparos.
- Otimização de código
GPT-Vision pode otimizar código oferecendo melhorias em desempenho, eficiência e concisão.
Limitações notáveis
Apesar dos progressos realizados, persistem certas limitações. Por exemplo, a leitura de QR Codes e o compartilhamento de conversas ainda não são suportados. Você pode não ver esses novos recursos, mas uma simples atualização de página ou logout/login pode resolver o problema. Se o problema persistir, tente limpar o cache relacionado ao openai.com.
Aqui está uma captura de tela mostrando uma interface de usuário desses novos recursos:
Vídeo GPT-Vision
Gostaria de dar crédito ao canal de Emile Dev no YouTube, que inspirou este artigo. Aqui está o vídeo de apresentação: