La fusión entre el procesamiento del lenguaje natural y la visión por computadora
El 15 de octubre se lanzaron ChatGPT y GPT-Vision, cumpliendo la promesa de una fusión entre el procesamiento del lenguaje natural y la visión por computadora. Esta iniciativa marca un gran avance en el campo de la inteligencia artificial. Los siguientes ejemplos ilustran la diversidad de posibles aplicaciones, abriendo así nuevas perspectivas para la exploración y la innovación. Descubra cómo estas tecnologías están transformando nuestra interacción con datos visuales y textuales.
Explorando aplicaciones
La sinergia entre ChatGPT y GPT-Vision ofrece nuevas funciones. A continuación se muestran algunos ejemplos cautivadores que demuestran la diversidad de posibles aplicaciones.
- Modelado a partir de una imagen
Una simple imagen se puede transformar en un impresionante modelo 3D. Por ejemplo, ChatGPT Vision puede generar Gcode a partir de dibujos técnicos.
- Programa de entrenamiento de fuerza personalizado según tu equipamiento
ChatGPT Vision puede guiarlo en el desarrollo de un programa de entrenamiento de fuerza personalizado basado en el equipo que tiene disponible.
- Análisis y decodificación de documentos borrosos.
Gracias a GPT-Vision es posible analizar documentos borrosos y revelar su contenido oculto.
- Convertir fotos en texto para una letra compleja
GPT-Vision puede convertir la imagen de una letra en texto editable, lo que facilita la escritura de letras complejas.
- Recuperar objetos complejos en una imagen
La tecnología GPT-Vision permite identificar y recuperar objetos complejos presentes en una imagen.
- Detección de imágenes de Google Street View o satélites
GPT-Vision puede detectar con precisión imágenes de Google Street View o satélites.
- Análisis detallado de una radiografía.
GPT-Vision puede analizar una radiografía en detalle y proporcionar respuestas en segundos.
- Análisis de imágenes complejas
Sumérgete en el análisis de una imagen altamente compleja con GPT-Vision.
- Creación de escenarios a partir del análisis de varias imágenes.
GPT-Vision puede crear un escenario coherente a partir del análisis de cuatro imágenes separadas.
- Análisis del motor de un coche.
GPT-Vision puede realizar un análisis cuidadoso del motor de un automóvil y ofrecer recomendaciones para reparaciones.
- Optimización de código
GPT-Vision puede optimizar el código ofreciendo mejoras en el rendimiento, la eficiencia y la concisión.
Limitaciones notables
A pesar de los avances logrados, persisten ciertas limitaciones. Por ejemplo, aún no se admite la lectura de códigos QR ni el intercambio de conversaciones. Es posible que no vea estas nuevas funciones, pero una simple actualización de la página o cerrar sesión/iniciar sesión puede resolver el problema. Si el problema persiste, intente borrar el caché relacionado con openai.com.
Aquí hay una captura de pantalla que muestra una interfaz de usuario de estas nuevas funciones:
Vídeo de GPT-Vision
Me gustaría darle crédito al canal de YouTube de Emile Dev, que inspiró este artículo. Aquí tenéis el vídeo de presentación: