La fusion entre le traitement du langage naturel et la vision par ordinateur
Le 15 octobre, ChatGPT et GPT-Vision ont été lancés, réalisant ainsi la promesse d’une fusion entre le traitement du langage naturel et la vision par ordinateur. Cette initiative marque un progrès majeur dans le domaine de l’intelligence artificielle. Les exemples suivants illustrent la diversité des applications possibles, ouvrant ainsi de nouvelles perspectives d’exploration et d’innovation. Découvrez comment ces technologies transforment notre interaction avec les données visuelles et textuelles.
Exploration des Applications
La synergie entre ChatGPT et GPT-Vision offre de nouvelles fonctionnalités. Voici quelques exemples captivants qui démontrent la diversité des applications possibles.
- Modélisation à partir d’une image
Une simple image peut être transformée en une modélisation 3D impressionnante. Par exemple, ChatGPT Vision peut générer du Gcode à partir de dessins techniques.
- Programme de musculation personnalisé selon votre équipement
ChatGPT Vision peut vous guider dans l’élaboration d’un programme de musculation personnalisé en fonction de l’équipement dont vous disposez.
- Analyse et décodage de documents floutés
Grâce à GPT-Vision, il est possible d’analyser des documents floutés et d’en révéler le contenu caché.
- Conversion de photos en texte pour une lettre complexe
GPT-Vision peut transformer une image de lettre en un texte éditable, facilitant ainsi la rédaction de lettres complexes.
- Récupération d’objets complexes dans une image
La technologie de GPT-Vision permet d’identifier et de récupérer des objets complexes présents dans une image.
- Détection d’images issues de Google Street View ou de satellites
GPT-Vision peut détecter précisément les images provenant de Google Street View ou de satellites.
- Analyse détaillée d’une radiographie
GPT-Vision peut analyser en détail une radiographie et fournir des réponses en quelques secondes.
- Analyse d’images complexes
Plongez dans l’analyse d’une image hautement complexe avec GPT-Vision.
- Création de scénarios à partir de l’analyse de plusieurs images
GPT-Vision peut créer un scénario cohérent à partir de l’analyse de quatre images distinctes.
- Analyse d’un moteur de voiture
GPT-Vision peut effectuer une analyse minutieuse d’un moteur de voiture et proposer des recommandations pour les réparations.
- Optimisation de code
GPT-Vision peut optimiser du code en proposant des améliorations de performance, d’efficacité et de concision.
Limitations Notables
Malgré les avancées réalisées, certaines limitations persistent. Par exemple, la lecture des QR Codes et le partage des conversations ne sont pas encore pris en charge. Il est possible que vous ne voyiez pas ces nouvelles fonctionnalités, mais un simple rafraîchissement de la page ou une déconnexion/reconnexion peuvent résoudre le problème. Si le problème persiste, essayez de vider le cache lié à openai.com.
Voici une capture d’écran montrant une interface utilisateur de ces nouvelles fonctionnalités :

Vidéo GPT-Vision
Je tiens à créditer la chaîne YouTube d’Emile Dev, qui a inspiré cet article. Voici la vidéo de présentation :
