La réalité vient encore de dépasser la fiction : désormais, l’intelligence artificielle peut non seulement comprendre un texte, mais aussi les images. C’est en tout cas ce qu’a réussi à faire ChatGPT avec GPT-4 Vision. Cette itération améliorée de GPT-4 est capable d’analyser une image sans aucun prompt. Décryptage.
ChatGPT-4 Vision : l’IA capable d’analyser une image
À la fin du mois de septembre 2023, OpenAI avait dévoilé deux améliorations majeures pour ChatGPT. La première concerne sa nouvelle capacité de communication vocale, conférant au chatbot sa propre voix distinctive. La seconde innovation réside dans son aptitude à analyser des images, une caractéristique déjà présente sur Google Bard. Après des mois de spéculations, OpenAI a finalement dévoilé GPT-4, un nouveau modèle d’IA qui peut non seulement comprendre le texte, mais aussi les images.
Après une série de tests rigoureux et la mise en place de solides mesures de sécurité, OpenAI, la société détentrice de ChatGPT, juge que le modèle innovant fusionnant le traitement naturel du langage et la vision par ordinateur est désormais opérationnel. Cette nouvelle fonctionnalité de ChatGPT permet désormais de simplement télécharger une image pour permettre à l’IA de répondre aux questions ou aux demandes liées à cette image.
Sur X (anciennement Twitter), de nombreux internautes n’ont pas hésité à tester la nouvelle intelligence artificielle de ChatGPT. Voici un exemple :
Comment fonctionne ChatGPT-4 Vision ?
Concrètement, GPT-4 Vision offre un vaste éventail de perspectives aux utilisateurs. Il excelle dans la reconnaissance d’une variété d’éléments au sein d’une image, qu’il s’agisse de plantes, d’animaux, de personnages, etc.
Mais le plus impressionnant réside dans sa capacité à générer des descriptions minutieuses de ces éléments, seulement à partir de l’image. Cette nouvelle compétence ouvre la porte à une multitude d’applications passionnantes, allant de l’identification de monuments lors de vos explorations dans une ville inconnue à la traduction de textes écrits en langues anciennes, que vous pourriez trouver dans d’antiques manuscrits ou des bandes dessinées.
Une autre particularité exceptionnelle de GPT-4 Vision réside dans sa faculté de transformer des images en logiciels ou en sites web, dépassant ainsi la simple interprétation de code à des fins de programmation. Cette fonctionnalité en fait une ressource inestimable pour les développeurs web.
Enfin, cette intelligence artificielle est en mesure de décoder des diagrammes et autres graphiques, quelque que soit le format initial. Tu l’auras compris ici, c’est une avancée majeure pour le travail des experts en analyse de données tels que le data analyst et le data scientist.
Lire aussi : Les différentes entre le data scientist et data analyst
Quelles sont ses limites ?
Pour prévenir tout abus ou dérapage, OpenAI a établi des mesures de contrôle pour restreindre les capacités de GPT-4 Vision. Dans cette optique, l’IA est délibérément inapte à identifier des individus. Dans environ 98% des cas, les requêtes en ce sens seront rejetées.
Si toi aussi, tu souhaites tenter d’utiliser l’IA pour analyser une photo d’une personne, sa réponse mettra en avant sa programmation axée sur la confidentialité et la sécurité des utilisateurs. Elle t’expliquera que l’identification de personnes réelles à partir d’images, même s’il s’agit de personnalités célèbres, est limitée dans le but de préserver ces priorités essentielles.
Il en va de même pour les images à caractère pornographique sur lesquelles l’IA se limitera à décrire les éléments non explicites. OpenAI a également fait des efforts pour réduire la tendance de l’IA à générer de fausses informations. Cette précaution revêt une importance particulière étant donné que les recherches indiquent que les gens ont tendance à accorder plus de confiance aux images qu’aux textes.