Google a présenté le nouveau Large Language Model « Gemini ». Il est particulièrement performant, disponible en trois niveaux différents et est déjà utilisé dans Google Bard.
Gemini est multimodal. Cela signifie qu’il peut généraliser et comprendre de manière transparente différents types de contenus. Cela comprend le texte, le code, les images et les vidéos ainsi que l’audio.
Sommaire
Trois niveaux d’extension de Gemini
Gemini est si flexible qu’il fonctionne dans différents environnements : du centre de données au smartphone. Il existe trois modèles différents :
- Gemini Ultra : le modèle le plus grand pour les tâches très complexes.
- Gemini Pro : le meilleur modèle de mise à l’échelle pour un large éventail de tâches, selon Google.
- Gemini Nano : modèle efficace pour les tâches directement sur le terminal.
Gemini plus fort que GPT-4 ?
Gemini obtient les meilleures performances dans différents benchmarks et est, selon Google, le premier modèle capable de surpasser les experts humains dans le domaine MMLU (massice multitask language understanding). Pour le tester, 57 sujets ont été combinés dans les domaines des mathématiques, de la physique, de l’histoire, du droit, de la médecine et de l’éthique, afin de tester à la fois les connaissances générales et les capacités de résolution de problèmes.
Gemini est capable de « réfléchir » plus attentivement avant de créer des réponses à des questions difficiles, ce qui, selon Google, entraîne des améliorations significatives par rapport à l’utilisation de la première réponse possible.
Par rapport à GPT-4, Gemini marque des points dans sept des huit disciplines. GPT-4 n’est meilleur que dans le test dit HellaSwag. Il s’agit de raisonner dans le domaine des problèmes quotidiens.
Dans la résolution de problèmes multimodaux avec l’utilisation d’images, de vidéo ou d’audio, Gemini GPT-4 est meilleur dans toutes les disciplines. Cela s’explique aussi par le fait que Gemini est multimodal par nature. D’autres LLM sont entraînés séparément pour différents médias avant de les fusionner. Gemini est entraîné de manière multimodale dès le début. Gemini est ainsi capable de traiter des informations écrites et visuelles complexes.
Gemini peut également comprendre, expliquer et générer du code de haute qualité dans les principaux langages de programmation tels que Python, Java, C++ et Go. Selon Google, Gemini s’est montré convaincant dans différents benchmarks de code, comme par exemple HumanEval et Natural2Code.
Entraîné sur des TPU
Google Gemini 1.0 a été entraîné sur une infrastructure optimisée pour l’IA. Pour cela, les Tensor Processing Units (TPU) développés par Google dans les versions 4 et 5 ont été utilisés. Sur ces ordinateurs, Gemini fonctionne nettement plus rapidement que les modèles précédents, plus petits et moins performants.
Dans ce contexte, Google présente le système TPU le plus puissant, le plus efficace et le plus évolutif à ce jour, Cloud TPU v5p, spécialement conçu pour des modèles d’IA particulièrement performants.
La sécurité de Gemini
Google a également veillé à la sécurité de Gemini et affirme avoir réduit les biais qui pourraient conduire à des résultats erronés. Des classificateurs adaptés doivent permettre d’éliminer les stéréotypes négatifs ou les contenus violents.
Dans quels produits Google Gemini est-il utilisé ?
À partir d’aujourd’hui, Google Bard utilisera la variante Gemini Pro, c’est-à-dire la variante intermédiaire du modèle. Selon Google, il s’agit de la plus grande mise à jour de Bard depuis son lancement.
Gemini devrait également être utilisé sur les smartphones Google Pixel. Le Pixel 8 Pro est le premier smartphone conçu pour utiliser Gemini Nano.
Au cours des prochains mois, Gemini Pro devrait également être utilisé dans la recherche, dans Google Ads, Chrome et Duet AI.
Gemini est déjà utilisé dans Google SGE, où il permet d’obtenir des réponses jusqu’à 40% plus rapides.
Bard Advanced utilisera Gemini Ultra
Gemini Ultra, le modèle le plus performant de la série, devrait également être disponible prochainement. Actuellement, quelques contrôles de sécurité sont encore en cours. Des utilisateurs sélectionnés devraient avoir accès à Gemini Ultra.
L’année prochaine, Bard Advanced sera une version particulièrement performante du chatbot, basée sur Gemini Ultra.
« bat GPT4″… attention à ne pas faire confiance aux communications de l’éditeur pour son propre produit… et à être complet dans ses recherches journalistiques et non simple racoleur… l’explication de l’envers du décor qui a suivi l’annonce devrait être mentionnée pour comprendre le retard conséquent de Gemini et la communication biaisée, pour ne pas dire mensongère, de Google
On « connait » sur quels critères Gemini bat GPT4 mais, sur combien de critères au total ? Combien de critères sont à l’avantage de GPT4 ? C’est facile de ne mettre que là où l’on as l’avantage mais en toute transparence ça serait bien de savoir exactement où Gemini se situe !
Gemini est devant GPT4 sur 18 critères mais peut-être que GPT4 est devant Gemini sur 48 critères qui n’ont pas été mentionnés. Donc au final, on n’en sait pas beaucoup plus.