Un nouvel outil en ligne du Washington Post montre quels sites web sont inclus dans le Dataset C4 de Google. Ce dataset fait partie des données utilisées par le chatbot Bard.
D’où les chatbots comme ChatGPT ou Google Bard tirent-ils les données à partir desquelles ils génèrent leurs réponses ? Il est clair que de très nombreuses données sont nécessaires pour qu’un Large Language Model puisse être construit.
Le C4 Dataset
Google utilise différentes sources pour le modèle de données de Bard. Le Google C4 Dataset en fait partie. Ce terme signifie « Colossal Clean Crawled Corpus ». Les données du C4 Dataset proviennent d’environ 15 millions de sites web.
👉 Un nouvel outil en ligne du Washington Post montre désormais quels sites web sont contenus dans le C4 Dataset et sont donc très probablement utilisés par Google Bard dans ses réponses. Pour ce faire, le Washington Post a collaboré avec des chercheurs de l’Allen Institute for AI et a classé les sites web à l’aide de données de Similarweb, une entreprise spécialisée dans l’analyse de sites web.
L’étude a porté sur le nombre de tokens différents des sites web contenus dans le Google C4 Dataset. Les tokens sont de petites unités de texte utilisées dans le traitement des informations. Il s’agit généralement de mots ou de phrases.
Le site web avec le plus de tokens dans le dataset est patents.google.com. Sur ce site, on trouve des textes de brevets publiés dans le monde entier. La deuxième place est occupée par wikipedia.org, suivi par scribd.com, une bibliothèque en ligne. D’autres sites importants et populaires dans différents domaines, comme les sites d’actualité, sont également bien représentés.
Il est intéressant de noter que des sites plus petits et non anglophones font également partie du corpus de données. Le site d’actualités sur le marketing digital, Webmarketing & Co’m en fait également partie et se classe en position 9,190,071 avec 570 tokens.
Il est également intéressant de savoir quels sites web sont inclus dans le corpus de données car les chatbots comme Bard peuvent utiliser les informations pour générer des réponses sans en indiquer la source. On peut toutefois s’attendre à ce qu’à l’avenir, des références aux sources utilisées soient affichées dans les réponses des chatbots, comme c’est déjà le cas pour Bing Chat.
0 commentaires