D’énormes modèles d’IA peuvent être réduits sans dégrader les performances
Il est possible de réduire de plus de moitié la taille des modèles linguistiques d’intelligence artificielle de grande taille, comme ceux utilisés pour le célèbre chatbot ChatGPT, sans perdre beaucoup de précision. Cela pourrait permettre d’économiser de grandes quantités d’énergie, et de faire fonctionner ces modèles à domicile, plutôt que dans d’énormes centres de données.
Réduire le nombre de paramètres
De nombreuses avancées récentes en matière de modèles d’intelligence artificielle ont été obtenues en augmentant le nombre de paramètres, c’est-à-dire les valeurs que chaque modèle accorde pour produire des résultats. Le modèle GPT-3 d’OpenAI, dont une version alimente ChatGPT, compte 175 milliards de paramètres.
Ces paramètres adoptent certaines valeurs correspondant aux données utilisées pour former ce modèle, et un grand nombre de paramètres augmente la puissance informatique et l’énergie nécessaires à ce modèle. Maintenant, Dan Alistarh et Elias Frantar, de l’Institut des sciences et des technologies d’Autriche, ont mis au point une méthode qui supprime 60 % de ces paramètres avec une baisse minimale de la précision.
« Je ne pense pas que vous ayez besoin de 175 milliards de paramètres pour quoi que ce soit, cela semble énorme », déclare Alistarh. « J’espère que nous pourrons réduire un peu le nombre de paramètres ».
Une nouvelle méthode qui utilise un algorithme
Cette méthode utilise un algorithme qui transmet une petite quantité de données au modèle pour obtenir un échantillon de sortie, puis désactive les paramètres du réseau neuronal qui ne semblent pas affecter de manière significative le résultat de la sortie. Toutefois, cela introduit une erreur dans le système global, de sorte que l’algorithme modifie également les paramètres restants pour mieux s’adapter à la sortie.
L’élagage des grands modèles d’IA de cette manière n’entraîne qu’une perte minimale de précision, explique M. Alistarh, et ils peuvent fonctionner aussi bien que des modèles comportant beaucoup moins de paramètres. Les deux chercheurs l’ont évalué en notant la « perplexité », une mesure de la correspondance entre les résultats et les prédictions de ce qu’ils seront.
L’élagage permet de démocratiser l’accès à ces modèles d’IA
Selon Verena Rieser, de l’université Heriot-Watt d’Édimbourg (Royaume-Uni), l’un des inconvénients des modèles comportant un grand nombre de paramètres, est qu’ils ne peuvent être utilisés que par des personnes disposant d’une puissance de calcul suffisante pour les former ou les exécuter elles-mêmes, comme les institutions universitaires. Si ces résultats d’élagage peuvent être reproduits de manière générale, ils pourraient démocratiser l’accès, dit-elle.
Cette recherche a été publiée dans arXiv.
Source : New Scientist
Crédit photo : Depositphotos