Apple publie huit petits modèles de langage d’IA destinés à une utilisation sur appareil

Getty Images

Dans le monde de l’IA, ce que l’on pourrait appeler des « petits modèles de langage » ont récemment gagné en popularité car ils peuvent être exécutés sur un appareil local au lieu de nécessiter des ordinateurs de type centre de données dans le cloud. Mercredi, Apple introduit un ensemble de minuscules modèles de langage d’IA disponibles à la source, appelés OpenELM, suffisamment petits pour être exécutés directement sur un smartphone. Il s’agit pour l’instant principalement de modèles de recherche de validation de principe, mais ils pourraient constituer la base des futures offres d’IA sur appareil d’Apple.

Les nouveaux modèles d’IA d’Apple, collectivement nommés OpenELM pour « Open-source Efficient Language Models », sont actuellement disponibles sur le Visage câlin sous un Licence de code d’exemple Apple. Étant donné que la licence comporte certaines restrictions, elle peut ne pas correspondre au définition communément acceptée de “open source”, mais le code source d’OpenELM est disponible.

Mardi, nous avons couvert Les modèles Phi-3 de Microsoft, qui visent à atteindre quelque chose de similaire : un niveau utile de compréhension du langage et de performances de traitement dans de petits modèles d’IA pouvant s’exécuter localement. Phi-3-mini comporte 3,8 milliards de paramètres, mais certains modèles OpenELM d’Apple sont beaucoup plus petits, allant de 270 millions à 3 milliards de paramètres répartis en huit modèles distincts.

En comparaison, le plus grand modèle jamais sorti en Le lama de Meta 3 La famille comprend 70 milliards de paramètres (avec une version de 400 milliards en cours) et le GPT-3 d’OpenAI de 2020 est livré avec 175 milliards de paramètres. Le nombre de paramètres sert de mesure approximative de la capacité et de la complexité des modèles d’IA, mais des recherches récentes se sont concentrées sur la création de modèles de langage d’IA plus petits aussi performants que les plus grands l’étaient il y a quelques années.

Les huit modèles OpenELM sont disponibles en deux versions : quatre en version « pré-entraînée » (essentiellement une version brute du modèle avec le jeton suivant) et quatre en version optimisée pour les instructions (affinée pour le suivi des instructions, ce qui est plus idéal pour développer des assistants IA et chatbots) :

OpenELM propose une fenêtre contextuelle maximale de 2048 jetons. Les modèles ont été formés sur les ensembles de données accessibles au public Web raffinéune version de PILE une fois les doublons supprimés, un sous-ensemble de Pyjama Rougeet un sous-ensemble de Dolma v1.6, qui, selon Apple, totalise environ 1,8 billion de jetons de données. Les jetons sont des représentations fragmentées de données utilisées par les modèles de langage d’IA à des fins de traitement.

Apple affirme que son approche avec OpenELM inclut une « stratégie de mise à l’échelle par couche » qui allouerait les paramètres plus efficacement à chaque couche, économisant non seulement les ressources de calcul, mais améliorant également les performances du modèle tout en étant formé sur moins de jetons. Selon le communiqué d’Apple papier blanccette stratégie a permis à OpenELM d’obtenir une amélioration de 2,36 % en termes de précision par rapport à celle d’Allen AI. OLMo1B (un autre petit modèle de langage) tout en nécessitant deux fois moins de jetons de pré-formation.

Agrandir / Un tableau comparant OpenELM à d’autres petits modèles de langage d’IA d’une classe similaire, tiré du document de recherche OpenELM d’Apple.

Pomme

Apple a également publié le code pour CoreNet, une bibliothèque utilisée pour entraîner OpenELM, et qui comprenait également des recettes d’entraînement reproductibles qui permettent de répliquer les poids (fichiers de réseau neuronal), ce qui est jusqu’à présent inhabituel pour une grande entreprise technologique. Comme le dit Apple dans son résumé d’article OpenELM, la transparence est un objectif clé pour l’entreprise : « La reproductibilité et la transparence des grands modèles de langage sont cruciales pour faire progresser la recherche ouverte, garantir la fiabilité des résultats et permettre des enquêtes sur les biais des données et des modèles, comme ainsi que les risques potentiels.

En publiant le code source, les poids des modèles et le matériel de formation, Apple affirme vouloir « responsabiliser et enrichir la communauté de recherche ouverte ». Cependant, il prévient également que, puisque les modèles ont été formés sur des ensembles de données de source publique, « il existe la possibilité que ces modèles produisent des résultats inexacts, nuisibles, biaisés ou répréhensibles en réponse aux invites des utilisateurs ».

Bien qu’Apple n’ait pas encore intégré cette nouvelle vague de fonctionnalités de modèle de langage IA dans ses appareils grand public, la prochaine mise à jour iOS 18 (qui devrait être révélé en juin à la WWDC) inclurait de nouvelles fonctionnalités d’IA qui utiliser le traitement sur l’appareil pour garantir la confidentialité des utilisateurs, même si l’entreprise peut potentiellement embaucher Google ou OpenAI pour gérer un traitement d’IA hors appareil plus complexe afin de donner à Siri un coup de pouce attendu depuis longtemps.

Apple publie huit petits modèles de langage d’IA destinés à une utilisation sur appareil

Related

Related News

Le niveau national le plus bas en 2025. Quelle augmentation du salaire minimum. Deux montants sur la table

“Similaire à El Shahat”… opération chirurgicale urgente pour le joueur des Pyramides après la blessure de sa mère

Quel genre de candidat tiers est RFK Jr. ?

Les sénateurs cherchent à limiter la reconnaissance faciale dans les aéroports, invoquant des problèmes de confidentialité

Barry Keoghan a « rendu visite » à son enfant selon GQ et What Else du 7 mai 2024

Panera Bread dit qu’elle supprime un article controversé de ses menus après une vague de décès

Coupe du monde féminine T20 : l’Écosse affrontera l’Angleterre en tournoi

La Russie défend son veto à la résolution de l’ONU interdisant les armes nucléaires dans l’espace et appelle à un vote pour interdire toutes les armes

Le roi Charles III est « très bon » dans le traitement du cancer

Skokie envisage un budget de 175 millions de dollars, mais l’État pourrait l’obliger à payer davantage pour les retraites tout en perdant 1,2 million de dollars en taxes sur l’épicerie – Chicago Tribune

Boeing va lancer pour la première fois des astronautes de la NASA dans l’espace

Kate Beckinsale fait une apparition rare un mois après son hospitalisation

Leave a Reply Cancel reply

Recent News

Le niveau national le plus bas en 2025. Quelle augmentation du salaire minimum. Deux montants sur la table

“Similaire à El Shahat”… opération chirurgicale urgente pour le joueur des Pyramides après la blessure de sa mère

Quel genre de candidat tiers est RFK Jr. ?

Les sénateurs cherchent à limiter la reconnaissance faciale dans les aéroports, invoquant des problèmes de confidentialité

Barry Keoghan a « rendu visite » à son enfant selon GQ et What Else du 7 mai 2024

Panera Bread dit qu’elle supprime un article controversé de ses menus après une vague de décès

Editor's Pick

More Interesting News

Le niveau national le plus bas en 2025. Quelle augmentation du salaire minimum. Deux montants sur la table

“Similaire à El Shahat”… opération chirurgicale urgente pour le joueur des Pyramides après la blessure de sa mère

Apple publie huit petits modèles de langage d’IA destinés à une utilisation sur appareil

Share this:

Related

Related News

Leave a Reply Cancel reply

Recent News

Editor's Pick

Tags

More Interesting News