Le PDG de Hugging Face déclare qu’il se concentre sur la construction d’un « modèle durable » pour la startup d’IA open source de 4,5 milliards de dollars

Le PDG de Hugging Face déclare qu'il se concentre sur la construction d'un « modèle durable » pour la startup d'IA open source de 4,5 milliards de dollars
  • Clément Delangue dirige Hugging Face, une société d’IA open source soutenue par Amazon et Nvidia.
  • Son objectif est de rendre l’IA accessible à tous, au lieu de la laisser être contrôlée par une seule entreprise technologique.
  • Dans cette séance de questions-réponses, Delangue discute de l’open source par rapport à OpenAI, de l’éthique des données de formation et de l’avenir de l’IA.

Le cofondateur et PDG de Hugging Face, Clément Delangue, souhaite rendre l’intelligence artificielle accessible à toutes les entreprises.

Il s’agit d’une plate-forme open source sur laquelle les scientifiques, les chercheurs et les ingénieurs créent, entraînent et déploient des modèles d’IA. Avec son entreprise, Delangue souhaite suivre les traces d’entreprises telles que Red Hat en faisant de l’IA open source une entreprise rentable.

« Si nous ne soutenons pas l’ouverture, la science ouverte et l’IA open source, seules quelques entreprises pourront le faire », a déclaré Delangue à Trading Insider.

Le produit de Hugging Face est pour la plupart gratuit, bien qu’il existe une version premium payante principalement utilisée par les grandes entreprises. Les investisseurs incluent Amazon, Google, Nvidia, IBM et Salesforce. En août, elle a annoncé avoir levé 235 millions de dollars pour une valorisation de 4,5 milliards de dollars.

Le récent chaos chez le créateur de ChatGPT, OpenAI – au cours duquel son PDG, Sam Altman, a été licencié et réembauché après que tous ses employés ont annoncé leur démission – a poussé certains partenaires à commencer à chercher un « plan B » pour leurs besoins en matière de modèle d’IA, BI a récemment signalé. Cet épisode a rendu les modèles open source plus attrayants car ils ne s’appuient pas sur une seule entreprise qui pourrait soudainement perdre tous ses employés.

La volatilité autour de l’éviction d’Altman est une opportunité pour la communauté open source, a déclaré à BI Giada Pistilli, éthicienne principale de Hugging Face.

« Nous ne devrions pas confier l’avenir de l’IA en général entre les mains d’une petite entreprise. Même si l’AGI était techniquement réalisable un jour, il serait préférable qu’elle soit distribuée », a déclaré Pistilli, faisant référence à l’intelligence artificielle générale. ou la capacité de l’IA à atteindre des capacités humaines complexes telles que le bon sens et la conscience.

Les questions et réponses suivantes datent de septembre, lorsque Delangue s’est entretenu avec BI pour sa liste « AI 100 ».

Cette interview a été éditée pour des raisons de longueur et de clarté.

Aidez-nous à comprendre qui sont vos clients et quelles entreprises peuvent avoir un grand nombre de projets hébergés sur Hugging Face.

Nous sommes fondamentalement la plateforme ouverte la plus utilisée par les constructeurs d’IA. Nous avons plus de 2 millions de créateurs d’IA qui nous utilisent pour créer des fonctionnalités, des flux de travail ou des produits d’IA. Par exemple, nous avons des milliers d’utilisateurs de Google, de Microsoft, d’Amazon, jusqu’aux petites entreprises, aux petites startups, qui construisent avec l’IA. Nous avons plus de 20 000 organisations qui nous utilisent, nous participons donc beaucoup à cette démocratisation de l’intelligence artificielle.

Selon vous, pourquoi vos clients utilisent-ils le plus les modèles d’IA de Hugging Face ?

C’est très large. En raison de leur utilisation, plus d’un million de modèles, d’ensembles de données et d’applications ont été partagés sur la plate-forme. Il s’agit d’une gamme de domaines et de cas d’utilisation, notamment les chatbots, la synthèse automatique, l’analyse ou la génération d’images, la génération audio, la génération vidéo, la biologie et la chimie. L’IA est donc en train de devenir la nouvelle norme par défaut pour créer toutes les technologies. Nous le constatons vraiment sur la plate-forme, dans le sens où chaque produit technologique commence aujourd’hui à inclure une forme d’IA.

Y a-t-il des types particuliers de projets pour lesquels vous avez constaté une forte augmentation de leur adoption récente ?

C’est une bonne question. Nous sommes très enthousiasmés par ce qu’on appelle le « multimodal ». Ainsi, par exemple, un modèle récemment publié appelé IDEF1X prend une image et analyse cette image, et vous pouvez poser des questions et avoir des conversations à propos de cette image. C’est donc passionnant de voir cette nouvelle capacité. Nous commençons à voir de plus en plus d’applications en biologie et en chimie qui nous enthousiasment.

Pensez-vous que les chatbots open source dépasseront un jour ChatGPT ?

Je pense qu’ils répondent à des besoins différents, n’est-ce pas ? Je pense que l’open source est idéal lorsque les entreprises veulent plus de contrôle, lorsqu’elles veulent plus de confidentialité, lorsqu’elles veulent optimiser les choses pour leurs propres cas d’utilisation, lorsqu’elles souhaitent spécialiser et personnaliser les chatbots, par exemple pour le support client, n’est-ce pas ? Vous n’avez pas besoin de quelque chose comme ChatGPT qui vous indiquera le sens de la vie lorsque vous utilisez, par exemple, un chatbot bancaire ou un chatbot de réussite client. Ils répondent donc à des besoins différents, mais c’est bien d’en avoir à la fois pour les entreprises et pour le terrain en général.

Nous savons que vous avez obtenu un financement de Google, d’Amazon et de Nvidia. Comment essayez-vous de construire un modèle économique durable ? Et comment gérer les coûts informatiques ?

Nous avons un modèle d’entreprise intéressant, un peu comme un modèle freemium, dans lequel la majeure partie de la plateforme est open source et gratuite, puis une partie de la plateforme est payante et premium, en particulier pour les grandes entreprises ou l’utilisation de la plateforme en mode privé. Ainsi, les revenus premium des entreprises financent l’utilisation gratuite de l’open source, en particulier en matière de calcul. Nous avons donc un modèle très durable économiquement. Historiquement, nous n’avons pas eu à lever autant d’argent que certaines autres startups de l’IA. Certains d’entre eux ont collecté environ 1 milliard de dollars, voire plus. Heureusement pour nous, nous nous sommes concentrés sur un modèle plus durable.

Diriez-vous que Hugging Face est « pauvre en GPU ? » Combien de GPU possède-t-il ? Est-ce vraiment important, et pourquoi ?

Non, je veux dire, cette différenciation est un peu simpliste, je dirais, car à quoi ça sert d’avoir beaucoup de GPU si vous n’en faites pas grand-chose ? Il ne s’agit donc pas tant du nombre de GPU dont vous disposez que de la qualité des modèles scientifiques que vous créez et de leur impact positif sur le domaine. C’est donc en quelque sorte la chose la plus importante. Nous avons eu la chance d’avoir formé certains des modèles les plus percutants, par exemple StarCoder, qui est le meilleur modèle de codage open source, quelque chose comme IDEF1X que j’ai mentionné précédemment, qui est le meilleur modèle multimodal en libre accès.

Nous avons également formé de grands modèles de langage dans le passé, c’est donc ce qui compte le plus. Nous avons autant de GPU que nous en avons besoin et que nous souhaitons en utiliser, mais il est important pour nous de nous assurer que nous utilisons ces GPU pour avoir un bon impact sur le terrain et pour la communauté.

Les entreprises d’IA devraient-elles payer pour les données de formation ?

Il s’agit d’une question très complexe qui est en train d’être résolue actuellement. Nous sommes en quelque sorte dans un nouveau monde, et les règles précédentes sont un peu floues dans ce nouveau monde. C’est donc une bonne chose que nous posions la question maintenant et que nous essayions de trouver la bonne façon de procéder. Nous avons introduit ce concept d’opt-out et d’opt-in pour les ensembles de données. Cela a donc été une expérience intéressante, une initiative intéressante pour nous sur ce sujet spécifique. Il y a encore beaucoup à faire là-bas, et je suis enthousiasmé par ce qui va être fait à l’avenir sur ce sujet.

Penses-tu Exploration commune et d’autres qui exploitent Internet et utilisent toutes ces données pour la formation de modèles d’IA est-ce une utilisation éthique et équitable ? Selon vous, qu’arrivera-t-il au Web si cela continue ?

C’est une question très complexe à laquelle il n’y a pas de réponse simple. Ce qui est éthique ou non dépend beaucoup du cas d’utilisation, des valeurs que vous prenez en compte. Nous avons besoin de plus de transparence car je pense que le point de départ de toutes ces conversations devrait être : « Savons-nous sur quels modèles ont été formés ? Les ensembles de données qui ont été utilisés sont-ils publics ou non ? A-t-il été divulgué sur quoi ces modèles ont été formés ? allumé ou pas ? »

Nous avons poussé un concept appelé cartes modèles et fiches de données, qui est en quelque sorte cette idée de documenter les ensembles de données et les sources de données des modèles afin que nous puissions en tenir compte et ensuite prendre les mesures appropriées. C’est en quelque sorte l’objectif principal que nous insistons sur le sujet : créer plus de transparence afin que nous puissions trouver le bon équilibre entre le renforcement des capacités et, en même temps, récompenser les créateurs de contenu, en veillant à ce qu’il y ait une incitation. pour qu’ils créent du contenu et qu’ils obtiennent des récompenses équitables pour leur travail.

Êtes-vous un employé du secteur technologique ou avez-vous des idées à partager ?

Contactez Ashley Stewart par e-mail (astewart@insider.com)ou envoyez un message sécurisé depuis un appareil non professionnel via Signal (+1-425-344-8242).

A lire également