De l’IA au travail d’équipe : 7 compétences clés pour les data scientists

Les data scientists d’aujourd’hui ont besoin de plus que la maîtrise de l’IA et de Python. Les organisations recherchent des spécialistes qui se sentent également à l’aise dans la suite C.

Crédit : Maksym Yemelyanov via Adobe Stock

Le Bureau of Labor Statistics répertorie les emplois en science des données dans les 15 professions à la croissance la plus rapide avec une croissance de l’emploi prévue de 31 pour cent au cours des 10 prochaines années. Les données devenant de plus en plus l’élément vital de toutes les organisations, les scientifiques des données doivent non seulement être dotés des bonnes compétences techniques, mais également d’une solide dose de sens des affaires.

Apprentissage automatique/Réseaux de neurones

En 2021, les méthodes d’apprentissage automatique telles que l’apprentissage par transfert et les transformateurs attirent beaucoup d’attention, car elles stimulent rapidement l’innovation dans un certain nombre d’espaces différents. Pour la construction et la formation de réseaux de neurones, PyTorch a beaucoup d’élan, et Keras et TensorFlow sont également couramment utilisés.

Il existe également un riche écosystème de bibliothèques logicielles, dont beaucoup sont open source, qui peuvent aider à accélérer les applications d’apprentissage automatique et de science des données.

« Les scientifiques des données peuvent se rendre attrayants en démontrant une intuition profonde du pourquoi et du fonctionnement des algorithmes d’apprentissage automatique, ce qui est important pour relever les défis qui surviennent inévitablement lors de la formation et des tests », a déclaré Matthew Silver, directeur principal de la science des données chez Vectra, une IA. société spécialisée dans la détection et la réponse aux menaces. « ONNX, une norme de réseaux neuronaux qui facilite le déploiement de modèles indépendants de la plate-forme, de la bibliothèque et du langage, nous a aidés à rationaliser notre utilisation de l’IA en production et à accélérer notre travail de modélisation. »

Programmation

Il est important que les scientifiques des données écrivent un code de haute qualité et maintenable pour l’analyse exploratoire, le prétraitement des données et la formation d’algorithmes, et dans certains cas pour le déploiement de modèles en production. Python, JavaScript, R et Scala sont les meilleurs langages de développement. Une autre compétence utile consiste à comprendre comment créer une API Web à partir de vos modèles que d’autres peuvent déployer.

Lire aussi  Sam Bankman-Fried témoignera dans son propre procès. C'est un Je vous salue Marie légal

« Les data scientists capables de travailler et de commencer à utiliser des bibliothèques logicielles courantes pour créer des modèles immédiatement sont les plus compétitifs, et de solides compétences en développement logiciel sont un plus dans presque tous les cas », a déclaré Silver.

Infrastructure cloud

Les scientifiques des données qui comprennent les principes d’ingénierie du cloud et l’infrastructure du cloud sont attrayants pour de nombreux employeurs. Cela signifie se familiariser avec l’un des trois grands fournisseurs de cloud public : Microsoft, Amazon Web Services ou Google. Chacun offre un ensemble complet d’outils pour les scientifiques des données à des fins d’extraction, de nettoyage de données, de visualisation et d’apprentissage automatique.

« Je recherche personnellement des data scientists familiarisés avec l’infrastructure cloud, les pipelines CI/CD et l’automatisation », a déclaré Phillip Gates-Idem, architecte en chef chez JupiterOne, un fournisseur de solutions de gestion et de gouvernance des cyber-actifs. « Les scientifiques des données doivent avoir une solide compréhension de la façon de créer et d’utiliser des outils avec une infrastructure cloud. »

Statistiques

La statistique, un domaine des mathématiques qui cherche à collecter et à interpréter des données quantitatives à l’aide de modèles et de représentations pour un ensemble de données donné, est au cœur de la science des données et comprend des concepts tels que la probabilité, la variabilité, la régression et la tendance centrale.

« Si vous n’avez pas une connaissance approfondie des statistiques – le cœur de la science des données – et de la façon d’appliquer un raisonnement mathématique solide aux problèmes sur lesquels vous travaillez, alors je me fiche du nombre de plates-formes ou de langues vous pouvez inscrire sur votre CV », a déclaré Lars Kemmann, architecte principal de la société de conseil en informatique Netrix. “Je pense que c’est un défi dans l’industrie en ce moment – nous recevons beaucoup de CV de personnes qui n’ont pas fait le travail acharné pour intérioriser la méthode scientifique.”

Lire aussi  Un homme a perdu 500 000 $ d'économies d'une vie dans une «arnaque» d'échange cryptographique après la mort d'un commerçant avec un mot de passe pour accéder aux fonds | Actualités scientifiques et techniques

Gestion de projet

Étant donné que les projets de science des données peuvent impliquer de longues phases d’exploration, ainsi que de multiples inconnues même tard dans le jeu, la gestion de projet est une autre compétence clé pour les scientifiques des données. L’adoption d’une méthodologie agile, par exemple, permet aux data scientists de hiérarchiser et de créer des feuilles de route en fonction des exigences et des objectifs.

“Il est souvent très difficile de prédire combien de temps il faudra pour développer et former un modèle d’apprentissage automatique, et les entreprises en attente de modèles ou de résultats mis à jour auront souvent des délais et une planification qui pâtissent de cette imprévisibilité”, a expliqué Silver. « Les data scientists qui sont capables de s’approprier les principaux efforts de modélisation en comprenant les limites dès le départ, en transmettant l’état du projet au fur et à mesure de l’avancement des efforts et en prédisant quand ils seront en mesure d’offrir la prochaine lecture significative, jouent un rôle important dans notre équipe. “

Narration/Visualisation des données

Bien que les données de l’organisation puissent contenir des quantités remarquables de valeur potentielle, aucune valeur ne peut être créée à moins que vous ne puissiez découvrir ces informations et les traduire ensuite en actions ou en résultats commerciaux. Plotly, Tableau et D3 sont parmi les meilleurs outils de visualisation et de narration de la science des données en demande aujourd’hui.

“Lorsque votre client ne comprend pas ce que vous faites, il est facile pour lui de sous-estimer le travail que vous faites, en particulier dans la phase de préparation des données”, a déclaré Kemmann. « Expliquer clairement le processus et les avantages de chaque étape, dans un langage auquel votre public peut s’identifier, et soutenu dans la mesure du possible par des visualisations de données appropriées, est un élément clé de votre rôle. »

Lire aussi  Offres Black Friday TV en direct: OLED bon marché, QLED grand écran et téléviseurs intelligents à partir de 89 $

Communication

Les scientifiques des données ont maintenant plus d’opportunités que jamais d’être « pratiques » avec les données, mais cela nécessite une solide compréhension des objectifs commerciaux et la capacité de communiquer clairement le jargon technologique. Les scientifiques des données qui peuvent traduire les données en termes utiles sont les personnes qui vont pouvoir ajouter cette valeur supplémentaire.

« Être capable de traduire ces données en informations commerciales claires et digestes va être une compétence énorme, et les scientifiques des données n’ont pas toujours ces compétences générales, ou l’expérience d’être assis dans une salle de cadres et d’être en mesure de clarifier leur décision. -processus de fabrication », a déclaré Joshua Drew, directeur régional de la société de dotation en personnel informatique Robert Half Technology.

Contenu associé :

Comment et pourquoi les entreprises doivent s’attaquer à l’IA éthique
L’observatoire Rubin passe à l’open source pour capturer des données galactiques
Les bases de l’apprentissage automatique que tout le monde devrait connaître
Comment les entreprises font évoluer leur PNL

Nathan Eddy est un écrivain indépendant pour InformationWeek. Il a écrit pour Popular Mechanics, Sales & Marketing Management Magazine, FierceMarkets et CRN, entre autres. En 2012, il réalise son premier film documentaire, The Absent Column. Il vit actuellement à Berlin. Voir la biographie complète

Nous apprécions vos commentaires sur ce sujet sur nos canaux de médias sociaux, ou [contact us directly] avec des questions sur le site.

Plus d’informations

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Recent News

Editor's Pick