Les rôles actuels de la science des données n'existeront pas dans 10 ans

Au cours de la prochaine décennie, le rôle du data scientist tel que nous le connaissons sera très différent de ce qu'il est aujourd'hui. Mais ne vous inquiétez pas, personne ne prédit des emplois perdus, juste des emplois modifiés .

Les scientifiques des données iront bien - selon le Bureau of Labor Statistics, le rôle devrait toujours croître à un rythme supérieur à la moyenne jusqu'en 2029. Mais les progrès technologiques seront à l'origine d'un énorme changement dans les responsabilités d'un scientifique des données et dans le manière dont les entreprises abordent l'analytique dans son ensemble. Et les outils AutoML, qui aident à automatiser le pipeline d'apprentissage automatique des données brutes à un modèle utilisable, mèneront cette révolution.

Dans 10 ans, les data scientists auront des ensembles de compétences et d'outils totalement différents, mais leur fonction restera la même: servir de guides technologiques confiants et compétents qui peuvent donner un sens à des données complexes pour résoudre des problèmes commerciaux.

AutoML démocratise la science des données

Jusqu'à récemment, les algorithmes et processus d'apprentissage automatique étaient presque exclusivement le domaine de rôles plus traditionnels en science des données - ceux qui avaient une éducation formelle et des diplômes avancés, ou qui travaillaient pour de grandes entreprises technologiques. Les scientifiques des données ont joué un rôle inestimable dans chaque partie du spectre de développement de l'apprentissage automatique. Mais avec le temps, leur rôle deviendra plus collaboratif et stratégique. Avec des outils comme AutoML pour automatiser certaines de leurs compétences plus académiques, les scientifiques des données peuvent se concentrer sur l'orientation des organisations vers des solutions aux problèmes commerciaux via les données.

À bien des égards, cela est dû au fait qu'AutoML démocratise l'effort de mise en pratique de l'apprentissage automatique. Les fournisseurs, des startups aux hyperscalers du cloud, ont lancé des solutions suffisamment faciles pour que les développeurs puissent les utiliser et les expérimenter sans grande barrière éducative ou expérientielle à l'entrée. De même, certaines applications AutoML sont suffisamment intuitives et simples pour que les travailleurs non techniques puissent s'essayer à la création de solutions aux problèmes dans leurs propres services, créant ainsi une sorte de «scientifique des données citoyen» au sein des organisations.

Afin d'explorer les possibilités que ces types d'outils ouvrent pour les développeurs et les scientifiques des données, nous devons d'abord comprendre l'état actuel de la science des données en ce qui concerne le développement de l'apprentissage automatique. Il est plus facile à comprendre lorsqu'il est placé sur une échelle de maturité.

Les petites organisations et les entreprises ayant des rôles plus traditionnels en charge de la transformation numérique (c'est-à-dire, des scientifiques de données non formés de manière classique) se situent généralement à cette extrémité de cette échelle. À l'heure actuelle, ils sont les plus gros clients des applications d'apprentissage automatique prêtes à l'emploi, qui sont davantage destinées à un public peu familiarisé avec les subtilités de l'apprentissage automatique.

  • Avantages: ces applications clés en main ont tendance à être faciles à mettre en œuvre, relativement bon marché et faciles à déployer. Pour les petites entreprises ayant un processus très spécifique d'automatisation ou d'amélioration, il existe probablement plusieurs options viables sur le marché. La faible barrière à l'entrée rend ces applications parfaites pour les scientifiques des données qui se lancent pour la première fois dans l'apprentissage automatique. Certaines applications étant si intuitives, elles permettent même aux employés non techniques d’expérimenter des capacités d’automatisation et de données avancées, ce qui peut potentiellement introduire un bac à sable précieux dans une organisation.
  • Inconvénients: cette classe d'applications d'apprentissage automatique est notoirement inflexible. Bien qu'ils puissent être faciles à mettre en œuvre, ils ne sont pas faciles à personnaliser. En tant que tel, certains niveaux de précision peuvent être impossibles pour certaines applications. De plus, ces applications peuvent être sévèrement limitées par leur dépendance à des modèles et des données pré-entraînés. 

Des exemples de ces applications incluent Amazon Comprehend, Amazon Lex et Amazon Forecast d'Amazon Web Services et Azure Speech Services et Azure Language Understanding (LUIS) de Microsoft Azure. Ces outils sont souvent suffisants pour permettre aux data scientists en plein essor de faire les premiers pas dans l'apprentissage automatique et de propulser leurs organisations plus loin dans le spectre de maturité.

Solutions personnalisables avec AutoML

Les organisations disposant d'ensembles de données volumineux mais relativement courants (par exemple, les données de transaction client ou les métriques d'e-mail marketing) ont besoin de plus de flexibilité lorsqu'elles utilisent l'apprentissage automatique pour résoudre des problèmes. Entrez AutoML. AutoML prend les étapes d'un workflow d'apprentissage automatique manuel (découverte de données, analyse de données exploratoire, réglage d'hyperparamètres, etc.) et les condense en une pile configurable.

  • Avantages: les applications AutoML permettent d'exécuter davantage d'expériences sur des données dans un espace plus grand. Mais la véritable superpuissance d'AutoML est l'accessibilité - des configurations personnalisées peuvent être créées et les entrées peuvent être affinées relativement facilement. De plus, AutoML n'est pas conçu exclusivement avec des data scientists en tant que public. Les développeurs peuvent également facilement bricoler dans le bac à sable pour intégrer des éléments d'apprentissage automatique dans leurs propres produits ou projets.
  • Inconvénients: Bien que cela se rapproche, les limites d'AutoML signifient que la précision des sorties sera difficile à perfectionner. Pour cette raison, les scientifiques qui détiennent des diplômes et portent des données méprisent souvent les applications créées avec l'aide d'AutoML, même si le résultat est suffisamment précis pour résoudre le problème en question.

Des exemples de ces applications incluent Amazon SageMaker AutoPilot ou Google Cloud AutoML. Les data scientists dans dix ans devront sans aucun doute se familiariser avec de tels outils. À l'instar d'un développeur qui maîtrise plusieurs langages de programmation, les scientifiques des données devront maîtriser plusieurs environnements AutoML pour être considérés comme les meilleurs talents.

Solutions d'apprentissage automatique «roulées à la main» et développées en interne 

Les plus grandes entreprises à l'échelle de l'entreprise et les sociétés Fortune 500 sont celles où la plupart des applications avancées et propriétaires d'apprentissage automatique sont actuellement en cours de développement. Les scientifiques des données de ces organisations font partie de grandes équipes qui perfectionnent des algorithmes d'apprentissage automatique en utilisant des tonnes de données historiques de l'entreprise et qui créent ces applications à partir de zéro. Des applications personnalisées comme celles-ci ne sont possibles qu'avec des ressources et des talents considérables, c'est pourquoi les bénéfices et les risques sont si grands.

  • Avantages: comme toute application créée à partir de zéro, le machine learning personnalisé est «à la pointe de la technologie» et repose sur une compréhension approfondie du problème en question. Il est également plus précis - ne serait-ce que par de petites marges - qu'AutoML et les solutions d'apprentissage automatique prêtes à l'emploi.
  • Inconvénients: obtenir une application d'apprentissage automatique personnalisée pour atteindre certains seuils de précision peut être extrêmement difficile et nécessite souvent des équipes de scientifiques des données. De plus, les options d'apprentissage automatique personnalisées sont les plus longues et les plus coûteuses à développer.

Un exemple de solution d'apprentissage automatique roulée à la main consiste à commencer par un bloc-notes Jupyter vierge, à importer manuellement des données, puis à effectuer chaque étape de l'analyse des données exploratoire à la configuration manuelle du modèle. Ceci est souvent réalisé en écrivant du code personnalisé à l'aide de frameworks d'apprentissage automatique open source tels que Scikit-learn, TensorFlow, PyTorch et bien d'autres. Cette approche nécessite un degré élevé d'expérience et d'intuition, mais peut produire des résultats qui surpassent souvent les services d'apprentissage automatique clé en main et AutoML.

Des outils comme AutoML déplaceront les rôles et les responsabilités de la science des données au cours des 10 prochaines années. AutoML prend le fardeau du développement de l'apprentissage automatique à partir de zéro pour les scientifiques des données et place à la place les possibilités de la technologie d'apprentissage automatique directement entre les mains d'autres résolveurs de problèmes. Avec le temps libéré pour se concentrer sur ce qu'ils savent - les données et les intrants eux-mêmes - les scientifiques des données dans une décennie serviront de guides encore plus précieux pour leurs organisations.

Eric Miller occupe le poste de directeur principal de la stratégie technique chez Rackspace, où il fournit un leadership en conseil stratégique avec une expérience éprouvée en matière de création de pratiques dans l'écosystème Amazon Partner Network (APN). Leader technologique accompli avec 20 ans de succès avéré dans l'informatique d'entreprise, Eric a dirigé plusieurs initiatives d'architecture AWS et de solutions, y compris le programme de partenariat d'évaluation AWS Well Architected Framework (WAF), Amazon EC2 pour Windows Server AWS Service Delivery Program, et une large gamme des réécritures AWS pour des organisations de plusieurs milliards de dollars.

-

Le New Tech Forum offre un lieu pour explorer et discuter des technologies d'entreprise émergentes avec une profondeur et une ampleur sans précédent. La sélection est subjective, basée sur notre choix des technologies que nous pensons importantes et qui intéressent le plus les lecteurs. n'accepte pas les supports marketing pour la publication et se réserve le droit de modifier tout le contenu fourni. Envoyez toutes vos demandes à [email protected]