Comment choisir une plateforme d'analyse de données

Que vous ayez des responsabilités dans le développement de logiciels, les devops, les systèmes, les clouds, l'automatisation des tests, la fiabilité du site, la direction d'équipes Scrum, l'infosec ou d'autres domaines des technologies de l'information, vous aurez de plus en plus d'opportunités et d'exigences pour travailler avec les données, l'analyse et l'apprentissage automatique. .

Pleins feux sur la technologie: Analytics

  • Comment choisir une plateforme d'analyse de données ()
  • 6 bonnes pratiques pour la visualisation de données d'entreprise (Computerworld)
  • Analytique de la santé: 4 success stories (CIO)
  • SD-WAN et analytique: un mariage fait pour la nouvelle normalité (Network World)
  • Comment protéger les algorithmes en tant que propriété intellectuelle (CSO)

Votre exposition aux analyses peut provenir de données informatiques, telles que le développement de mesures et d'informations à partir de mesures agiles, devops ou de sites Web. Il n'y a pas de meilleur moyen d'acquérir les compétences et les outils de base relatifs aux données, à l'analyse et à l'apprentissage automatique que de les appliquer à des données que vous connaissez et que vous pouvez exploiter pour obtenir des informations pour conduire des actions.

Les choses deviennent un peu plus complexes une fois que vous sortez du monde des données informatiques et que vous fournissez des services aux équipes de scientifiques des données, aux scientifiques des données citoyens et à d'autres analystes commerciaux effectuant des visualisations de données, des analyses et du machine learning.

Premièrement, les données doivent être chargées et nettoyées. Ensuite, en fonction du volume, de la variété et de la vitesse des données, vous êtes susceptible de rencontrer plusieurs bases de données back-end et technologies de données cloud. Enfin, au cours des dernières années, ce qui était autrefois un choix entre les outils de veille économique et de visualisation de données s'est transformé en une matrice complexe de plates-formes d'analyse du cycle de vie complet et d'apprentissage automatique.

L'importance de l'analyse et de l'apprentissage automatique augmente les responsabilités du service informatique dans plusieurs domaines. Par exemple:

  • L'informatique fournit souvent des services autour de toutes les intégrations de données, bases de données back-end et plates-formes d'analyse.
  • Les équipes Devops déploient et mettent souvent à l'échelle l'infrastructure de données pour permettre l'expérimentation sur des modèles d'apprentissage automatique, puis prennent en charge le traitement des données de production.
  • Les équipes d'exploitation du réseau établissent des connexions sécurisées entre les outils d'analyse SaaS, les multiclouds et les centres de données.
  • Les équipes de gestion des services informatiques répondent aux demandes et incidents de services de données et d'analyse.
  • Infosec supervise la gouvernance et la mise en œuvre de la sécurité des données.
  • Les développeurs intègrent des modèles d'analyse et d'apprentissage automatique dans les applications.

Compte tenu de l'explosion de l'analyse, des plates-formes de données cloud et des capacités d'apprentissage automatique, voici une introduction pour mieux comprendre le cycle de vie de l'analyse, de l'intégration et du nettoyage des données, aux dataops et modelops, aux bases de données, aux plates-formes de données et aux offres d'analyse elles-mêmes.

L'analyse commence par l'intégration et le nettoyage des données

Avant que les analystes, les scientifiques des données citoyennes ou les équipes de science des données puissent effectuer des analyses, les sources de données requises doivent leur être accessibles dans leurs plateformes de visualisation et d'analyse des données.

Pour commencer, il peut y avoir des exigences commerciales pour intégrer des données provenant de plusieurs systèmes d'entreprise, extraire des données d'applications SaaS ou diffuser des données à partir de capteurs IoT et d'autres sources de données en temps réel.

Ce sont toutes les étapes pour collecter, charger et intégrer des données pour l'analyse et l'apprentissage automatique. En fonction de la complexité des données et des problèmes de qualité des données, il existe des opportunités de s'impliquer dans les dataops, le catalogage des données, la gestion des données de base et d'autres initiatives de gouvernance des données.

Nous connaissons tous l'expression «poubelle à l'intérieur, poubelle à la poubelle». Les analystes doivent se préoccuper de la qualité de leurs données et les data scientists doivent se préoccuper des biais dans leurs modèles d'apprentissage automatique. En outre, la rapidité d'intégration de nouvelles données est essentielle pour les entreprises qui souhaitent devenir davantage axées sur les données en temps réel. Pour ces raisons, les pipelines qui chargent et traitent les données sont d'une importance cruciale dans l'analyse et l'apprentissage automatique.

Bases de données et plateformes de données pour tous types de défis de gestion de données

Le chargement et le traitement des données est une première étape nécessaire, mais les choses se compliquent ensuite lors de la sélection des bases de données optimales. Les choix actuels incluent des entrepôts de données d'entreprise, des lacs de données, des plates-formes de traitement de données volumineuses et des bases de données NoSQL spécialisées, de graphiques, de valeurs-clés, de documents et de colonnes. Pour prendre en charge l'entreposage et l'analyse de données à grande échelle, il existe des plates-formes telles que Snowflake, Redshift, BigQuery, Vertica et Greenplum. Enfin, il y a les plates-formes Big Data, notamment Spark et Hadoop.

Les grandes entreprises sont susceptibles de disposer de plusieurs référentiels de données et d'utiliser des plateformes de données cloud telles que Cloudera Data Platform ou MapR Data Platform, ou des plateformes d'orchestration de données comme InfoWorks DataFoundy, pour rendre tous ces référentiels accessibles à des fins d'analyse.

Les principaux clouds publics, notamment AWS, GCP et Azure, disposent tous de plates-formes et de services de gestion de données à analyser. Par exemple, Azure Synapse Analytics est l'entrepôt de données SQL de Microsoft dans le cloud, tandis qu'Azure Cosmos DB fournit des interfaces vers de nombreux magasins de données NoSQL, y compris Cassandra (données en colonnes), MongoDB (données de valeur-clé et de document) et Gremlin (données de graphique) .

Les lacs de données sont des quais de chargement populaires pour centraliser les données non structurées pour une analyse rapide, et on peut choisir parmi Azure Data Lake, Amazon S3 ou Google Cloud Storage pour atteindre cet objectif. Pour le traitement du Big Data, les clouds AWS, GCP et Azure disposent également des offres Spark et Hadoop.

Les plateformes d'analyse ciblent l'apprentissage automatique et la collaboration

Avec les données chargées, nettoyées et stockées, les scientifiques et les analystes des données peuvent commencer à effectuer des analyses et du machine learning. Les organisations disposent de nombreuses options en fonction des types d'analyse, des compétences de l'équipe d'analyse effectuant le travail et de la structure des données sous-jacentes.

L'analyse peut être effectuée dans des outils de visualisation de données en libre-service tels que Tableau et Microsoft Power BI. Ces deux outils ciblent les scientifiques des données des citoyens et exposent des visualisations, des calculs et des analyses de base. Ces outils prennent en charge l'intégration des données de base et la restructuration des données, mais des conflits de données plus complexes se produisent souvent avant les étapes d'analyse. Tableau Data Prep et Azure Data Factory sont les outils complémentaires pour aider à intégrer et transformer les données.

Les équipes d'analyse qui souhaitent automatiser plus que l'intégration et la préparation des données peuvent se tourner vers des plates-formes telles que Alteryx Analytics Process Automation. Cette plate-forme collaborative de bout en bout connecte les développeurs, les analystes, les data scientists citoyens et les data scientists à l'automatisation des flux de travail et aux capacités de traitement des données en libre-service, d'analyse et d'apprentissage automatique.

Alan Jacobson, responsable des analyses et des données chez Alteryx, explique: «L'émergence de l'automatisation des processus analytiques (APA) en tant que catégorie souligne une nouvelle attente pour chaque travailleur d'une organisation d'être un travailleur des données. Les développeurs informatiques ne font pas exception, et l'extensibilité de la plate-forme APA Alteryx est particulièrement utile pour ces travailleurs du savoir. »

Il existe plusieurs outils et plates-formes ciblant les scientifiques des données qui visent à les rendre plus productifs avec des technologies telles que Python et R tout en simplifiant de nombreuses étapes opérationnelles et d'infrastructure. Par exemple, Databricks est une plateforme opérationnelle de science des données qui permet de déployer des algorithmes sur Apache Spark et TensorFlow, tout en autogérant les clusters de calcul sur le cloud AWS ou Azure. 

Désormais, certaines plates-formes comme SAS Viya combinent la préparation des données, l'analyse, les prévisions, l'apprentissage automatique, l'analyse de texte et la gestion de modèles d'apprentissage automatique dans une seule plate-forme modelops. SAS opérationnalise l'analyse et cible les scientifiques des données, les analystes commerciaux, les développeurs et les cadres avec une plateforme collaborative de bout en bout.

David Duling, directeur de la recherche et du développement en gestion des décisions chez SAS, déclare: «Nous considérons les modélistes comme la pratique consistant à créer un pipeline d'opérations répétable et vérifiable pour déployer toutes les analyses, y compris les modèles d'IA et de ML, dans des systèmes opérationnels. Dans le cadre de modelops, nous pouvons utiliser des pratiques devops modernes pour la gestion, les tests et la surveillance du code. Cela permet d’améliorer la fréquence et la fiabilité du déploiement des modèles, ce qui améliore l’agilité des processus métier basés sur ces modèles. »

Dataiku est une autre plate-forme qui s'efforce d'apporter la préparation des données, l'analyse et l'apprentissage automatique aux équipes de science des données en croissance et à leurs collaborateurs. Dataiku dispose d'un modèle de programmation visuelle pour permettre la collaboration et les blocs-notes de code pour les développeurs SQL et Python plus avancés.

D'autres plateformes d'analyse et d'apprentissage automatique des principaux fournisseurs de logiciels d'entreprise visent à apporter des capacités d'analyse aux sources de données des centres de données et du cloud. Par exemple, Oracle Analytics Cloud et SAP Analytics Cloud visent tous deux à centraliser l'intelligence et à automatiser les insights pour permettre des décisions de bout en bout.

Choisir une plateforme d'analyse de données

La sélection des outils d'intégration, d'entreposage et d'analyse des données était auparavant plus simple avant la montée en puissance du Big Data, de l'apprentissage automatique et de la gouvernance des données. Aujourd'hui, il existe un mélange de terminologie, de capacités de plate-forme, d'exigences opérationnelles, de besoins de gouvernance et de personnalités d'utilisateurs ciblées qui rendent la sélection des plates-formes plus complexe, d'autant plus que de nombreux fournisseurs prennent en charge plusieurs paradigmes d'utilisation. 

Les entreprises diffèrent dans les exigences et les besoins en matière d'analyse, mais devraient rechercher de nouvelles plates-formes du point de vue de ce qui est déjà en place. Par exemple:

  • Les entreprises qui ont réussi avec des programmes de science des données citoyennes et qui ont déjà des outils de visualisation de données en place peuvent souhaiter étendre ce programme avec des technologies d'automatisation des processus d'analyse ou de préparation des données.
  • Les entreprises qui souhaitent une chaîne d'outils permettant aux scientifiques des données de travailler dans différentes parties de l'entreprise peuvent envisager des plates-formes d'analyse de bout en bout avec des capacités modélisées.
  • Les organisations dotées de plates-formes de données back-end multiples et disparates peuvent bénéficier de plates-formes de données cloud pour les cataloguer et les gérer de manière centralisée.
  • Les entreprises qui normalisent toutes ou la plupart des capacités de données sur un seul fournisseur de cloud public devraient étudier les plateformes d'intégration de données, de gestion des données et d'analyse de données proposées.

L'analyse et l'apprentissage automatique devenant une compétence de base importante, les technologues devraient envisager d'approfondir leur compréhension des plates-formes disponibles et de leurs capacités. La puissance et la valeur des plates-formes d'analyse ne feront qu'augmenter, tout comme leur influence dans toute l'entreprise.