Apache Eagle garde un œil sur l'utilisation du Big Data

Apache Eagle, initialement développé sur eBay, puis donné à l'Apache Software Foundation, remplit un créneau de sécurité du Big Data qui reste faiblement peuplé, voire nu: il détecte les problèmes de sécurité et de performances possibles avec les frameworks Big Data.

Pour ce faire, Eagle utilise d'autres composants open source Apache, tels que Kafka, Spark et Storm, pour générer et analyser des modèles d'apprentissage automatique à partir des données comportementales des clusters Big Data.

Regardant de l'intérieur

Les données pour Eagle peuvent provenir de journaux d'activité pour diverses sources de données (HDFS, Hive, MapR FS, Cassandra) ou de mesures de performances récoltées directement à partir de frameworks tels que Spark. Les données peuvent ensuite être acheminées par l'infrastructure de streaming Kafka dans un système de détection en temps réel construit avec Apache Storm ou dans un système de formation de modèle basé sur Apache Spark. Les premiers pour générer des alertes et des rapports basés sur les politiques existantes; ce dernier est destiné à créer des modèles d'apprentissage automatique pour conduire de nouvelles politiques.

Cet accent mis sur le comportement en temps réel est en tête de la liste des «qualités clés» de la documentation d'Eagle. Elle est suivie de «l'évolutivité», «axée sur les métadonnées» (ce qui signifie que les modifications apportées aux politiques sont déployées automatiquement lorsque leurs métadonnées sont modifiées) et «extensibilité». Cela signifie que les sources de données, les systèmes d'alerte et les moteurs de politique utilisés par Eagle sont fournis par des plugins et ne sont pas limités à ce qui est dans la boîte.

Parce que Eagle a été créé à partir de parties existantes du monde Hadoop, il présente deux avantages théoriques. Premièrement, il y a moins de réinvention de la roue. Deuxièmement, ceux qui ont déjà de l'expérience avec les pièces en question auront une longueur d'avance.

Que font mes gens?

Outre les cas d'utilisation mentionnés ci-dessus, tels que l'analyse des performances au travail et la surveillance des comportements anormaux, Eagle peut également analyser les comportements des utilisateurs. Il ne s'agit pas, par exemple, d'analyser les données d'une application Web pour en savoir plus sur les utilisateurs publics de l'application, mais plutôt sur les utilisateurs du framework Big Data lui-même - les personnes qui créent et gèrent le back-end Hadoop ou Spark. Un exemple de la façon d'exécuter une telle analyse est inclus, et il peut être déployé tel quel ou modifié.

Eagle permet également de classer l'accès aux données des applications en fonction des niveaux de sensibilité. Seules les applications HDFS, Hive et HBase peuvent utiliser cette fonctionnalité pour le moment, mais son interaction avec elles fournit un modèle pour la classification d'autres sources de données.

Gardons cela sous contrôle

Parce que les frameworks Big Data sont des créations en évolution rapide, il a été difficile de créer une sécurité fiable autour d'eux. La prémisse d'Eagle est qu'elle peut fournir une analyse et des alertes basées sur des politiques comme complément possible à d'autres projets comme Apache Ranger. Ranger fournit l'authentification et le contrôle d'accès à travers Hadoop et ses technologies associées; Eagle vous donne une idée de ce que font les gens une fois qu'ils sont autorisés à entrer.

La plus grande question qui plane sur l'avenir d'Eagle - oui, même si tôt - est de savoir dans quelle mesure les fournisseurs Hadoop l'intégreront avec élégance dans leurs distributions existantes ou utiliseront leurs propres offres de sécurité. La sécurité et la gouvernance des données sont depuis longtemps l'une des pièces manquantes sur lesquelles les offres commerciales pourraient rivaliser.