Les 10 pires pratiques de Big Data

Oui, vous pouvez faire du big data. Cependant, vous pouvez le faire dans le bon ou le mauvais sens. Voici les 10 pires pratiques à éviter.

1. Choisir MongoDB comme plate-forme Big Data. Pourquoi est-ce que je choisis MongoDB? Je ne le suis pas, mais pour une raison quelconque, la base de données NoSQL la plus utilisée à ce stade est MongoDB. Bien que MongoDB dispose d'un cadre d'agrégation qui a le goût de MapReduce et même d'un connecteur Hadoop (très mal documenté), son point idéal est une base de données opérationnelle, pas un système analytique.

[Andrew C. Oliver répond à la question que tout le monde pense: quelle base de données effrayante dois-je utiliser? | Également sur: L'heure des normes NoSQL est maintenant | Obtenez un résumé des histoires clés chaque jour dans le bulletin quotidien. ]

Lorsque votre phrase commence, "Nous utiliserons Mongo pour analyser ...", arrêtez-vous là et réfléchissez à ce que vous faites. Parfois, vous voulez vraiment dire «collecter pour une analyse ultérieure», ce qui peut convenir, selon ce que vous faites. Cependant, si vous voulez vraiment dire que vous allez utiliser MongoDB comme une sorte de technologie d'entreposage de données malade, votre projet peut être voué à l'échec au début.

2. Utilisation du schéma SGBDR sous forme de fichiers. Ouais, vous avez vidé chaque table de votre SGBDR dans un fichier. Vous prévoyez de stocker cela sur HDFS. Vous prévoyez d'utiliser Hive dessus.

Tout d'abord, vous savez que Hive est plus lent que votre SGBDR pour tout ce qui est normal, non? Cela va MapReduce même une simple sélection. Regardez l'itinéraire «optimisé» pour les jointures de «table». Ensuite, regardons la taille des lignes - whaddaya sachez, vous avez des fichiers plats mesurés en kilo-octets à un chiffre. Hadoop fonctionne mieux sur de grands ensembles de données relativement plates. Je suis sûr que vous pouvez créer un extrait plus dénormalisé.

3. Création de bassins de données. Sur le chemin de la création d'un lac de données, vous avez désactivé un autre viaduc et créé une série de bassins de données. La loi de Conway a de nouveau frappé et vous avez laissé chaque groupe commercial non seulement créer sa propre analyse des données, mais aussi ses propres mini-référentiels. Cela ne semble pas mal au début, mais avec différents extraits et différentes façons de découper et de découper les données, vous vous retrouvez avec différentes vues des données. Je ne veux pas dire plat ou cube - je veux dire des réponses différentes pour certaines des mêmes questions. Schema-on-read ne signifie pas «ne pas planifier du tout», mais cela signifie «ne pas planifier toutes les questions que vous pourriez poser».

Néanmoins, vous devez prévoir une vue d'ensemble. Si vous vendez des widgets, il y a de fortes chances que quelqu'un veuille voir combien, à qui et à quelle fréquence vous avez vendu des widgets. Allez-y et obtenez cela dans les formats courants et faites une petite conception initiale pour vous assurer de ne pas vous retrouver avec des bassins de données et des flaques d'eau appartenant à chaque groupe commercial individuel.

4. Ne pas développer des cas d'utilisation plausibles. L'idée du lac de données est vendue par les vendeurs pour se substituer à des cas d'utilisation réels. (C'est aussi un moyen d'échapper aux contraintes de financement ministériel.) L'approche du lac de données peut être valable, mais vous devez avoir à l'esprit les cas d'utilisation réels. Il n'est pas difficile de les trouver dans la plupart des moyennes et grandes entreprises. Commencez par vérifier quand quelqu'un a dit pour la dernière fois: "Non, nous ne pouvons pas, car la base de données ne peut pas le gérer." Puis passez à "duh". Par exemple, le «développement des affaires» n'est pas censé être simplement une promotion titulaire pour votre meilleur vendeur; ça veut dire quelque chose.

Qu'en est-il, par exemple, d'utiliser Mahout pour trouver des commandes clients qui sont des valeurs aberrantes courantes? Dans la plupart des entreprises, la plupart des commandes des clients se ressemblent. Mais qu'en est-il des commandes qui arrivent assez souvent mais qui ne correspondent pas aux commandes courantes? Celles-ci sont peut-être trop petites pour que les vendeurs s'en soucient, mais elles peuvent indiquer un futur secteur d'activité pour votre entreprise (c'est-à-dire un développement commercial réel). Si vous ne pouvez pas trouver au moins quelques bonnes utilisations dans le monde réel de Hadoop, peut-être n'en avez-vous pas besoin après tout.

5. Penser Hive est la solution ultime. Vous connaissez SQL. Vous aimez SQL. Vous avez fait du SQL. Je comprends, mec, mais peut-être que tu peux aussi grandir? Peut-être devriez-vous atteindre au fond une décennie ou trois et vous souvenir du jeune enfant qui a appris SQL et a vu les mondes qu'il lui ouvrait. Imaginez maintenant qu'il apprenne une autre chose en même temps.