Comprendre les concepts et les enjeux du Big Data
Origines et définition du Big Data : la BI face à la croissance et à la diversité des données.
Les chiffres clés du marché dans le monde et en France.
Les enjeux du Big Data : ROI, organisation, confidentialité des données.
Un exemple d’architecture Big Data.
Les technologies du Big Data
Description de l’architecture et des composants de la plateforme Hadoop.
Les modes de stockage (NoSQL, HDFS).
Principes de fonctionnement de MapReduce.
Présentation des distributions principales du marché et des outils complémentaires (Hortonworks, Cloudera, MapR, Aster).
Installer une plateforme Hadoop.
Présentation des technologies spécifiques pour le Big Data (Talend, Tableau, Qlikview …).
Gérer les données structurées et non structurées
Principes de fonctionnement de Hadoop Distributed File System (HDFS).
Importer des données externes vers HDFS.
Réaliser des requêtes SQL avec HIVE.
Utiliser PIG pour traiter la donnée.
Utiliser un ETL pour industrialiser la création de flux de données massives.
Présentation de Talend For Big Data.
Les méthodes d’analyse des données pour le Big Data
Les méthodes d’exploration.
Segmentation et classification.
Estimation et prédiction.
L’implémentation des modèles.
Data visualisation et cas d’usage concrets
Les outils de restitution du marché.
Méthodologie de mise en forme des rapports.
Apport du Big Data pour le « Social Business ».
Mesurer l’e-réputation et la notoriété d’une marque.
Mesurer l’expérience et la satisfaction clients, optimiser le parcours client.
Conclusion
Ce qu’il faut retenir.
Synthèse des bonnes pratiques.
Bibliographie.
- Comprendre les concepts et l’apport du Big Data par rapport aux enjeux métiers
- Comprendre l’écosystème technologique nécessaire pour réaliser un projet Big Data
- Acquérir les compétences techniques pour gérer des flux de données complexes, non structurés et massifs
- Implémenter des modèles d’analyses statistiques pour répondre aux besoins métiers
- Appréhender un outil de data visualisation pour restituer des analyses dynamiques
Durée : 5 jours
Participants :
Dataminers, chargés d’études statistiques, développeurs, chefs de projet, consultants en informatique décisionnelle.
Méthodes :