Qu'est-ce que le Big Data ? Définition, challenges...

Les challenges du Big Data

Les responsables IT et les équipes d'analytique sont confrontés à une pression considérable pour exploiter toute la richesse des données de façon à créer de la valeur à tous les niveaux de l'entreprise, le tout avec des contraintes de temps et de budget, et des compétences limitées. Dans les data centers et le cloud, les données sont distribuées, dynamiques et diversifiées. Cette situation impose des challenges non seulement aux équipes d'infrastructure chargées du stockage et de la protection de ces données, mais aussi aux data scientists, aux ingénieurs et aux architectes, qui ont besoin de collecter et d'analyser en temps réel les données issues de différentes sources. Face à ce problème de prolifération des données, les équipes d'analytique sont contraintes de limiter la portée de leurs analyses ou d'attendre plusieurs jours avant que les données appropriées ne soient disponibles pour l'analyse.

Les technologies du Big Data

Les types de données non structurées et semi-structurées ne sont généralement pas adaptés aux data warehouses classiques, qui reposent sur des bases de données relationnelles orientées datasets structurés. Il se peut aussi que les data warehouses ne puissent pas gérer les demandes de traitement provenant de datasets Big Data qui doivent être mis à jour de manière fréquente ou continue.

C'est pour cette raison que de nombreuses entreprises ont recours à des bases de données NoSQL ou à des outils Hadoop pour collecter, traiter et analyser le Big Data :

YARN repose sur une technologie de gestion de clusters. Il s'agit de l'une des principales fonctionnalités des plateformes Hadoop deuxième génération.
MapReduce est un modèle de programmation. Son implémentation permet de traiter et de générer des datasets Big Data avec un algorithme distribué parallèle sur un cluster.
Apache Spark est un moteur général conçu pour accélérer le traitement du Big Data. Il intègre des modules pour le streaming, SQL, le machine learning et le traitement graphique.
HBase est une base de données distribuée non relationnelle open source inspirée du service Cloud Bigtable de Google.
Apache Hive est un projet logiciel de data warehouse qui s'appuie sur Apache Hadoop pour synthétiser, interroger et analyser les données.
Kafka est une plateforme de traitement de flux open source développée par Apache Software Foundation.
Pig repose sur une technologie open source dotée d'un mécanisme général pour la programmation parallèle des tâches MapReduce exécutées sur des clusters Hadoop.

Les utilisateurs de l'analytique Big Data se tournent de plus en plus vers un data lake Hadoop servant de référentiel principal pour les flux entrants de données brutes. Dans ces architectures, les données peuvent être analysées directement dans un cluster Hadoop ou s'exécuter à l'aide d'un moteur de traitement tel que Spark.

L'écosystème Big Data

Segment	Principaux fournisseurs
Distribution logicielle Hadoop/Apache pour l'analytique Big Data	Cloudera, HortonWorks, MapR
Gestion des applications, sécurité, conformité	Splunk
Spark	DataBricks
Bases de données NoSQL	Aerospike, Cassandra, Couchbase Server, HBase, MarkLogic, MongoDB, Redis Labs
Analytique cloud	Amazon EMR, Azure HDInsight, Google Cloud Platform
Composants open source	Druid, Elasticsearch, Apache Flink, Apache Hive, Apache Kafka, Apache Mesos, Apache Spark, Apache Solr, Apache Hadoop YARN, Apache ZooKeeper

Les avantages du Big Data

Optimisée par des systèmes et des logiciels d'analytique spécialisés, l'analytique Big Data ouvre la voie à de multiples avantages commerciaux, notamment de nouvelles opportunités de revenus, un marketing plus ciblé, un service client optimisé, une meilleure efficacité opérationnelle et un avantage concurrentiel renforcé.

Selon une enquête de Datameer réalisée en 2016, 78 % des entreprises reconnaissent que le Big Data est à même de transformer radicalement leur façon de travailler au cours des trois prochaines années.

Qui sont les utilisateurs du Big Data ?

Les applications d'analytique Big Data permettent aux data scientists, aux modélisateurs prédictifs, aux statisticiens et à d'autres professionnels du domaine d'analyser des volumes croissants de données transactionnelles structurées, ainsi qu'un mélange de données semi-structurées et non structurées, telles que les données de parcours de navigation sur Internet, les journaux de serveurs Web, le contenu des médias sociaux, les textes d'e-mails, les réponses aux enquêtes, les enregistrements détaillés des appels sur téléphoniques mobiles et les données machine saisies par des capteurs connectés à l'Internet des objets (IOT) .

Le stockage et la gestion du Big Data

Pour exploiter ces opportunités, augmenter les bénéfices et améliorer la gestion des risques, il est essentiel d'obtenir rapidement des informations exploitables à partir des données. Pour gérer des datasets volumineux, vous avez besoin de fonctionnalités de gestion des données haute performance.

L'accélération de l'analytique des données machine en temps réel aide les entreprises à détecter les cyberattaques avant qu'elles ne causent des dommages et à empêcher les fraudes, sans impact sur l'expérience client.

Pour améliorer les niveaux de satisfaction et générer de nouvelles offres de services, il est essentiel d'exploiter rapidement les données des clients à des fins de veille stratégique.

Toutefois, les solutions de stockage générique (c'est-à-dire le stockage DAS) de l'analytique Big Data première génération n'offrent pas l'évolutivité, la fiabilité et la flexibilité nécessaires à la prise en charge de ces applications, devenues incontournables pour renforcer la compétitivité.

Les plateformes d'analytique Big Data pour le stockage partagé et externe optimisent l'évolutivité et les performances en déplaçant les données de façon non disruptive, là où vous en avez besoin, tout en les protégeant et en les sécurisant en permanence.

NetApp et le Big Data

La plateforme innovante d'analytique Big Data de NetApp double les performances en déplaçant les données et les workloads de manière fluide et sécurisée vers le cloud ou là où vous en avez besoin, tout en assurant la sauvegarde, la sécurité et la disponibilité des données. Avec NetApp, vous pouvez réduire jusqu'à 50 % les frais de licence, les coûts matériels et le TCO global en optimisant l'utilisation des ressources et en éliminant les copies de données inutiles.

Les challenges du Big Data

Les technologies du Big Data

L'écosystème Big Data

Les avantages du Big Data

Qui sont les utilisateurs du Big Data ?

Le stockage et la gestion du Big Data

NetApp et le Big Data

Pour aller plus loin

En quoi consistent l'analytique Big Data et l'Internet des objets ?

Pourquoi concevoir votre propre plateforme Big Data ?

Les clés pour gagner la bataille du Big Data

Comment exécuter l'analytique Big Data de manière native sur des données NFS

Quel est l'impact du Big Data sur le secteur de la santé ?