Les fondamentaux du Big Data | Proxiad - Français

Les fondamentaux du Big Data

Big Data désigne un ensemble très volumineux de données qu’aucun outil classique de gestion de base de données ou de gestion de l’information ne peut manipuler convenablement.

Environ 2,5 trillions d’octets de données sont traité chaque jour, ce sont des informations provenant de sources diverses comme les messages, les vidéos, les informations climatiques, signaux GPS, transactions, …

Qu’est ce que le Big Data ?

Il n’existe pas de définition précise du Big Data. Chacun la définit selon ses points d’intérêt ou de son domaine d’activités :

  • Traitement des données volumineuses dépassant la capacité des logiciels de base.
  • Nouveaux outils qui nous aident à trouver des données pertinentes.
  • La convergence de l’informatique d’entreprise et de consommation.
  • Le passage (pour les entreprises) du traitement des données internes à la fouille des données externes.
  • Le passage (pour les individus) de la consommation de données à la création de données.

Les cinq V

Le Big Data se repose sur le cinq piliers suivants :

  • Volume : Fait référence à la grande quantité de données générées comme par exemple les e-mails, messages Twitter, photos, clips vidéo, données de capteurs, …
  • Vélocité : Fait référence à la vitesse de la génération des nouvelles données à laquelle les données se déplacent.
  • Variété : Fait référence aux différents types de données utiliser, 80% des données ne sont pas structurées et difficile de les stocker dans des bases de données relationnelles. Avec la technologie Big Data nous pouvons désormais exploiter différents types de données, et les rassembler avec des données structurées et traditionnelles.
  • Véracité : Fait référence au désordre ou à la fiabilité des données. La qualité et la précision sont moins contrôlables (messages Twitter avec des hashtags, les abréviations, les fautes de frappe, …)
  • La valeur : Fait référence à notre capacité à transformer nos données en valeur. Tous les V qu’on a vu jusqu’ici Volume, Variété, Vélocité et Véracité doivent être transformés en Valeur.

Pourquoi le Big Data ?

Le Big Data est venu contribuer à la résolution de plusieurs problèmes tel que :

  • La difficulté de traiter la masse de données produite chaque jour.
  • Les informations produites en temps réel et qui nécessite des traitements adaptés au streaming. 
  • Problème d’optimisation de base de données vu le volume et la diversification des sources de données.
  • Le traitement des données non structurées.

Perspectives offertes par le Big Data

Le marché mondial du Big Data devrait représenter plus de 200 Md$ de chiffre d’affaires en 2020. A la même date, le seul segment des logiciels d’analyse de grands volumes de données devrait dégager 1,7 Md$ de revenus en France.

Selon une étude d’Accenture, 79% des dirigeants d’entreprises s’accordent à dire que les entreprises qui n’adhèrent pas au Big Data perdront leur position concurrentielle et pourraient être menacées d’extinction. Plus encore, 83% ont poursuivi des projets Big Data pour se positionner face à la concurrence.

Selon PwC, 59% des dirigeants affirment que les Big Data de leur entreprise seraient améliorées grâce à l’utilisation de l’intelligence artificielle.

Sans oublier que la mise en place du Big Data représente quelques freins comme par exemple :

  • Le coût
  • Manque de compétences
  • Manque de visibilité sur les opportunités
  • Difficile de quantifier le ROI des investissements Big Data
  • La collecte des données doit surpasser les canaux traditionnels
  • Les données sont non structurées (nécessité de compétences pour les traiter)

La solution Big Data offre à l’entreprise de nombreux gains suite à sa mise en place :

  • Anticipation des enjeux stratégiques liés à une meilleure utilisation des données internes et externes
  • Diversité des données collectées et des canaux de collecte
  • Adoption de nouvelles technologies d’exploitation de la donnée

Les acteurs du Big Data

De nombreux acteurs ont participé à l’élaboration et l’adoption de solution Big Data, parmi eux on trouve :

  • BigInsights Enterprise
  • Framework Hadoop
  • Windows Azure et Widows Server
  • Amazon Web Services (AWS)
  • ElasticMapReduce (EMR)

Distributions majeures

Hadoop

Hadoop est le Framework logiciel open source au cœur de la révolution Big Data sortie en 2011 et qui représente une solution pour le stockage et d’analyse de données.

Cloudera

Cloudera a été le premier fournisseur à proposer Hadoop en tant que package et continue d’être un leader dans l’industrie.

Cloudera CDH avec des composants open source Premier à proposer SQL-for-Hadoop avec son moteur de recherche Impala. La sécurité et les interfaces pour l’intégration avec des applications tierces.

Hortonworks

Qui représente un Framework entièrement open source destiné au stockage et au traitement distribués d’ensembles de données volumineux et multi-sources.

Amazon et IBM proposent désormais Hortonworks en tant qu’options sur leurs propres plateformes

Amazon EMR

Amazon ElasticMapReduce propose une plate-forme cloud-onlyHadoop-as-a-service via ses Web Services. Cette plateforme propose aussi l’utilisation du Framework de traitement de flux Apache Flink en temps réel.

Il se connecte également aux autres infrastructures de cloud d’Amazon telles que EC2, Amazon S3 et DynamoDBet AWS IoT.

Microsoft Azure HDInsight

Azure HDInsight est un service en cloud qui propose des installations gérées de plusieurs distributions Hadoop (Hortonworks, Cloudera et MapR), Il les intègre à sa propre plate-forme Azure Data Lake pour offrir une solution complète de stockage et d’analyse basée sur le cloud.

par Zakaria Imaghri – Consultant Mainframe chez PROXIAD LYON