smart solutions for smarter enterprises

Salon Strata + Hadoop World London 2016 : Percée du Deep Learning, explosion du marché du stream processing… Que peut-on retenir ?

par Olivier Armand (Architecte Big Data chez Sentelis)

J’ai eu le privilège de participer au salon Strata + Hadoop World réunissant les plus grands acteurs technologies autour du Big Data et de la data science et présidé par O’Reilly et Cloudera. En pleine vague Big Data et pré-Brexit, cette édition londonienne (après celle de San-José et avant celles de Pékin, New-York, et Singapour…excusez du peu !) a confirmé par sa large fréquentation la réalité du marché européen du Big Data et par son contenu les tendances technologiques que nous observons depuis plusieurs mois chez Sentelis, l’orientation des investissements des éditeurs et acteurs SaaS en termes de fonctionnalités et de services prêts-à- consommer et les usages les plus en vue du moment qui confirment tant l’immense potentiel que les limitations actuelles.

Pour vous éviter d’aller à la pêche aux informations, voici en synthèse, ce que j’ai ramené dans mes filets en 3 jours de conférences, ateliers et sessions auxquels j’ai assisté.

Real-time Analytics et détection d'anomalie, usages phares du moment

L’analyse ‘in-the- moment’ et la détection d’anomalie s’imposent comme des usages courants sous l’impulsion des technologies de streaming qui supportent opérationnellement de très grands volumes d’événements.
La détection intelligente d'anomalie (détection des pannes, retards, menaces…) a également le vent en poupe face aux difficultés à anticiper et prédire tous les cas. Les solutions s’appuient de fait de plus en plus sur des capacités intelligentes pour apprendre, reconnaître la normalité et induire les objectifs et les règles, mais également pour adapter automatiquement la réponse au contexte.

Deep Learning, nouvelle vague de l’IA

Fort engouement autour du potentiel de ces techniques notamment pour des cas d'usages qui nécessitent de brasser de la donnée non structurée (texte et image) et pour lesquels on cherche à limiter les efforts d'apprentissage de la machine  (apprentissage semi-supervisé) : gestion automatique des réclamations de sinistres, surveillance, analyse d’image… Néanmoins, on constate encore une forte méconnaissance de ces techniques par les métiers ('awareness chasm') limitant leur adoption à grande échelle.

Si de nouveaux frameworks (ex : Google Tensor Flow – salle comble pour la session) sont certes disponibles pour construire « plus simplement » des bancs d'apprentissage, le Deep Learning semble être surtout et encore au stade de la R&D. Il n’y a qu’à entendre les débats autour des dernières thèses expérimentées et des nouvelles techniques d'amélioration de son efficacité et de sa scalabilité pour s’en rendre compte et voir que sa banalisation n’est pas pour tout de suite, du moins tant qu’il restera une affaire d’expertise.

Machine Learning, en route pour la pleine mer

Tous les retours d’expériences auxquels j’ai assistés montrent que les usages Data Lab n’ont, et ce n’est pas une révélation, de sens que si on est capable d’en basculer les résultats de façon opérationnelle dans le Système d’Information. Une étape cruciale qui passe en particulier par la définition des modalités d'intégration industrielle du Machine Learning dans la chaine de valeur logicielle, en delivery et en run, mais également en retro-feedback vers le Data Lab en regard de l’évolution de la performance de l’algorithme qu’il faut superviser pour tenir compte de l’évolution des volumes et du profil des données traitées dans le temps. Les algorithmes doivent ainsi être entrainés pour s'adapter aux variations saisonnières, compliquant d’autant leur apprentissage.

Enfin, on ne le dira jamais assez, il faut veiller à privilégier des modèles d’analyse simples, mieux intégrables et plus maintenables, plus explicables et moins sensibles au risque de subir la même mésaventure que lors du « Netflix Prize », concours Data Science lancé par Netflix, pour un algorithme de prédiction des films que pourraient apprécier une personne à partir de la connaissance de ses préférences, et qui a coûté à Netflix 1M$ pour un gain en performance au final marginal.

Cybersécurité, vaisseau amiral du Big Data

L’explosion de la surface de contact digital entre l’entreprise et son écosystème, en particulier liée au développement des objets connectés, va nécessiter de devoir pour les plus grandes entreprises, collecter et traiter des milliards de données télémétriques par jour (en particulier des données de supervision réseau) pour détecter des anomalies et ainsi contrer des cyber-attaques toujours plus nombreuses et dangereuses. Une problématique complexe qui nécessite de pouvoir traiter un champ de données beaucoup plus vaste que ce que font aujourd’hui les solutions SIEM (Security Information & Event Management System) c’est-à- dire pour s’intéresser au-delà des logs techniques aux comportements même des utilisateurs. Une problématique taillée de fait pour les technologies Big Data, en particulier Hadoop, le Machine Learning et l’Advanced Analytics. C’est en tout cas la conviction du CEO actuel de Cloudera, Tom Reilly, ex-CEO d'Arcsight (aujourd’hui passé sous pavillon HP en 2010) et acteur historique sur le marché du SIEM.

Il n’est pas étonnant dès lors de constater la très forte implication des vendeurs de stack Big Data tels que de Cloudera via l’Open Network Insight ou encore Hortonworks via Apache Metron pour la détection avancée de menaces et de cyber-anomalies.

Gouvernance des données, questions de quotas

Face à des clients de plus en plus conscients de leur empreinte digitale, les entreprises doivent être de plus en plus transparentes sur l’usage qu’elles font des données, les traitements, rapprochements et enrichissements qu’elles opèrent et donc être capables de justifier de leur collecte uniquement au contexte de l’usage qu’elles en font. Face à une législation qui régule plus à postériori qu’à priori sur observation des dérives, les entreprises doivent impérativement s’autoréguler en termes d’usages des données. Elles doivent intégrer dans leur gouvernance de données au-delà des contraintes réglementaires, une dimension morale correspondant à leurs valeurs et leur image de marque.

Fragmentation technologique, espèces menacées

L’heure n’est toujours pas à la consolidation des technologies, bien au contraire, témoignant que l'écosystème n'a pas atteint son pic de maturité. De nombreux domaines techniques sont toujours en plein bouillonnement d’innovation, comme le Streaming et l’Analytics. De plus en plus de solutions sont aujourd’hui en compétition, y compris sur des briques de la Core Stack comme le stockage (ex : Cloudera Kudu) et la sécurité (ex : Cloudera RecordService).

Face à cette atomisation croissante, les DSI ont 2 possibilités : faire les bons choix ou recourir à des abstractions multi-technologiques (ex : Talend, Apache Beam) avec un impératif dans tous les cas, être en mesure de maîtriser le TCO du picking technologique qu’est aujourd’hui le Big Data.

Stream processing, à pleine vapeur

Le stream processing (collecte et analyse au fil de l’eau des Big Data) a été l’un des sujets phares en accord avec ce que nous observons depuis plusieurs mois, à savoir l’émergence de multiples solutions encore inconnues ou inexistantes il y a quelques mois comme Apache Flink, Apache Beam et Kafka Streams. On observe aussi une popularisation des frameworks unifiants Stream et Batch processing tels que Flink et Beam.

Dans ce marché en pleine secousse, Apache Kafka s’impose pour l’instant comme le leader incontesté. Mieux ! Non satisfaits de n'avoir quasi aucune réelle concurrence à date, les ex-LinkedIn de Confluent entendent créer une Kafka-Stack menaçant directement sqoop, Flume, Spark Streaming, Storm…

Data Management, toujours à quai

Tendance clé, il y a peu, le Data Management pourtant essentiel peine en termes de solution technologique. On retrouve invariablement les mêmes acteurs dont les solutions stagnes ou évoluent peu : Cloudera, Collibra, Waterline… pour ne citer que les acteurs les plus en vue. Conséquence, les espoirs nés il y a quelques mois font place maintenant à l’inquiétude côté utilisateur.

Face à ce sur-place, les usagers qui ne peuvent pas attendre sont contraints de prendre les devants.
Ainsi, LinkedIn a construit sur son framework propriétaire Dali, qui assure le référencement des données, le lineage, et la gestion des contrats pour ses usages de Hive. EBay a reversé à la fondation Apache son framework Eagle qui s'attaque à la classification automatique des données et à la détection de patterns d'utilisation anormaux (nature d'accès, consommation CPU, volume stocké…) et leur blocage temps réel.

Cognitif, transactionnel sur Hadoop…, portés disparus

Certains sujets en tête d’affiche il y a encore quelques mois, au moins en terme de dénomination ont disparu. On peut citer ainsi le cognitif computing où à part certains usages spécifiques d'analyse de texte/vidéo se trouve noyé dans le Deep Learning. Ou encore le transactionnel sur Hadoop et le requêtage analytique submergés par les solutions autour de la data science, de l'analytique et du stream processing.

Laisser une réponse

*