Notre

blog

< Retour

Retour sur notre visite au salon Big Data & AI Paris 2024

Lors de notre visite au salon Big Data & IA Paris 2024, nous avons pu constater que les problématiques de gouvernance des données, de qualité des données et de démocratisation de leur accès restent des priorités pour les entreprises, qu’elles soient petites ou grandes.

Ces enjeux, qui façonnent l’avenir de la gestion des données, continuent de gagner en importance avec l’adoption croissante des solutions d’intelligence artificielle.

Gouvernance des données : des échanges enrichissants avec Data Galaxy

La gouvernance des données a, une fois de plus, occupé une place centrale lors des conférences et des rencontres au salon. Alors que les environnements de données se complexifient, il devient essentiel de s’assurer que les données sont bien gérées, accessibles et sécurisées, tout en respectant les cadres réglementaires comme le RGPD.

Un des moments marquants pour moi fut la rencontre avec l’équipe de Data Galaxy, plateforme de gouvernance des données que nous côtoyons chez Elosi.

Ce fut particulièrement plaisant de pouvoir échanger de visu avec leurs représentants sur les features demandées dans le cadre du feedback program. Ces discussions en face-à-face apportent une dimension humaine qui fait souvent défaut dans les échanges par visioconférence ou par mail.

Ces interactions directes nous ont permis de discuter de manière plus fluide des améliorations que nous souhaiterions voir, et d’obtenir des retours concrets sur les évolutions à venir. Une vraie opportunité de renforcer notre collaboration avec cet acteur clé dans notre stratégie de gouvernance des données.

Qualité des données : une priorité absolue pour l’IA

En matière de qualité des données, il est impératif de rappeler qu’une plateforme de gestion de données robuste et évolutive, couplée à des données de haute qualité, est un prérequis fondamental pour les projets d’intelligence artificielle.

Sans des données fiables, propres et représentatives, les modèles d’IA risquent de produire des résultats biaisés ou incorrects, ce qui peut avoir des répercussions majeures tant au niveau stratégique qu’éthique. Le salon a permis de découvrir plusieurs outils permettant d’assurer cette qualité, depuis l’automatisation des processus de nettoyage des données jusqu’à la validation et normalisation des jeux de données.

Les entreprises doivent s’assurer que leurs pipelines de données sont capables de supporter la scalabilité des projets IA et de répondre aux exigences croissantes en matière de précision des analyses et des prédictions.

Démocratisation de l’accès aux données : Dremio et Starbust en tête

La démocratisation de l’accès aux données est également restée au coeur des débats cette année. En effet, pour permettre à l’ensemble des collaborateurs d’accéder aux données et d’en tirer le meilleur parti, des solutions en libre-service se multiplient.

Parmi les solutions mises en avant au salon, Dremio et Starburst se distinguent. Ces deux plateformes permettent d’interroger des données de manière rapide et sécurisée, sans avoir à les déplacer, favorisant ainsi un accès démocratisé aux informations tout en garantissant la gouvernance et la sécurité des données.

Leur flexibilité et leurs performances les placent au sommet des solutions actuelles en matière de data mesh et de démocratisation des données.

Boomi une solution puissante d’intégration et de connectivité

Boomi a également suscité beaucoup d’intérêt lors du salon. Boomi est une plateforme d’intégration cloud (iPaaS) qui permet de connecter de manière fluide diverses applications, données et systèmes au sein d’une organisation.

Cet outil offre une intégration en temps réel, ce qui facilite la circulation des données entre différents systèmes d’information. Boomi se distingue par sa flexibilité et son approche modulaire, qui permettent aux entreprises d’intégrer rapidement de nouvelles sources de données tout en garantissant leur gouvernance.

Grâce à ses capacités d’automatisation et de gestion des flux de données, Boomi simplifie les processus d’intégration complexes, permettant aux équipes de mieux orchestrer et surveiller leurs environnements data, tout en garantissant une qualité et une sécurité optimales.

C’est un atout précieux pour toute entreprise cherchant à accélérer sa transformation numérique.

Rivery.io : un outil clé pour l’intégration et l’automatisation des données

Au cours du salon, Rivery.io a attiré notre attention. C’est une plateforme dédiée à l’intégration et à l’orchestration des données.

Rivery.io permet aux entreprises d’automatiser leurs pipelines de données et de centraliser l’ingestion, la transformation, et la gestion des données en temps réel. Grâce à son approche « no-code », cet outil se démarque en simplifiant les processus complexes d’intégration de données et en offrant une grande flexibilité.

Il permet aux équipes data de déployer rapidement des flux de données sans avoir à écrire de code, ce qui favorise la rapidité et l’agilité dans le traitement des données, tout en maintenant une gouvernance rigoureuse.

Rivery.io se révèle ainsi être un allié de choix pour les entreprises cherchant à optimiser leurs pipelines data dans un environnement en constante évolution.

À noter tout de même, que cet outil ne dispose pas encore de connecteurs Apache Kafka, Pulsar ou ActiveMQ, ni de connecteur DB2. Et la tarification se fait au poids de la donnée, donc il faut être en parfaite maitrise de ce qui circule au sein de son système d’information.

Une hausse des ateliers techniques

Cette année, j’ai noté avec satisfaction une augmentation du nombre d’ateliers techniques lors du salon Big Data & IA Paris. Ces sessions pratiques sont cruciales pour mieux appréhender les technologies émergentes et les méthodologies les plus avancées.

Cependant, bien que cette progression soit encourageante, le niveau technique global des ateliers n’atteint pas encore celui d’événements tels que Devoxx, qui demeure une référence en matière de conférences pour développeurs et experts techniques, notamment avec ses ateliers Deep Dive ou ses ateliers Hands-on Lab.

Un pas en avant a été fait, mais il reste encore du chemin à parcourir pour satisfaire pleinement les attentes des participants à la recherche d’une immersion technique approfondie.

Vers une centralisation des outils, mais attention au Vendor Lock-In

Une tendance de plus en plus visible est la centralisation des outils sur une seule et même plateforme capable de couvrir l’ensemble des besoins liés aux données : ingestion, gouvernance, restitution et gestion de la qualité des données. Cette approche, qui simplifie la gestion des données et améliore la collaboration entre les équipes, a été largement mise en avant par plusieurs exposants.

Cependant, cette centralisation pose également un risque majeur pour les entreprises : le vendor lock-in. Lorsque toutes les fonctionnalités critiques sont centralisées sur une seule plateforme, il devient extrêmement difficile et coûteux de changer de fournisseur par la suite.

Ce verrouillage technologique peut limiter la flexibilité des entreprises à long terme, surtout si le fournisseur en question n’évolue pas au même rythme que leurs besoins ou augmente ses prix.

Pour éviter ce piège, il est essentiel de choisir des plateformes qui favorisent l’interopérabilité, offrent des standards ouverts et permettent une transition fluide en cas de besoin de migration vers un autre fournisseur.

L’absence de MongoDB et Confluent : une surprise

Deux absences notables cette année fut celles de MongoDB et Confluent, acteurs incontournables des bases de données NoSQL et du streaming des données, qui avaient habituellement une forte présence au salon. Les raisons de ces absence restent floues, mais cela n’a pas empêché d’autres solutions de capter l’attention, notamment dans le domaine des bases de données distribuées et des systèmes de gestion de données massives.

Open Source : Docker Jekyll and Mister Hyde

Lors de cette édition du salon du Big Data , une tendance forte a retenu notre attention : le développement de projets open source soutenus par de grands éditeurs et, en contrepoint, l’abandon de certaines versions communautaires par d’autres acteurs du marché.

Ce contraste soulève des questions cruciales pour les entreprises, et notamment pour les ESN, s’appuyant sur des solutions open source pour répondre aux besoins de leurs clients. Faisons le point sur les projets qui contribuent à l’écosystème open source et sur les décisions de certains éditeurs d’abandonner leurs versions communautaires, une pratique qui pourrait remettre en question la pérennité de l’open source en entreprise.

Les projets Open Source soutenus : un pillier de l’innovation

La fondation Apache continue de jouer un rôle central en hébergeant des projets stratégiques qui bénéficient d’un soutien massif d’acteurs majeurs de l’industrie technologique. Parmi eux, on retrouve des projets comme Apache Polaris, Apache Iceberg et Trino. Ces solutions se distinguent par leur capacité à offrir des alternatives performantes et robustes aux solutions propriétaires (ou même à être une brique de ceux-ci tel que Dremio ou Starburst), avec un avantage clé : une collaboration communautaire qui garantit transparence, innovation rapide et flexibilité.

Apache Polaris : Ce projet est un catalog interoperable pour Apache Iceberg.
Apache Iceberg : Solution de gestion de données en temps réel conçue pour les datalakes, Iceberg facilite le stockage massif et l’accès rapide aux données de manière scalable.
Trino : Initialement connu sous le nom de PrestoSQL, Trino permet de faire des requêtes SQL sur des données distribuées, sans avoir à déplacer ces dernières, ce qui en fait un choix idéal pour des analyses big data performantes.

Ces projets bénéficient d’un soutien actif de la part d’entreprises telles que Netflix, Airbnb ou encore AWS, garantissant leur pérennité et une communauté d’utilisateurs dynamique et engagée. Ce soutien des éditeurs est rassurant pour ceux qui souhaitent démarrer des projets sur la base de ces technologies, avec l’assurance d’une roadmap solide et d’un écosystème bien développé.

L’abandon des versions communautaires

À l’inverse, certaines entreprises prennent une direction opposée. Talend et plus récemment CockroachDB, par exemple, ont décidé de mettre fin à leurs versions communautaires, se concentrant exclusivement sur leurs offres commerciales. Si cette approche leur permet de maximiser leur rentabilité, elle soulève une question légitime : peut-on encore faire confiance aux versions communautaires pour débuter certains projets ?

L’abandon des versions Community par ces éditeurs a des impacts concrets pour les utilisateurs :

Pérennité des projets : Les entreprises doivent se poser la question de l’avenir de leurs choix technologiques si l’éditeur décide d’abandonner ou de réduire le support de la version communautaire.
Dépendance accrue : Le risque de lock-in avec une version propriétaire augmente, limitant les options d’évolution vers d’autres solutions sans coûts importants.
Perte de flexibilité : Les versions communautaires permettent souvent d’expérimenter sans coûts, une option essentielle pour les entreprises innovantes et pour les startups qui n’ont pas encore les moyens d’investir dans des solutions payantes.

L’avenir de l’open source en question

Avec l’essor du big data et de l’IA, l’open source reste un choix stratégique pour les entreprises cherchant à conserver une flexibilité et une transparence dans leurs infrastructures. Mais les récentes décisions de certains éditeurs de tourner le dos à leurs versions communautaires soulignent l’importance d’un choix réfléchi lors de l’adoption de solutions open source.

En tant qu’ESN, notre mission est de guider nos clients vers des choix technologiques durables, et cela signifie aussi s’assurer que les projets open source sur lesquels nous nous appuyons bénéficient d’un support fiable, tant communautaire qu’éditeur. Il est donc essentiel de s’informer non seulement sur les fonctionnalités d’une solution mais aussi sur l’engagement de l’éditeur envers la version communautaire.

Notre retour du Salon Big Data Paris nous a permis d’affirmer l’importance de l’open source, mais aussi de constater que la confiance envers les versions communautaires dépendra de l’engagement des éditeurs. Avec des projets comme Apache Polaris, Iceberg et Trino, l’open source reste un domaine dynamique et prometteur, même si certains signaux récents suggèrent une plus grande prudence dans le choix des technologies pour des projets critiques.

Dans un monde où l’open source continue d’évoluer en parallèle des offres commerciales, il est de notre responsabilité de rester vigilants et informés pour garantir à nos clients des solutions robustes et durables.

En conclusion

Le salon Big Data & IA Paris 2024 a réaffirmé l’importance des 3 grands piliers que sont la gouvernance, la qualité et la démocratisation des données pour les entreprises d’aujourd’hui.

L’échange direct avec des acteurs comme Data Galaxy renforce encore davantage l’importance de ces rencontres en présentiel, apportant des perspectives inédites et des retours concrets.

Grâce aux solutions innovantes découvertes cette année, Elosi est en bonne voie pour consolider ses pratiques et accompagner efficacement ses clients dans leur transformation numérique.