Comment le big data et les data scientists valorisent l’Open Source

Ces dix dernières années l’infrastructure IT , a été rythmée par les larges évolutions introduites par l’Open Source, le Big Data y a largement contribué, grâce à l’émergence d’Hadoop, MongoDB, Spark ... L’Open Source domine à présent, et les Data Scientists accélèrent son évolution, pour traiter notamment les larges données induites par l’adoption de l’internet des objets.

Le dernier rapport annuel de LinkedIn portant sur 330 millions de profils utilisateurs, révèle que les profils en « Data Mining » et en analyse statistique ont été les plus demandés en 2014. De même les aptitudes liées au Big Data représentent un tiers du top-15 des compétences les plus sollicitées en 2014 d’après le réseau professionnel. Il n’est dès lors pas surprenant de voir de plus en plus d’entreprises embaucher des « Data Scientists » dans le but de tirer un avantage concurrentiel des données à leur disposition.


Si le coût de recrutement d’un «Data Scientist» est très élevé, certaines entreprises d’analytics à budget modéré recrutent pourtant sans hésiter ces profils spécifiques. En effet il est rentable pour certaines entreprises de s’offrir un « Data Scientist », dans le but de s’affranchir d’un écosystème de logiciels coûteux en migrant vers des environnements Open Source. Il s’agit là d’un des nouveaux leviers pour les entreprises « Data Driven » : réduire le budget des licences de logiciels et investir davantage sur des ressources humaines hautement qualifiées à même de déployer des solutions Open Source et compétitives. 






























En effet, en matière de Big Data, les grands éditeurs de logiciels que sont Microsoft Azur, SAP Hana et SAS ont souffert, et accumulés plusieurs trains de retard sur les solutions Open Source qui dominent ce marché évanescent depuis près d’une décennie. Comme le soulignait dernièrement Mike Olson, le Chief Strategy Officer de Cloudera : "Aucune des infrastructures dominantes qui ont émergé au cours des dix dernières années n’est 'closed source'." L’infrastructure IT a été rythmée par les larges évolutions introduites par l’Open Source et le Big Data y a largement contribué, grâce à l’émergence d’Hadoop, Cassandra, MongoDB, MySQL ou Spark. L’Open Source est souverain et une nouvelle vague d’évolution se prépare pour traiter les larges données induites par l’adoption de l’internet des objets.

Une étude publiée en Novembre par l’institut Ponemon nous éclaire quelque peu sur l’adoption de l’Open Source dans les départements ITs de grandes entreprises américaines et européennes. On y trouve quelques éléments illustratifs du changement de paradigme en cours dans le monde informatique. 

D’après l'étude de Ponemon, 30% des applications métiers utilisées par les entreprises américaines sont Open Source, le ratio est plus modeste en Europe il n’est que de 25%. Il est n’est pas surprenant de constater que l’adoption est plus prononcé aux Etats-Unis, et que les applications Open Source commerciales pèsent de plus en plus dans le bilan des entreprises. Ci-après quelques indications, sur les raisons motivant l’adoption accrue de l’Open Source:

• 74% des professionnels américains de l’IT croient que les logiciels Open Source commerciaux offrent une meilleure continuité et d’avantage de contrôle

• 66% des professionnels de l’IT aux États-Unis estiment que les logiciels Open Source commerciaux signifient moins de bugs, et 63% pensent qu'ils sont de meilleure qualité que les logiciels propriétaires

Ainsi la capacité de réduire les coûts n’est plus le principal point de différenciation pour les logiciels Open Source, selon les professionnels de l’IT aux Etats-Unis et Europe; la continuité des activités, le contrôle et la qualité sont les principaux avantages. Ce sont les raisons pour lesquelles les logiciels Open Source surpassent les logiciels propriétaires dans l'esprit des professionnels de l'informatique. Cette domination de l’Open source serait une des raisons de la démission forcée de l’ancien PDG de Microsoft, Steve Balmer, qui avait pris parti d’ignorer les solutions alternatives au milieu des années 2000.

Il y a donc une progression soutenue, mais cela ne signifie assurément pas que l’Open Source va dominer l’ensemble des applications d'entreprise dans un avenir proche. Après tout, 65% des personnes interrogées ont déclaré que la "facilité d'utilisation" était leur considération primordiale dans le choix d’applications, notamment pour les solutions de messagerie et de collaboration … En effet la facilité d'utilisation n’est généralement pas la force de l’Open Source, c’est là une limite qui pousse les entreprises à embaucher des « Data Scientists » pour déployer des plateformes à haute valeur ajoutée.

L'Open Source offre tout de même de nombreux avantages contrebalançant sa difficulté d’utilisation. Des aspects tels que la flexibilité, le coût et la précision des contrôles accélèrent l’adoption de l’Open Source au sein des infrastructures de l'entreprise. Comme l’analyse Alexander Linden de chez Gartner, malgré les efforts des sociétés spécialisées dans les analytics sous licences propriétaires, "un grand nombre de « Data Scientists » à la pointe, favorisent les langages Open Source (notamment Python et R) pour leurs analyses avancées."

Près de 70% des entreprises se considèrent comme étant en formation sur les applications du Big Data en raison de la complexité de la technologie. Pour ceux désireux et capables d'investir dans les « Data Scientists » les plus pointus, les technologies appropriées sont à disposition, pour faire du Big Data une source de différenciation concurrentielle significative. C’est encore un peu loin, pour l’ensemble des entreprises qu’elles soient « Data Driven » ou non.

Il sera intéressant d’observer les changements à venir en 2015 avec une intégration de plus en plus grande de ces technologies, dans le domaine privé mais aussi dans le domaine public via l’Open Gouvernement qui fera l’objet d’un nouveau billet prochainement.