Data Science, Machine learning, AI
BigData, Machine learning, Deep learning, AI, autant de termes qui font rêver. Tout le monde n’a que ces mots à la bouche. Mais quelle réalité se cache derrière ces termes compliqués? Dans cet article je tacherai de vous fournir quelques définitions afin de mieux s’y retrouver.
Le Big data ou mégadonnés en français est l’art d’exploiter de très grands volumes de données. Quand je parle de gros volumes de données, je parle là de Petabytes ( 1PB =1 000 000 Gb). Inutile d’essayer d’ouvrir ce genre de fichiers sur Excel, vous feriez sans aucun doute planter votre ordinateur. Il est nécessaire d’employer des technologies spéciales (comme Hadoop par exemple) pour gérer ces volumes de données.
Chez Orès Data Science, nous avons récemment travaillé sur un fichier de près de 20 millions de lignes. Quelle taille cela représentait selon vous? À peine 5 Gb alors imaginez un Pétabyte. Il est couramment admis que le Big-Data peut-être défini par la règle des 3V : Volume, Vélocité (analyses en temps réel ou en quasi temps réel) et Variété des sources de données (fichiers audio, textuels, vidéo…). Si vous voulez en savoir plus sur l’émergence des données massives consulter notre précédent article ici.
C’est une chose que de posséder de gros volumes de données, s’en est une autre d’en tirer profit. C’est là que la data science (science de données) entre en jeu. Le travail d’un data scientist est de faire « parler » les données, d’en extraire l’information et de détecter des patterns dans les données.
La science des données est à l’intersection entre les mathématiques, les statistiques, l’informatique et la gestion de bases de données. Certains se demandent peut-être quelle est la différence entre data-mining et science des données, et bien il n’y en a pas vraiment. Le « buzz word » data science a vu sa popularité exploser après que le Harvard Business Review ait qualifié le métier de data scientist comme « the Sexiest Job of the 21st Century ».
La science des données a recours à une multitude de techniques pour analyser les données, parmi ces techniques on retrouve le machine learning. Selon Arthur Samuel, l’apprentissage machine c’est : donner à l’ordinateur la « capacité d’apprendre sans être explicitement programmé pour cela ». Concrètement cela consiste à développer des algorithmes capables d’apprendre des données en se basant sur des exemples et éventuellement faire des prédictions. Les applications du machine learning sont vastes : segmentation, modèles prédictifs, analyse de données textuelles, …
On distingue deux principales catégories d’algorithmes de machine learning : les méthodes supervisées et non supervisées. Pour faire simple, dans le cas de l’apprentissage supervisé on demande à l’ordinateur de modéliser le comportement d’une variable (ou un ensemble de variables) choisie. Dans l’apprentissage non supervisé, on demande à l’ordinateur de trouver automatiquement des relations dans les données. Ainsi, la classification d’image est une méthode d’apprentissage non supervisé.
Pour la reconnaissance d’images, il s’agit d’une classe d’algorithmes particulière : le deep learning ou apprentissage profond. Ce terme vous dit sûrement quelque chose, il s’agit de la fine pointe de la recherche en data science et ces méthodes sont largement utilisées en intelligence artificielle. Le deep learning est une sous-catégorie du machine learning qui se concentre sur les réseaux de neurones profonds. Suivez bien notre blog car nous publierons prochainement un article sur ce sujet.
Une dernière petite définition? L’Intelligence Artificielle (AI). L’AI, c’est l’intégration d’algorithmes de machine learning dans le but d’automatiser la prise de décision. Concrètement, il s’agit de mettre au point des « agents intelligents » qui perçoivent leur environnement et prennent des actions dans le but d’atteindre un but précis. Cette définition vous fait peur? Pas de panique, on n’en est pas encore à Terminator, bien que certains chercheurs de Google prévoient la singularité (le moment où les ordinateurs seront plus intelligents que les humains) pour 2029. Quoi qu’il en soit, singularité ou non, il est certain que ces nouvelles technologies transformeront radicalement le monde (des affaires) tel que nous le connaissons.
J’espère que ces quelques définitions vous seront utiles. La prochaine fois que vous entendrez parler de deep learning et de levée de fond record, vous aurez une petite idée de ce dont il s’agit. Restez attentif pour ne pas manquer nos prochains articles.
Orèsement votre,
Hadrien Lautraite - CoFondateur à Orès Data Science