Articles de blog

Machine Learning avec R et Prédictions

16 janvier 2020

Le « Machine Learning », ce terme que l’on entend partout, tout le monde en parle, tout le monde le veut, ça a l’air d’en faire rêver plus d’un ! Mais qu’est-ce que c’est au juste ? Pourquoi tant d’engouement ces dernières années pour cet « Apprentissage Machine » ? Et puis, à quoi ça sert au juste ? En ai-je besoin pour mon entreprise ? Tant de questions autour d’un concept.

Le Machine Learning est une branche de l’Intelligence Artificielle qui se base sur des méthodes statistiques et des algorithmes pour permettre aux machines (les ordinateurs) d’apprendre des données structurées du passé pour prédire, classifier ou détecter.

Quel en est le principe ? Si le terme « Machine Learning » a été introduit à partir de 1959 par Arthur Samuel, le principe sous-jacent est simple et prend ses bases théorique au XIXème siècle : entraîner un modèle sur des données historiques : ce qu’on appelle « l’apprentissage » et l’appliquer sur les nouvelles données : ce qu’on appelle « la prédiction ».

Qu’est-ce que le Machine Learning ?

Mais puisque le concept existe depuis aussi longtemps, pourquoi cet effet de mode ces dernières années seulement ? Et bien, trois révolutions se sont opérées en même temps et ont permis l’avènement du Machine Learning tel qu’on le connaît aujourd’hui :

La puissance de calcul des processeurs : Avec la miniaturisation et l’effet d’échelle de la production industrielle, la puissance de calcul disponible à prix constant n’a cessé de s’accroitre depuis l’avènement de l’informatique à un rythme exponentiel : x10 tous les 5,5 ans (Nordhaus). Les machines sont capables d’apprendre plus vite et pour moins cher.
La digitalisation des processus : Grace à la digitalisation de l’économie, le nombre d’informations numériques (Données) générées par les systèmes d’informations croit exponentiellement (+35% par an entre 2000 et 2020). Or, plus un modèle prédictif dispose de données pour apprendre, meilleures sera sa précision. De plus le coût de leur stockage est faible (~18€/To/mois) et les technologies de stockage plus adaptées facilitent l’exploitation des données à moindre coût.
La démocratisation des connaissances : Il y a quelques décennies, seuls les grands de ce monde maîtrisaient les systèmes et les outils de traitement du Machine Learning : IBM, Intel pour ne citer qu’eux. Aujourd’hui, les technologies sont disponibles gratuitement et pour tous grâce à l’Open source et les leaders du secteur partagent leur effort de R&D en open source. (Exemple : Tensorflow partagé par Google en 2015, pyTorch en 2016 et Prophet en 2018 par Facebook).

Qu’est-ce que les prédictions peuvent apporter à mon business ?

Quand on parle de prédictions, il s’agit d’estimer à un horizon donné, la probabilité d’un événement ou le niveau d’un indicateur en étudiant des données passées. C’est pour cela que le Machine Learning est applicable à de nombreux domaines, souvent centré sur les clients mais pas seulement : Prédictions de vente, de demande, d’affluence, de trafic, mais aussi de fraude, de publicité ciblée…

Quel que soit le métier et tant qu’on a des données en quantité et diversifiées, on peut faire du Machine Learning et prédire l’avenir proche ou plutôt estimer l’avenir avec un niveau de précision maitrisé, qui peut être assez fin si on a beaucoup de données explicatives et si le processus est prévisible ou régulier. Ces prédictions permettent entre autres d’optimiser la gestion de l’entreprise, en prenant des décisions appuyées sur de meilleures anticipations.

Quels outils choisir ?

Du fait du développement récent de cette discipline et du foisonnement open source, de nombreux outils existent et prolifèrent : R, Python, H2O, DataIku, SAS, Matlab, Stata, SPSS, Java, Keras, Tensorflow… Et il est parfois difficile d’y voir clair.Ces outils ne sont pas comparables : chaque outil a ses applications. Concernant les prévisions dans une approche open source, gratuite (Licence GPL) et ouverte, 2 langages adaptés aux analyses statistiques et au Machine Learning se sont imposés : Python et R.

Python est un langage de programmation plus généraliste, qui pourra être utilisé également pour d’autres tâche de programmation informatique. De fait, il est plutôt dédié à des utilisateurs disposant d’une orientation de programmeur. L’essor de Python dans la data science est récent (2016) et il dispose de moins de bibliothèques d’algorithmes « historiques » que R, mais il a su s’imposer en 3 ans comme un outil incontournable, notamment dans le domaine du deep learning.

R est un outil dédié initialement aux statisticiens qui existe depuis 1993 et dont le développement a été fortement accéléré dès les années 2000. Il dispose de la plus grande richesse fonctionnelle, est plus simple à utiliser pour un acteur statisticien ou métier mais son positionnement « Utilisateur » le rend plus complexe à industrialiser.

Pourquoi choisir R ?

Tout d’abord, nous considérons que l’aspect open source d’un outil de Machine Learning est un prérequis important car il prémunit contre les limitations des outils « propriétaires », dont le modèle de licence est souvent basé sur le volume de données ou la capacité du processeur, ce qui est un facteur extrêmement préjudiciable pour une activité qui a besoin d’une très grande puissance … mais très rarement. Ce qui guide naturellement vers l’utilisation de R ou Python.

Le choix entre R ou Python est un arbitrage lié à la richesse fonctionnelle (R disposant de plus d’algorithmes notamment sur les aspects de série temporelle), au caractère innovant (Python est actuellement plus actif en termes de développement) et au profil des utilisateurs (R convient mieux aux acteurs métier, là ou Python correspond mieux aux attentes des développeurs informatiques) ou au domaine d’étude (le Deep Learning impose l’utilisation de Python, alors que le machine learning est réalisable avec les 2 outils).

Se former avec Datasulting ?

L’Intelligence Artificielle, le Big Data & la digitalisation impactent aujourd’hui en profondeur les métiers et fonctions des entreprises. Ils sont les nouveaux enjeux de l’entreprise moderne et vecteurs de performance !

C’est pourquoi Datasulting, cabinet de conseil en valorisation des données, accompagne la performance des entreprises par l’exploitation du potentiel de leurs données depuis 2013. Son positionnement unique de « copilote des entreprises Data Driven » s’appuie sur plus de 15 ans d’expérience de ses associés fondateurs dans la Data, le Digital et le Retail, sur une méthodologie inspirée des plus grands cabinets de conseil et sur les dernières technologies en matière de Data Science et de Machine Learning.

Si vous souhaitez en savoir plus sur le Machine Learning avec R, Datasulting propose des formations régulières sur le sujet « Apprendre le Machine Learning avec R), soit en groupe, soit en entreprise, n’hésitez pas à contacter grâce au formulaire si dessous.

Vous souhaitez en savoir plus sur l’offre Data Science ?