Apprentissage machine pour la science des données

Du lundi 7 octobre 2024 au jeudi 10 octobre 2024

Formation

FORMATION COMMUNE CERFACS/INSA Toulouse

Le Cerfacs est certifié Qualiopi pour ses actions de formation

4 jours / 27 heures

Session en présentiel

Indice de satisfaction

En octobre 2023 100% des participants étaient satisfaits ou très satisfaits

(résultats recueillis auprès de 14 répondants sur 15 participants, soit un taux de réponse de 93%)

Témoignage

Cela reste l’une des meilleures sessions de formation à laquelle j’ai participé au cours de mon cursus universitaire. Tous les doctorants devraient suivre une formation similaire au début de leur doctorat, et je pense que tous les étudiants en master en ont également besoin, quel que soit leur domaine (J., 2023)

Je recommanderais cette formation à mes collègues (V., 2023)

Merci beaucoup d’avoir partagé toutes vos connaissances d’une si bonne manière. (D., 2023)

Descriptif

Cette formation permet aux participants de consolider leurs bases théoriques et pratiques pour comprendre et mettre en œuvre les algorithmes d'apprentissage machine. Elle comporte la présentation des principales méthodes d'analyse statistique des données, autant sur un plan exploratoire (apprentissage non supervisé) que prédictif (apprentissage supervisé). Chaque méthode est d'abord présentée et commentée théoriquement, avant d'être illustrée numériquement sur des jeux de données sur les logiciels R et/ou python/scikit-learn.

Objectif de la formation

Connaître les principaux algorithmes d'analyse automatique des données et savoir les mettre en œuvre avec R et python/scikit-learn.

Objectif pédagogique

A l'issue de la formation, les participants devront être capables de :

reconnaître le type de problème qui leur est posé (apprentissage supervisé, non supervisé, par renforcement, séquentiel, etc.) ;
connaître et choisir un ou plusieurs algorithmes adaptés au traitement de ce problème ;
mettre en œuvre cet algorithme dans un environnement de travail R ou python.

Modalités pédagogiques

La formation est une alternance d’exposés théoriques et de travaux pratiques. Un QCM permet l’évaluation finale. La salle de formation est équipée d’ordinateurs, le travail peut se faire en sous-groupe de deux personnes.

Formateur référent : Béatrice LAURENT BONNEAU

Public cible

Ce cours s’adresse aux ingénieurs et informaticiens désirant consolider ou étendre leurs connaissances théoriques et pratiques de l'analyse automatique de données avec les algorithmes d'apprentissage automatique.

Pré-requis

Être salarié d’une entreprise européenne; une attestation de l’employeur est demandée.
Etre diplômé Bac + 5 ou plus
Connaissance de base statistique : probabilités élémentaires, tests statistiques, modèle linéaire gaussien.
Connaissance de base en algorithmique et programmation.
Installer Python 2.7 avec Anaconda, R 3.4.2 et IRkernel. Accès à internet lors de la session pour les éventuelles mises à jour et chargement de librairies manquantes.
La formation peut avoir lieu en anglais ou en français selon l’auditoire, un niveau B2 sur l’échelle européenne CECRL est exigé.

Afin de s'assurer que les prérequis sont bien satisfaits, nous vous prions de bien vouloir répondre au questionnaire suivant. Vous devez obtenir 75% de bonnes réponses pour vous inscrire à cette formation.

Questionnaire 1 : https://goo.gl/forms/xL86TzPDFOC5r7ln1

Inscription

Après avoir effectué le test de pré-requis et obtenu au moins 75% de bonnes réponses, vous pouvez vous inscrire : ici

Avant de vous inscrire, merci de nous signaler toutes contraintes particulières dont vous souhaiteriez nous faire part (horaires, santé, indisponibilité…) à l'adresse e-mail suivante : training@cerfacs.fr

Limite d'inscription : 15 jours avant le début de la formation

Tarifs

Cette formation, financée dans le cadre du projet européen EuroCC2, est gratuite et réservée aux salariés des entreprises membres de l’Union Européenne. Elle est normalement au prix catalogue de 2520 € HT.

Néanmoins, votre inscription est conditionnée au versement d’une caution de 200 Euros. Cette somme vous sera restituée en fin de formation si votre participation a bien été effective. Sinon, elle sera conservée en compensation du préjudice causé en laissant inutilement des personnes sur liste d’attente.

Programme

De 9h30 à 13h00 et de 14h00 à 17h15. Matin : cours. Après-midi : travaux pratiques.

Jour 1

Présentation générale de l'apprentissage statistique et de ses grands problèmes. Positionnement par rapport à la statistique classique et au machine learning.
Apprentissage non-supervisé
> Analyse en Composantes Principales
> Classification ascendante hiérarchique
> k-means, k-medoids et variantes
> évocation d'autres méthodes : affinity propagation, dbscan, etc.

Jour 2

Apprentissage supervisé 1/2 :
> k plus proches voisins
> Modèle linéaire gaussien et logistique, sélection de modèles
> Lasso et variantes
> Support Vector Machines

Jour 3

Apprentissage supervisé 2/2 :
> Arbres de décision
> Bagging, Forêts aléatoires, Boosting
> Réseaux de neurones, deep learning

Jour 4

Apprentissage séquentiel, problèmes de bandits multi-bras
Super-learning et agrégation d'experts
Apprentissage par renforcement

Examen final

Un examen final aura lieu à la fin de la formation.

Evaluation des acquis