Bienvenue dans la profession la plus sexy du siecle!
Ainsi donc, vous décidez de devenir un analyste de données ou peut-être que vous l’êtes déjà et souhaitez étendre votre référentiel d’outils. Cet article fournit un chemin d’apprentissage complet aux novices dans l’utilisation de python pour l’analyse de données. C’est un bref aperçu des étapes à suivre pour partir du simple développeur hobbyiste à un analyste confirmé. Si vous avez déjà des bases en programmation, vous n’avez pas besoin de suivre toutes ces étapes.
Les préalables
Avant de commencer, il est judicieux de répondre à la question “pourquoi python?”. C’est un langage multi-plateforme a la syntaxe légère, qui est aussi lisible et digeste qu’une langue humaine. Depuis quelques années, l’addition de nombreuses bibliothèques est venu l’enrichir pour en faire une référence pour l’analyse de données. Et comme le prouve le Data Science Report 2017, il est en passe de gagner le combat qui l’oppose à R comme langage de prédilection pour les analystes.
Cette vidéo de 15 minutes pourra aiguiser votre appétit…
Étape 1: Configuration de votre machine
Maintenant que vous avez décidé, il est temps de configurer votre machine. La façon la plus simple de procéder est de télécharger Anaconda. Il est livré avec la plupart des bibliothèques dont vous aurez besoin. Le principal inconvénient de cette option est que vous devrez attendre pour que Continuum fasse des mises a jours, même s’il y a une mise à jour disponible pour les bibliothèques sous-jacentes. Si vous êtes un débutant, cela ne devrait pas être un problème cependant.
Si vous rencontrez des difficultés lors de l’installation, vous pouvez trouver des instructions plus détaillées pour différents systèmes d’exploitation ici.
Étape 2: Apprenez les bases du langage Python
Vous devriez commencer par comprendre les bases du langage, des bibliothèques et structure de données. Le tutoriel Python interactif gratuit par DataCamp est l’un des meilleurs endroits pour commencer votre voyage. Ce cours de codage de 4 heures se concentre sur la façon de commencer avec Python pour l’analyse de données et, à la fin, vous devriez être à l’aise avec les concepts de base.
Si vous avez des soucis avec la langue de Shakespeare et souhaitez prendre un cours en francais, essayez ce tutoriel sur OpenClassrooms.
Autres ressources: Si le codage interactif n’est pas votre style d’apprentissage, vous pouvez également regarder Google Class for Python. C’est une série de cours de 2 jours et couvre également certaines des parties discutées plus tard.
Pareillement, l’Université du Michigan offre une spécialisation complète sur python sur la plateforme Coursera. Moyennant un petit effort financier, vous en sortez avec un joli certificat et des bases solides pour la suite.
Étape 3: Apprenez des expressions régulières en Python
Vous devrez les utiliser pour le nettoyage des données, surtout si vous travaillez sur des données textuelles. La meilleure façon d’apprendre les expressions régulières est de passer par ce didacticiel Google et de garder leurs fiches à portée de main.
La plupart des cours que vous suivrez auront toujours une section pour les expressions régulières.
Étape 4: Apprenez les bibliothèques scientifiques de Python - NumPy, SciPy, Matplotlib et Pandas
C’est là que commence le plaisir de manipuler les données sous python! Voici une brève introduction à diverses bibliothèques.
Cherchez un tutoriel sur NumPy: NumPy est une bibliothèque Python très populaire qui est principalement utilisée pour effectuer des calculs mathématiques et scientifiques.
Apprenez SciPy: La bibliothèque SciPy contient de nombreux outils pour les calculs scientifiques. Ses différents sous-modules correspondent à différentes applications scientifiques, telles que les méthodes d’interpolation, l’intégration, l’optimisation, l’imagerie, les statistiques, les fonctions mathématiques spéciales, etc.
Apprenez Matplotlib: Utilisée avec les autres, c’est une bibliothèque python qui permet de visualiser les données. Vous pouvez consulter un tutoriel rapide ici.
Enfin, étudiez Pandas. Pandas fournit la fonctionnalité DataFrame
(l’equivalent de data.frame
sur R
) pour Python. Cette bibliothèque intégre et complète les fonctionnalités de Numpy et Matplotlib pour donner un outil d’analyse puissant. Vous pouvez consulter cette introduction a pandas comme mise en bouche.
Ressources additionnelles:
Si vous avez besoin d’un livre sur Pandas et NumPy, consultez Python for Data Analysis de Wes McKinney
Il existe de nombreux tutoriels dans le cadre de la documentation de Python. Vous pouvez les examiner ici.
Étape 5: Apprenez Scikit-learn pour l’apprentissage automatique
Scikit-learn est la bibliothèque la plus utile sur python pour l’apprentissage automatique (machine learning en anglais). Après la collecte, le nettoyage et l’exploration de vos données, vous avez parfois besoin de modélisation statistique. C’est à ce niveau qu’intervient cette bibliothèque. Voici un cours qui peut vous aider.
L’Université du Michigan offre une spécialisation de niveau intermédiaire qui aborde tous ces aspects.
Mais au delà de tout, il faut savoir que c’est la pratique qui vous permettra d’affiner votre expertise.
Citation
@online{bodiong2023,
author = {BODIONG, Georges},
title = {Vous Souhaitez Devenir Analyste de Données?},
date = {2023-09-28},
url = {https://deebodiong.quarto.pub/posts/2023-09-28-data-science-roadmap/},
langid = {en}
}