La bibliothèque pandas facilite la science des données basée sur python. C'est une bibliothèque Python populaire pour la lecture, la fusion, le tri, le nettoyage des données, etc. Bien que pandas soit facile à utiliser et à appliquer sur des ensembles de données, il a de nombreuses fonctions de manipulation de données à apprendre.
Vous pouvez utiliser des pandas, mais il y a de fortes chances que vous les sous-utilisiez pour résoudre les problèmes liés aux données. Voici notre liste de fonctions de pandas manipulant des données précieuses que tout scientifique des données devrait connaître.
Installez des pandas dans votre environnement virtuel
Avant de continuer, assurez-vous d'installer les pandas dans votre environnement virtuel à l'aide de pip :
pip installer des pandas
Après l'avoir installé, importez pandas en haut de votre script, et continuons.
1. pandas. Trame de données
Tu utilises pandas. Trame de données() pour créer un DataFrame dans les pandas. Il y a deux façons d'utiliser cette fonction.
Vous pouvez former un DataFrame par colonne en passant un dictionnaire dans le pandas. Trame de données() une fonction. Ici, chaque clé est une colonne, tandis que les valeurs sont les lignes :
importer des pandas
DataFrame = pandas. DataFrame({"A": [1, 3, 4], "B": [5, 9, 12]})
imprimer (DataFrame)
L'autre méthode consiste à former le DataFrame sur les lignes. Mais ici, vous séparerez les valeurs (éléments de ligne) des colonnes. Le nombre de données dans chaque liste (données de ligne) doit également correspondre au nombre de colonnes.
importer des pandas
DataFrame = pandas. DataFrame([[1, 4, 5], [7, 19, 13]], colonnes= ["J", "K", "L"])
imprimer (DataFrame)
2. Lire depuis et écrire vers Excel ou CSV dans les pandas
Vous pouvez lire ou écrire dans des fichiers Excel ou CSV avec des pandas.
Lecture de fichiers Excel ou CSV
Pour lire un fichier Excel :
#Remplacez example.xlsx par le chemin de votre fichier Excel
DataFrame = DataFrame.read_excel("exemple.xlsx")
Voici comment lire un fichier CSV :
#Remplacez example.csv par le chemin de votre fichier CSV
DataFrame = DataFrame.read_csv("exemple.csv")
Écriture sur Excel ou CSV
Écrire sur Excel ou CSV est une opération bien connue des pandas. Et c'est pratique pour enregistrer les tables nouvellement calculées dans des feuilles de données distinctes.
Pour écrire dans une feuille Excel :
DataFrame.to_excel("full_path_of_the_destination_folder/filename.xlsx")
Si vous souhaitez écrire au format CSV :
DataFrame.to_csv("full_path_of_the_destination_folder/filename.csv")
Vous pouvez également calculer les tendances centrales de chaque colonne d'un DataFrame à l'aide de pandas.
Voici comment obtenir la valeur moyenne de chaque colonne :
DataFrame.mean()
Pour la valeur médiane ou de mode, remplacez moyenne() avec médian() ou mode().
4. DataFrame.transform
des pandas DataFrame.transform() modifie les valeurs d'un DataFrame. Il accepte une fonction comme argument.
Par exemple, le code ci-dessous multiplie chaque valeur dans un DataFrame par trois en utilisant La fonction lambda de Python:
DataFrame = DataFrame.transform (lambda y: y*3)
imprimer (DataFrame)
5. DataFrame.isnull
Cette fonction renvoie une valeur booléenne et marque toutes les lignes contenant des valeurs nulles comme Vrai:
DataFrame.isnull()
Le résultat du code ci-dessus peut être difficile à lire pour des ensembles de données plus volumineux. Vous pouvez donc utiliser le isnull().sum() fonction à la place. Cela renvoie un résumé de toutes les valeurs manquantes pour chaque colonne :
DataFrame.isnull().sum()
6. Dataframe.info
le Info() la fonction est une opération essentielle des pandas. Il renvoie à la place le résumé des valeurs non manquantes pour chaque colonne :
DataFrame.info()
7. DataFrame.describe
le décris() La fonction vous donne la statistique récapitulative d'un DataFrame :
DataFrame.describe()
8. DataFrame.replace
En utilisant le DataFrame.replace() méthode dans les pandas, vous pouvez remplacer les lignes sélectionnées par d'autres valeurs.
Par exemple, pour échanger des lignes invalides avec Nan:
# Assurez-vous que vous pip installez numpy pour que cela fonctionne
importer numpy
importer des pandas
# L'ajout d'un mot-clé en place et sa définition sur True rend les modifications permanentes :
DataFrame.replace([invalid_1, invalid_2], numpy.nan, inplace=True)
imprimer (DataFrame)
9. DataFrame.fillna
Cette fonction vous permet de remplir des lignes vides avec une valeur particulière. Vous pouvez tout remplir Nan lignes dans un ensemble de données avec la valeur moyenne, par exemple :
DataFrame.fillna (df.mean(), inplace = True)
imprimer (DataFrame)
Vous pouvez également être spécifique à une colonne :
DataFrame['column_name'].fillna (df[column_name].mean(), inplace = True)
imprimer (DataFrame)
10. DataFrame.dropna
le dropna() La méthode supprime toutes les lignes contenant des valeurs nulles :
DataFrame.dropna (inplace = True)
imprimer (DataFrame)
11. DataFrame.insert
Vous pouvez utiliser des pandas insérer() fonction pour ajouter une nouvelle colonne à un DataFrame. Il accepte trois mots-clés, le nom de colonne, une liste de ses données, et ses emplacement, qui est un index de colonne.
Voici comment cela fonctionne :
DataFrame.insert (colonne = 'C', valeur = [3, 4, 6, 7], loc=0)
imprimer (DataFrame)
Le code ci-dessus insère la nouvelle colonne à l'index de colonne zéro (elle devient la première colonne).
12. DataFrame.loc
Vous pouvez utiliser loc pour trouver les éléments dans un index particulier. Pour afficher tous les éléments de la troisième ligne, par exemple :
DataFrame.loc[2]
13. DataFrame.pop
Cette fonction vous permet de supprimer une colonne spécifiée d'un DataFrame pandas.
Il accepte un Objet mot-clé, renvoie la colonne sautée et la sépare du reste du DataFrame :
DataFrame.pop (item= 'nom_colonne')
imprimer (DataFrame)
14. DataFrame.max, min
Obtenir les valeurs maximales et minimales à l'aide de pandas est facile :
DataFrame.min()
Le code ci-dessus renvoie la valeur minimale pour chaque colonne. Pour obtenir le maximum, remplacez min avec max.
15. DataFrame.join
le rejoindre() La fonction de pandas vous permet de fusionner des DataFrames avec des noms de colonnes différents. Vous pouvez utiliser la jointure gauche, droite, interne ou externe. Pour joindre à gauche un DataFrame avec deux autres :
#Joindre à gauche des colonnes plus longues avec des colonnes plus courtes
newDataFrame = df1.join([df_shorter2, df_shorter3], how='left')
imprimer (newDataFrame)
Pour joindre des DataFrames avec des noms de colonnes similaires, vous pouvez les différencier en incluant un suffixe à gauche ou à droite. Pour ce faire, en incluant le lsuffixe ou suffixe mot-clé:
newDataFrame = df1.join([df2, rsuffix='_', how='outer')
imprimer (newDataFrame)
16. DataFrame.combine
le combiner() La fonction est pratique pour fusionner deux DataFrames contenant des noms de colonnes similaires en fonction de critères définis. Il accepte un une fonction mot-clé.
Par exemple, pour fusionner deux DataFrames avec des noms de colonnes similaires basés uniquement sur les valeurs maximales :
newDataFrame = df.combine (df2, numpy.minimum)
imprimer (newDataFrame)
Noter: Vous pouvez également définir une fonction de sélection personnalisée et insérer numpy.minimum.
17. DataFrame.astype
le astype() La fonction modifie le type de données d'une colonne ou d'un DataFrame particulier.
Pour changer toutes les valeurs d'un DataFrame en chaîne, par exemple :
DataFrame.astype (str)
18. DataFrame.sum
le somme() la fonction dans pandas renvoie la somme des valeurs dans chaque colonne :
DataFrame.sum()
Vous pouvez également trouver la somme cumulée de tous les éléments en utilisant cums ():
DataFrame.cumsum()
19. DataFrame.drop
des pandas tomber() La fonction supprime des lignes ou des colonnes spécifiques dans un DataFrame. Vous devez fournir les noms de colonne ou l'index de ligne et un axe pour l'utiliser.
Pour supprimer des colonnes spécifiques, par exemple :
df.drop (colonnes=['colum1', 'column2'], axe=0)
Pour supprimer des lignes sur les index 1, 3 et 4, par exemple :
df.drop([1, 3, 4], axe=0)
20. DataFrame.corr
Vous voulez trouver la corrélation entre les colonnes entières ou flottantes? les pandas peuvent vous aider à y parvenir en utilisant le corr() une fonction:
DataFrame.corr()
Le code ci-dessus renvoie un nouveau DataFrame contenant la séquence de corrélation entre toutes les colonnes entières ou flottantes.
21. DataFrame.add
le ajouter() La fonction vous permet d'ajouter un nombre spécifique à chaque valeur dans DataFrame. Il fonctionne en itérant à travers un DataFrame et en opérant sur chaque élément.
En rapport:Comment utiliser les boucles For en Python
Pour ajouter 20 à chacune des valeurs d'une colonne spécifique contenant des entiers ou des flottants, par exemple :
DataFrame['interger_column'].add (20)
22. DataFrame.sub
Comme la fonction d'addition, vous pouvez également soustraire un nombre de chaque valeur dans un DataFrame ou une colonne spécifique :
DataFrame['interger_column'].sub (10)
23. DataFrame.mul
Ceci est une version de multiplication de la fonction d'addition des pandas :
DataFrame['interger_column'].mul (20)
24. DataFrame.div
De même, vous pouvez diviser chaque point de données dans une colonne ou un DataFrame par un nombre spécifique :
DataFrame['interger_column'].div (20)
25. DataFrame.std
En utilisant le std() fonction, pandas vous permet également de calculer l'écart type pour chaque colonne dans un DataFrame. Il fonctionne en itérant dans chaque colonne d'un ensemble de données et en calculant l'écart type pour chacune :
DataFrame.std()
26. DataFrame.sort_values
Vous pouvez également trier les valeurs par ordre croissant ou décroissant en fonction d'une colonne particulière. Pour trier un DataFrame par ordre décroissant, par exemple :
newDataFrame = DataFrame.sort_values (by = "colmun_name", descendant = True)
27. DataFrame.melt
le faire fondre() La fonction dans les pandas retourne les colonnes d'un DataFrame en lignes individuelles. C'est comme exposer l'anatomie d'un DataFrame. Il vous permet donc d'afficher explicitement la valeur attribuée à chaque colonne.
newDataFrame = DataFrame.melt()
28. DataFrame.count
Cette fonction renvoie le nombre total d'éléments dans chaque colonne :
DataFrame.count()
29. DataFrame.query
des pandas requete() vous permet d'appeler des éléments à l'aide de leur numéro d'index. Pour obtenir les éléments de la troisième ligne, par exemple :
DataFrame.query('4') # Appeler la requête sur le quatrième index
30. DataFrame.where
le où() fonction est une requête pandas qui accepte une condition pour obtenir des valeurs spécifiques dans une colonne. Par exemple, pour obtenir tous les âges de moins de 30 ans d'un Âge colonne:
DataFrame.where (DataFrame['Âge'] < 30)
Le code ci-dessus génère un DataFrame contenant tous les âges inférieurs à 30 mais attribue Nan aux lignes qui ne remplissent pas la condition.
Gérez les données comme un pro avec les pandas
pandas est un trésor de fonctions et de méthodes pour gérer des ensembles de données de petite à grande échelle avec Python. La bibliothèque est également pratique pour nettoyer, valider et préparer les données pour l'analyse ou l'apprentissage automatique.
Prendre le temps de le maîtriser vous facilite définitivement la vie en tant que data scientist, et cela en vaut la peine. Alors n'hésitez pas à choisir toutes les fonctions que vous pouvez gérer.
La bibliothèque standard Python contient de nombreuses fonctions pour vous aider dans vos tâches de programmation. Découvrez les plus utiles et créez un code plus robuste.
Lire la suite
- La programmation
- Python
- La programmation
- base de données

Idowu est passionné par tout ce qui concerne les technologies intelligentes et la productivité. Pendant son temps libre, il joue avec le codage et passe à l'échiquier quand il s'ennuie, mais il aime aussi de temps en temps rompre avec la routine. Sa passion pour montrer aux gens la voie à suivre avec la technologie moderne le motive à écrire davantage.
Abonnez-vous à notre newsletter
Rejoignez notre newsletter pour des conseils techniques, des critiques, des ebooks gratuits et des offres exclusives !
Cliquez ici pour vous abonner