Les actifs de données volumineux sont désordonnés, en particulier lorsque vous devez les extraire de sites Web, de serveurs ou d'autres sources de données.

Les applications basées sur l'interface utilisateur telles que MS Excel sont idéales pour traiter des ensembles de données simples, mais peuvent rencontrer des difficultés lorsque les données deviennent plus volumineuses. C'est une bonne raison pour vous de passer à Python pour effectuer des opérations basées sur des données plus complexes.

La bibliothèque tierce de Python, Pandas, vous aide grandement à trier rapidement vos ensembles de données existants. Si vous cherchez à trier vos données en Python, cet article examine quelques façons d'accomplir cette tâche.

Conditions préalables à l'utilisation de Python pour trier des données

Avant de trier vos données en Python, vous devez prendre soin de quelques prérequis :

  • Télécharger un IDE Python. Vous pouvez utiliser un IDE compatible Python, tels que Jupyter Notebook, PyCharm et Spyder, entre autres. Chacun d'eux est compatible avec toutes les versions de Python.
  • instagram viewer
  • Installer des pandas. Vous aurez besoin du package pandas que vous pouvez installer en utilisant PIP ou votre méthode préférée.
  • Exemple d'ensemble de données. Télécharger un exemple de jeu de données pratiquer les codes énumérés. Alternativement, vous pouvez utiliser ces procédures sur vos données exclusives.

Importation de la bibliothèque Pandas en Python

Pandas est une bibliothèque Python tierce que vous pouvez utiliser pour gérer Excel, CSV et d'autres formats de données.

Pour travailler avec un exemple de fichier Excel, commencez par importer la bibliothèque pandas. Après cela, vous utiliserez le procédure d'importation pour lire les données Excel dans Python.

Pour importer la bibliothèque

importer pandas comme pd

Créer un nouveau DataFrame pour charger les données Excel

fichier = "Échantillon - Superstore.xls"
df = pd.read_excel (fichier)
df.tête()

Où:

  • df est un objet DataFrame qui stocke les données importées.
  • pd est un alias pour la bibliothèque Pandas.
  • lire_excel est une méthode pour lire le fichier Excel en Python.
  • dossier est un chemin vers le fichier Excel.
  • tête est une méthode qui renvoie les cinq premières lignes du DataFrame.

Une fois que votre programme a chargé les données, vous pouvez utiliser les nombreuses méthodes DataFrame disponibles pour les trier de différentes manières.

1. Trier par une seule colonne dans un DataFrame

Étant donné que vos données comporteront de nombreuses lignes et colonnes, vous souhaiterez souvent trier les données en fonction d'une ou plusieurs colonnes spécifiques.

Python trie les données par ordre croissant par défaut. Si vous souhaitez modifier l'ordre de tri, vous devez le mentionner explicitement dans votre code.

Trier par une seule colonne (ordre croissant)

df.sort_values ​​(par = "N ° de client")

Trier par une seule colonne (ordre décroissant)

Met le Ascendant paramètre à Faux pour trier votre colonne par ordre décroissant.

df.sort_values ​​(par = "N ° de client", croissant=Faux)

Où:

  • df est un objet DataFrame contenant les données.
  • sort_values est une méthode pour trier par valeurs de données.
  • par est un paramètre pour définir le nom de la colonne.
  • Ascendant est un paramètre pour définir l'ordre de tri.

2. Trier plusieurs colonnes dans un DataFrame

Si vos besoins l'exigent, vous pouvez également trier vos DataFrame (s) en fonction de plusieurs colonnes à la fois. Dans un tel scénario, vous devez définir les références de colonne dans une liste.

Trier par plusieurs colonnes croissantes

df.sort_values ​​(par = ["N ° de client", "Ville"])

Trier par plusieurs colonnes décroissantes

Utilisez la fonction croissant = Faux pour trier vos colonnes par ordre décroissant. N'oubliez pas que vous devez spécifier les noms des colonnes dans une liste pour les trier simultanément.

df.sort_values ​​(par = ["N ° de client", "Ville"], croissant = Faux)

Trier par plusieurs colonnes dans différents ordres de tri

Avec les bases du tri à l'écart, que se passe-t-il lorsque vous souhaitez trier une colonne par ordre décroissant et une autre par ordre croissant? Vous devez modifier légèrement votre code pour intégrer ces exigences.

Par exemple, pour trier les Région et Ville colonnes dans l'ordre décroissant et croissant, respectivement :

df.sort_values ​​(par = ["Région", "Ville"], croissant = [Faux, Vrai])

L'explication de ce code est simple; vous définissez le nom DataFrame et passez le sort_values fonction avec les noms de colonne dans une liste. Tu devrais utiliser booléen valeurs pour spécifier l'ordre de tri.

Appeler la fonction comme ceci signifie que Python triera d'abord la colonne Region du DataFrame dans l'ordre décroissant. Ensuite, les lignes avec une région identique seront encore triées par la colonne Ville, par ordre croissant.

3. Comment trier les colonnes d'un DataFrame par index

La variable d'index est la valeur par défaut attribuée à chaque ligne dans un Python Dataframe. Vous pouvez définir les valeurs d'index ou laisser Python définir lui-même une valeur d'index.

Pour trier les données par leur valeur d'index, vous pouvez utiliser le sort_index fonction. Cette fonction trie en fonction de l'index plutôt que des valeurs contenues dans l'ensemble de données d'origine.

df.sort_index()

Comme avec sort_values, vous pouvez passer un Ascendant paramètre pour spécifier le sens du tri. Par exemple, passez une valeur de Faux pour trier les données par ordre décroissant :

df.sort_index (croissant = Faux)

4. Trier des colonnes dans un DataFrame au lieu de lignes

Au lieu de trier les lignes dans un DataFrame, vous pouvez trier ses colonnes. Vous pouvez le faire en appelant la méthode sort_index et en lui passant un axe paramètre avec une valeur de 1:

df.sort_index (axe=1)

Cette étape trie le DataFrame, par ses colonnes, dans l'ordre croissant. Pour trier les colonnes du DataFrame par ordre décroissant, vous pouvez spécifier l'ordre de tri dans votre étape de tri.

df.sort_index (axe=1, croissant = Faux)

5. Modification du DataFrame lors du tri

Les deux méthodes de tri fonctionnent en renvoyant une copie des données d'origine, dans leur état nouvellement trié. Pour économiser de l'espace de stockage ou simplement pour écrire un code plus concis, vous pouvez modifier les données DataFrame d'origine à la place. Chaque méthode accepte un en place paramètre booléen qui modifie les données plutôt que de renvoyer une copie modifiée.

df.sort_values ​​(par = ["N ° de client", "Ville"], croissant = Faux, inplace = Vrai)

Apprendre à trier des données en Python

Python réplique de nombreuses fonctions intégrées d'Excel avec quelques lignes de code. Du tri des procédures à la création de tableaux croisés dynamiques élaborés sur vos données, vous le nommez et vous pouvez le faire en Python.

Si vous êtes encore novice en Python et que vous apprenez les ficelles du métier, ces étapes amélioreront vos compétences en codage relativement facilement.