Utilisez la bibliothèque PandasAI Python pour tirer parti de la puissance de l'intelligence artificielle et des grands modèles de langage pour effectuer des tâches d'analyse de données.

Pandas est la bibliothèque la plus répandue pour manipuler des ensembles de données et des cadres de données. C'est la norme depuis longtemps. Mais avec les progrès de l'intelligence artificielle, une nouvelle bibliothèque open source appelée PandasAI est développée qui ajoute des capacités d'IA génératives à Pandas.

PandasAI ne remplace pas Pandas. Au lieu de cela, il donne ses capacités d'IA génératives. De cette façon, vous pouvez effectuer une analyse des données en discutant avec PandasAI. Il résume ensuite ce qui se passe en arrière-plan et vous fournit le résultat de votre requête.

Installation de PandasAI

PandasAI est disponible via PyPI (Python Package Index). Créer un nouvel environnement virtuel si vous utilisez un IDE local. Alors utiliser le gestionnaire de paquets pip pour l'installer.

pip installer pandasai
instagram viewer

Vous pouvez rencontrer une erreur de conflit de dépendance similaire à celle illustrée ci-dessous si vous utilisez Google Colab.

Ne rétrogradez pas la version IPython. Redémarrez simplement votre environnement d'exécution et exécutez à nouveau le bloc de code. Cela résoudra le problème.

Le code source complet est disponible dans un Référentiel GitHub.

Comprendre l'exemple de jeu de données

L'exemple d'ensemble de données que vous manipulerez avec PandasAI est l'ensemble de données sur les prix des logements en Californie de Kaggle. Cet ensemble de données contient des informations sur le logement issues du recensement californien de 1990. Il comporte dix colonnes qui fournissent des statistiques sur ces maisons. La carte de données pour vous aider à en savoir plus sur cet ensemble de données est disponible sur Kagglé. Vous trouverez ci-dessous les cinq premières lignes de l'ensemble de données.

Chaque colonne représente une seule statistique d'une maison.

Connecter PandasAI au grand modèle de langage

Pour connecter PandasAI à un grand modèle de langue (LLM) comme celui d'OpenAI, vous devez avoir accès à sa clé API. Pour en obtenir un, passez à la Plateforme OpenAI. Connectez-vous ensuite à votre compte. Sélectionner API sous la page d'options qui apparaît ensuite.

Après cela, cliquez sur votre profil et sélectionnez le Afficher les clés API option. Sur la page qui apparaît ensuite, cliquez sur Créer une nouvelle clé secrète bouton. Enfin, nommez votre clé API.

OpenAI générera votre clé API. Copiez-le car vous en aurez besoin lors de la connexion de PandasAI à OpenAI. Assurez-vous de garder la clé secrète car toute personne y ayant accès peut passer des appels à OpenAI en votre nom. OpenAI facturera alors votre compte pour les appels.

Maintenant que vous avez la clé API, créez un nouveau script Python et collez le code ci-dessous. Vous n'aurez pas besoin de modifier ce code car la plupart du temps, vous le développerez.

importer pandas comme pd
depuis pandasaï importer PandasAI

# Remplacer par votre jeu de données ou dataframe
df = pd.read_csv("/contenu/logement.csv")

# Instancier un LLM
depuis pandasai.llm.openai importer OpenAI
llm = OpenAI(api_token="votre jeton API")

pandas_ai = PandasAI(llm)

Le code ci-dessus importe à la fois PandasAI et Pandas. Il lit ensuite un jeu de données. Enfin, il instancie l'OpenAI LLM.

Vous êtes maintenant prêt à converser avec vos données.

Effectuer des tâches simples à l'aide de PandasAI

Pour interroger vos données, transmettez votre dataframe et votre invite à l'instance de la classe PandasAI. Commencez par imprimer les cinq premières lignes de votre jeu de données.

pandas_ai (df, invite='Quelles sont les cinq premières lignes de l'ensemble de données ?')

La sortie de l'invite ci-dessus est la suivante :

Cette sortie est identique à celle de la vue d'ensemble de l'ensemble de données précédente. Cela montre que PandasAI produit des résultats corrects et est fiable.

Ensuite, vérifiez le nombre de colonnes présentes dans votre jeu de données.

pandas_ai (df, invite='Combien y a-t-il de colonnes dans l'ensemble de données? ')

Il renvoie 10, qui est le nombre correct de colonnes dans l'ensemble de données California Housing.

Vérifier s'il y a des valeurs manquantes dans l'ensemble de données.

pandas_ai (df, invite='Y a-t-il des valeurs manquantes dans l'ensemble de données ?')

PandasAI renvoie que le total_chambres la colonne a 207 valeurs manquantes, ce qui est encore une fois correct.

Il y a beaucoup de tâches simples que vous pouvez réaliser en utilisant PandasAI, vous n'êtes pas limité à celles ci-dessus.

Exécution de requêtes complexes à l'aide de PandasAI

PandasAI ne prend pas seulement en charge des tâches simples. Vous pouvez également l'utiliser pour effectuer des requêtes complexes sur le jeu de données. Par exemple, dans l'ensemble de données sur le logement, si vous souhaitez déterminer le nombre de maisons situées sur un île, ont une valeur de plus de 100 000 dollars et ont plus de 10 chambres, vous pouvez utiliser l'invite dessous.

pandas_ai (df, invite= "Combien de maisons ont une valeur supérieure à 100 000 ?"
" sont sur une île et le nombre total de chambres est supérieur à 10 ?")

La sortie correcte est cinq. C'est le même résultat que PandasAI produit.

Les requêtes complexes peuvent prendre un certain temps à un analyste de données pour écrire et déboguer. L'invite ci-dessus ne prend que deux lignes de langage naturel pour accomplir la même tâche. Vous devez juste avoir à l'esprit exactement ce que vous voulez accomplir, et PandasAI s'occupera du reste.

Dessiner des graphiques avec PandasAI

Les graphiques sont une partie essentielle de tout processus d'analyse de données. Il aide les analystes de données à visualiser les données d'une manière conviviale. PandasAI dispose également d'une fonction de dessin de graphique. Il vous suffit de passer la dataframe et l'instruction.

Commencez par créer un histogramme pour chaque colonne de l'ensemble de données. Cela vous aidera à visualiser la distribution des variables.

pandas_ai (df, invite= "Tracer un histogramme pour chaque colonne de l'ensemble de données")

La sortie est la suivante :

PandasAI a pu dessiner l'histogramme de toutes les colonnes sans avoir à passer leurs noms dans l'invite.

PandasAI peut également tracer des graphiques sans que vous lui disiez explicitement quel graphique utiliser. Par exemple, vous souhaiterez peut-être connaître la corrélation des données dans l'ensemble de données sur le logement. Pour ce faire, vous pouvez passer une invite comme suit :

pandas_ai (df, invite= "Tracer la corrélation dans l'ensemble de données")

PandasAI trace une matrice de corrélation comme indiqué ci-dessous :

La bibliothèque choisit une carte thermique et trace une matrice de corrélation.

Transmission de plusieurs dataframes à l'instance PandasAI

Travailler avec plusieurs dataframes peut être délicat. Surtout pour une personne qui est novice en analyse de données. PandasAI comble cette lacune car tout ce que vous avez à faire est de transmettre les deux dataframes et de commencer à utiliser des invites pour manipuler les données.

Créez deux dataframes à l'aide de Pandas.

données_employés = {
'Identifiant de l'employé': [1, 2, 3, 4, 5],
'Nom': ['John', 'Emma', 'Liam', 'Olivie', 'William'],
'Département': ['HEURE', 'Ventes', 'IL', 'Commercialisation', 'Finance']
}

salaires_data = {
'Identifiant de l'employé': [1, 2, 3, 4, 5],
'Salaire': [5000, 6000, 4500, 7000, 5500]
}

employés_df = pd. DataFrame (employés_données)
salaires_df = pd. DataFrame (salaries_data)

Vous pouvez poser à PandasAI une question qui traverse les deux dataframes. Vous n'avez qu'à transmettre les deux dataframes à l'instance PandasAI.

pandas_ai([employés_df, salaires_df], « Quel employé a le plus gros salaire? »)

Il revient Olivier qui est encore une fois la bonne réponse.

L'analyse des données n'a jamais été aussi simple, PandasAI vous permet de discuter avec vos données et de les analyser facilement.

Comprendre la technologie qui alimente PandasAI

PandasAI simplifie le processus d'analyse des données, ce qui fait gagner beaucoup de temps aux analystes de données. Mais cela résume ce qui se passe en arrière-plan. Vous devez vous familiariser avec l'IA générative afin d'avoir une vue d'ensemble du fonctionnement de PandasAI sous le capot. Cela vous aidera également à suivre les dernières innovations dans le domaine de l'IA générative.