Pour analyser un ensemble de données, vous devez d'abord comprendre les données. Parfois, vous n'avez peut-être aucune connaissance préalable d'un ensemble de données, ce qui vous empêche d'en tirer le meilleur parti. En tant qu'analyste de données, vous pouvez utiliser l'analyse exploratoire des données (EDA) pour acquérir des connaissances sur votre ensemble de données avant une analyse approfondie.

L'analyse exploratoire des données (EDA) étudie un ensemble de données pour obtenir des informations significatives. Le processus d'exécution de l'EDA implique de demander des informations sur la structure et le contenu d'un ensemble de données.

Installation du paquet Gota

Le forfait Gota est le plus populaire pour l'analyse des données au Go; c'est comme le Paquet Python Pandas mais pour Go. Le package Gota contient de nombreuses méthodes pour analyser les ensembles de données et lire les formats JSON, CSV et HTML.

Exécutez cette commande sur votre terminal dans le répertoire où vous avez initialisé un fichier de module Go :

instagram viewer
aller obtenir -u github.com/aller-gota/gota

La commande installera Gota dans le répertoire local, prêt à importer le package pour l'utiliser.

Tout comme Pandas, Gota prend en charge les opérations de séries et de dataframes. Il y a deux sous-packages dans le package Gota: la série et le package dataframe. Vous pouvez importer l'un ou les deux, selon vos besoins.

importer (
"github.com/aller-gota/gota/série"
"github.com/aller-gota/gota/dataframe"
)

Lecture d'un ensemble de données à l'aide du package Gota

Vous pouvez utiliser n'importe quel fichier CSV que vous aimez, mais les exemples suivants montrent les résultats de un jeu de données Kaggle, contenant des données sur les prix des ordinateurs portables.

Gota vous permet de lire les formats de fichiers CSV, JSON et HTML pour créer des cadres de données à l'aide de LireCSV, LireJSON, et LireHTML méthodes. Voici comment charger un fichier CSV dans un objet dataframe :

fichier, erreur := os. Ouvrir("/chemin/vers/fichier-csv.csv")

si erreur != néant {
fmt. Println("erreur d'ouverture de fichier")
}

dataFrame := dataframe. LireCSV(fichier)
fmt. Println (dataFrame)

Vous pouvez utiliser le Ouvert méthode de la os package pour ouvrir un fichier CSV. La méthode ReadCSV lit l'objet fichier et renvoie un objet dataframe.

Lorsque vous imprimez cet objet, la sortie est dans un format tabulaire. Vous pouvez encore manipuler l'objet dataframe en utilisant les différentes méthodes fournies par Gota.

L'objet n'imprimera que certaines des colonnes si un jeu de données a plus qu'une valeur définie.

Récupération de la dimension du jeu de données

Les dimensions d'un dataframe sont le nombre de lignes et de colonnes qu'il contient. Vous pouvez récupérer ces dimensions à l'aide de la Estompe méthode de l'objet dataframe.

var lignes, colonnes = dataFrame. Estompe()

Remplacez l'une des variables par un trait de soulignement pour extraire uniquement l'autre dimension. Vous pouvez également interroger le nombre de lignes et de colonnes individuellement, à l'aide de la Nrow et Ncol méthodes.

var lignes = dataFrame. Nrow()
var colonnes = dataFrame. Ncol()

Récupération des types de données des colonnes

Vous devez connaître les types de données composites dans les colonnes d'un ensemble de données pour l'analyser. Vous pouvez les récupérer en utilisant le Les types méthode de votre objet dataframe :

var types = dataFrame. Les types()
fmt. Imprimerln (types)

La méthode Types renvoie une tranche contenant les types de données de la colonne :

Récupération des noms de colonnes

Vous aurez besoin des noms de colonne pour sélectionner des colonnes spécifiques pour les opérations. Vous pouvez utiliser le Des noms méthode pour les récupérer.

var ColumnNames := dataFrame. Des noms()
fmt. Println (NomsColonnes)

La méthode Names renvoie une tranche des noms de colonne.

Vérification des valeurs manquantes

Vous pouvez avoir un ensemble de données contenant des valeurs nulles ou non numériques. Vous pouvez vérifier ces valeurs à l'aide de la HasNaN et EstNaN méthodes d'un objet série :

aCol := dataFrame. Col("taille_affichage")
var aNull = aCol. HasNaN()
var n'est pasNuméro = aCol. EstNaN()

HasNan vérifie si une colonne contient des éléments nuls. IsNaN renvoie une tranche de booléens indiquant si chaque valeur de la colonne est un nombre.

Effectuer une analyse statistique descriptive

Analyse statistique descriptive vous aide à comprendre la distribution des colonnes numériques. En utilisant le Décris méthode, vous pouvez générer une analyse statistique descriptive de votre ensemble de données :

description := dataFrame. Décris()
fmt. Imprimerln (description)

La méthode Describe renvoie des mesures telles que la moyenne, l'écart type et les valeurs maximales des colonnes d'un ensemble de données. Il les résume sous forme de tableau.

Vous pouvez également être précis et vous concentrer sur les colonnes et les métriques en sélectionnant une colonne particulière, puis en recherchant la métrique souhaitée. Vous devez d'abord récupérer la série représentant une colonne spécifique, puis utiliser ses méthodes comme suit :

aCol := dataFrame. Col("taille_affichage")
var moyenne = aCol. Moyenne()
var médiane = aCol. Médian()
var minimum = aCol. Mini()
var standardDeviation = aCol. StdDev()
var maximum = aCol. Max()
var quantiles25 = aCol. Quantile(25.0)

Ces méthodes reflètent les résultats de l'analyse statistique descriptive effectuée par Describe.

Récupérer les éléments d'une colonne

L'une des tâches finales que vous souhaiterez effectuer consiste à vérifier les valeurs d'une colonne pour un aperçu général. Vous pouvez utiliser le Dossiers méthode pour afficher les valeurs d'une colonne.

aCol := dataFrame. Col("marque")
fmt. Println (aCol. Enregistrements())

Cette méthode renvoie une tranche de chaînes contenant les valeurs de la colonne sélectionnée :

Exportation d'une trame de données Gota vers un fichier

Si vous choisissez d'aller plus loin et d'utiliser le package Gota pour une analyse complète des données, vous devrez enregistrer les données dans des fichiers. Vous pouvez utiliser le ÉcrireCSV et WriteJSON méthodes de dataframe pour exporter des fichiers. Les méthodes prennent dans un fichier que vous allez créer en utilisant le os paquets Créer méthode.

Voici comment exporter une trame de données à l'aide du package Gota.

dataFrame := dataframe. LireCSV(fichier)
outputFile, err := os. Créer("sortie.csv")

si erreur != néant {
Journal. Fatal (erreur)
}

erreur = dataFrame. WriteCSV (fichier de sortie)

si erreur != néant {
Journal. Fatalln("Une erreur s'est produite lors de l'écriture du contenu de la trame de données dans le fichier")
}

La trame de données variable est une représentation de la trame de données. Lorsque vous utilisez le Créer méthode de la os package, il crée un nouveau fichier vide avec le nom spécifié et renvoie le fichier. La méthode WriteCSV prend l'instance de fichier et renvoie une erreur ou néant s'il n'y a pas d'erreur.

L'analyse exploratoire des données est importante

Une compréhension des données et des ensembles de données est essentielle pour les analystes de données et les spécialistes de l'apprentissage automatique. Il s'agit d'une opération critique dans leur cycle de travail, et l'analyse exploratoire des données est l'une des techniques qu'ils utilisent pour y parvenir.

Il y a plus dans le forfait Gota. Vous pouvez l'utiliser pour diverses fonctions de gestion des données de la même manière que vous utiliseriez la bibliothèque Python Pandas pour l'analyse des données. Cependant, Gota ne prend pas en charge autant de fonctionnalités que Pandas.