L'Internet Movie Database (IMDb) est la plus grande base de données en ligne contenant des informations sur les films, les séries télévisées, les vidéos personnelles, les jeux vidéo et le contenu en streaming. La base de données en ligne contient des millions d'enregistrements précis que vous pouvez utiliser pour effectuer une analyse des données.
Cinemagoer (anciennement connu sous le nom d'IMDbPY) est une bibliothèque Python permettant de gérer et de récupérer les données de la base de données de films IMDb. Vous pouvez accéder à des données sur les films, les personnes et les entreprises, qui peuvent ensuite être utilisées à des fins d'analyse.
Installation des bibliothèques requises
Vous devez installer le spectateur de cinéma Bibliothèque Python pour accéder à la IMDb base de données. Exécutez la commande suivante dans l'invite de commande pour installer la bibliothèque :
pépin installer spectateur de cinéma
Vous devez avoir pip installé sur votre système pour installer des bibliothèques Python externes.
Le code utilisé dans ce projet est disponible dans un Référentiel GitHub et est libre d'utilisation sous la licence MIT.
Extraction de données IMDb à l'aide de Python
Vous devez importer la bibliothèque cinemagoer avant de l'utiliser dans votre code.
depuis imdb importer Cinéphile
ia = spectateur de cinéma()
Le code ci-dessus importe la bibliothèque cinemagoer et crée une instance de la classe cinemagoer.
Recherche de films
Vous pouvez rechercher des films avec un titre donné (ou similaire) en utilisant le rechercher_film() méthode. Par exemple, si vous souhaitez rechercher des films ayant pour titre "rock", vous devez exécuter le code suivant :
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()
# Recherche de films qui ont du rock dans leur nom
films = ia.search_movie('osciller')
imprimer(films[0])
Cela devrait imprimer le premier film qu'il trouve, par exemple :
Vous pouvez obtenir un film par son ID IMDb. Vous pouvez ensuite extraire d'autres informations telles que les noms de réalisateurs et les genres. Vous devez parcourir la liste pour obtenir des informations individuelles.
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()# Obtenir un film par ID IMDb
film = ia.get_movie('0468569')
imprimer(film)# Impression des noms des réalisateurs du film
imprimer('Directeurs :')pour réalisateur de film['réalisateurs']:
impression (réalisateur['nom'])# impression des genres du film
imprimer('Genres :')
pour le genre dans le film['genres']:
imprimer(genre)
Dans la sortie, vous devriez voir le nom du film donné, son (ses) réalisateur (s) et son (ses) genre (s):
Recherche d'une personne
Vous pouvez rechercher des personnes à l'aide de recherche_personne() méthode. Par exemple, si vous souhaitez rechercher "Heath", vous devez exécuter le code suivant :
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()
# Recherche de personnes ayant Heath dans leur nom
personnes = ia.search_person('Bruyère')
imprimer(personnes[0])
Vous verrez le nom de la première personne correspondante trouvée par la recherche :
Recherche d'entreprises
Vous pouvez rechercher des entreprises à l'aide de search_company() méthode. Par exemple, si vous souhaitez rechercher "Universel", vous devez exécuter le code suivant :
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()
# Recherche d'entreprises ayant Universal dans leur nom
entreprises = ia.search_company('Universel')
imprimer(entreprises)
Vous obtiendrez la liste de toutes les entreprises qui ont Universal dans leur nom.
Vous pouvez également récupérer les données d'une personne et d'une entreprise à l'aide de son identifiant.
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()# Obtenir des données personnelles par ID
personne = ia.get_person('0005132')
imprimer (personne['nom'])
imprimer (personne['date de naissance'])
# Obtenir les données de l'entreprise par ID
société = ia.get_company('0005073')
impression (société['nom'])
La sortie affichera les détails de la personne et le nom d'une entreprise :
Recherche de films en haut et en bas
Vous pouvez récupérer les données des 250 meilleurs et des 100 derniers films à l'aide de la get_top250_movies() et get_bottom100_movies() méthodes, respectivement :
depuis imdb importer Cinéphile
# Création d'une instance de la classe Cinemagoer
ia = spectateur de cinéma()# Trouver les 250 meilleurs films
haut = ia.get_top250_movies()
imprimer(haut[0])
# Trouver les 100 derniers films
bas = ia.get_bottom100_movies()
imprimer(bas[0])
En réponse, vous verrez le nom du meilleur film et le nom du pire :
La bibliothèque des spectateurs propose également d'autres méthodes telles que get_top250_tv(), get_popular100_movies(), et get_top250_indian_movies().
L'analyse des données est l'évaluation des données à l'aide d'outils analytiques ou statistiques pour extraire des informations. La popularité de l'analyse des données augmente chaque jour. Il est maintenant utilisé par les entreprises, les sociétés de marketing et les équipes sportives. Le processus complet d'analyse de données comprend la définition d'objectifs, la pose de questions, la collecte de données, le nettoyage des données, l'analyse des données et la conclusion des résultats.
Vous pouvez obtenir des ensembles de données pour vos projets en utilisant des bibliothèques Python comme Cinemagoer ou via des plateformes en ligne comme Kaggle. Outre des langages complets tels que Python et R, vous pouvez utiliser d'autres outils tels que Microsoft Excel, Tableau et Stata pour effectuer des analyses de données.