Internet Movie Database (IMDb) er den største onlinedatabase, der indeholder information relateret til film, tv-serier, hjemmevideoer, videospil og streamingindhold. Onlinedatabasen indeholder millioner af nøjagtige registreringer, som du kan bruge til at udføre dataanalyse.

Cinemagoer (tidligere kendt som IMDbPY) er et Python-bibliotek til at administrere og hente data fra IMDb-filmdatabasen. Du kan få adgang til data om film, personer og virksomheder, som kan bruges yderligere til analyse.

Installation af nødvendige biblioteker

Du skal installere biografgænger Python-bibliotek for at få adgang til IMDb database. Kør følgende kommando i kommandoprompten for at installere biblioteket:

pip installere biografgænger

Du må have pip installeret på dit system at installere eksterne Python-biblioteker.

Koden brugt i dette projekt er tilgængelig i en GitHub-depot og er gratis for dig at bruge under MIT-licensen.

Udpakning af IMDb-data ved hjælp af Python

Du skal importere biografgængerbiblioteket, før du bruger det i din kode.

fra imdb importere Biografgæst
ia = Biografgænger()

Ovenstående kode importerer biografgængerbiblioteket og opretter en forekomst af biografgængerklassen.

Søger efter film

Du kan søge efter film med en given (eller lignende) titel ved hjælp af search_movie() metode. For eksempel, hvis du vil søge efter film med titlen "rock", skal du køre følgende kode:

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# Søger efter film, der har rock i deres navn
film = ia.search_movie('klippe')
Print(film[0])

Dette skulle udskrive den første film, den finder, for eksempel:

Du kan få en film ved dens IMDb ID. Du kan derefter udtrække yderligere information som instruktørnavne og genrer. Du skal gå gennem listen for at få individuel information.

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# Henter film efter IMDb ID
film = ia.get_movie('0468569')
Print(film)

# Udskrivning af navnene på filmens instruktører
Print('Direktører:')

for instruktør i film['direktører']:
print (direktør['navn'])

# udskrivning af filmens genrer
Print('Genrer:')

for genre i film['genrer']:
Print(genre)

I outputtet skal du se navnet på den givne film, dens instruktør(er) og dens genre(r):

Søger efter en person

Du kan søge efter personer ved hjælp af search_person() metode. For eksempel, hvis du vil søge efter "Heath", skal du køre følgende kode:

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# Søger efter personer, der har Heath i deres navne
personer = ia.search_person('Heath')
Print(personer[0])

Du vil se navnet på den første matchende person, som søgningen finder:

Søger virksomheder

Du kan søge efter virksomheder ved hjælp af search_company() metode. For eksempel, hvis du vil søge efter "Universal", skal du køre følgende kode:

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# Søger efter virksomheder med Universal i deres navne
virksomheder = ia.search_company('Universel')
Print(virksomheder)

Du får listen over alle virksomheder, der har Universal i deres navn.

Du kan også hente en person- og virksomhedsdata ved hjælp af dens ID.

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# Henter persondata efter ID
person = ia.get_person('0005132')
print (person['navn'])
print (person['fødselsdato'])

# Hentning af virksomhedsdata efter ID
virksomhed = ia.get_company('0005073')
print (virksomhed['navn'])

Outputtet vil vise oplysninger om personen og navnet på en virksomhed:

Find top- og bundfilm

Du kan hente data for top 250 og nederste 100 film ved hjælp af get_top250_movies() og get_bottom100_movies() metoder, henholdsvis:

fra imdb importere Biografgæst

# Oprettelse af en forekomst af Cinemagoer-klassen
ia = Biografgænger()

# At finde de 250 bedste film
top = ia.get_top250_movies()
Print(top[0])

# At finde de nederste 100 film
bottom = ia.get_bottom100_movies()
Print(bund[0])

Som svar vil du se navnet på den bedste film og navnet på den værste:

Biografgængerbiblioteket tilbyder også nogle andre metoder som f.eks get_top250_tv(), get_popular100_movies(), og get_top250_indian_movies().

Dataanalyse er evaluering af data ved hjælp af analytiske eller statistiske værktøjer til at udtrække information. Populariteten af ​​dataanalyse vokser hver dag. Det bruges nu af virksomheder, marketingvirksomheder og sportshold. Den komplette proces med dataanalyse inkluderer at definere mål, stille spørgsmål, dataindsamling, datascrubbing, dataanalyse og afsluttende resultater.

Du kan få datasæt til dine projekter ved hjælp af Python-biblioteker som Cinemagoer eller via online platforme som Kaggle. Ud over fulde sprog som Python og R kan du bruge andre værktøjer som Microsoft Excel, Tableau og Stata til at udføre dataanalyse.