Original size 2480x3500

Визуализация данных по сериалам в IMDb

PROTECT STATUS: not protected
The project is taking part in the competition

Введение

big
Original size 640x360

Для визуализации был использован набор данных IMDb о телесериалах. Он был найден и скачан с сайта Kaggle в формате CSV. Набор включает подробную информацию о различных сериалах, представленных на IMDb, включая названия, годы выхода в эфир, рейтинги, даты выпуска, жанры, имена режиссёров, сценаристов и актёров. Кроме того, данные содержат рейтинги и количество голосов на IMDb.

Как любитель телесериалов, мне было особенно интересно работать с этим набором данных, поскольку он позволяет выявить интересные закономерности и тренды.

Для визуализации я использовала несколько видов графиков: гистограмму, столбчатую диаграмму, точечную диаграмму, линейный график и график с областями. Такой разнообразный выбор не случаен: он позволяет сделать презентацию более насыщенной и наглядной, а также подобрать оптимальный тип графика для анализа разных аспектов данных.

Стиль

Для стилизации презентации я опиралась на сам сайт IMDb и его логотип. С помощью сервиса Color.Adobe были определены ключевые цвета логотипа: основной цветовой акцент приходится на жёлтый с различными оттенками, а дополнительный — почти чёрный. В качестве шрифта был выбран «Extenda Variable», поскольку он максимально близок к оригинальному шрифту IMDb.

big
Original size 1280x720

логотип «IMDb»

Original size 1218x468

палитра цветов

Этапы работы

Для начала я подключила библиотеку pandas, которая используется для анализа и обработки табличных данных. После этого загрузила CSV-файл с данными IMDb в DataFrame. С помощью строки (df.head ()) убедилась, что файл загрузился корректно и данные отображаются ожидаемым образом.

import pandas as pd

df = pd.read_csv ('IMDB Dataset.csv') df.head ()

На данном этапе я провела первичное исследование структуры датасета, чтобы понимать, с какими типами данных предстоит работать.

df.info () df.describe ()

Следующим этапом я подключила библиотеку matplotlib, которая используется для построения графиков, а также модуль font_manager для подключения нужного мне шрифта. Далее я загрузила шрифт «Extenda Variable» и установила его в качестве основного шрифта для всех графиков в проекте.

import matplotlib.pyplot as plt from matplotlib import font_manager

font_path = '/content/0_ExtendaVariable-Regular.ttf'

font_prop = font_manager.FontProperties (fname=font_path)

plt.rcParams['font.family'] = font_prop.get_name ()

Также я создала словарь с цветовой палитрой проекта, которую ранее вывела с помощью Adobe.Color. В дальнейшем эти цвета будут использоваться при построении всех графиков.

colors = { 'accent1': '#736B02', 'accent2': '#F2E30C', 'accent3': '#D9B70D', 'accent4': '#D9A50B', 'dark': '#0D0D0D' }

Анализ и визуализация данных

0

Гистограмма показывает распределение рейтингов телесериалов на IMDb. Интересно подметить в графике, что большинство значений находятся в диапазоне от 6 до 8 баллов, что указывает на преобладание оцен чуть выше среднего. Крайне низкие и крайне высокие рейтинги встречаются значительно реже, что делает их скорее исключением. В целом аудитория IMDb склонна оценивать сериалы «усредненно», избегая слишком высоких или слишком низких оценок.

0

На диаграмме показан средний рейтинг телесериалов IMDb в зависимости от жанра.

Видно, что большинство жанров получают высокие оценки, в то время как игровые форматы и реалити шоу попадают в самый низ рейтинговой таблицы.

0

На графике показана зависимость между рейтингом телесериалов на IMDb и количеством пользовательских голосов. Каждая точка соответствует отдельному сериалу, а логарифмическая шкала по оси X позволяет корректно отобразить как малоизвестные, так и крайне популярные проекты.

Визуально сериалы с большим количеством оценок чаще располагаются в диапазоне среднего рейтинга. Высокая популярность не гарантирует максимально высокий рейтинг — среди самых обсуждаемых проектов прослеживается оценка от 8 до 4. Получается, что мы можем вывести некую тенденцию, что популярность сериала не зависит от высокой оценки, а высокий рейтинг не влияет на популярность сериала.

0

Здесь мы видим динамику выпуска телевизионных сериалов по годам. Данные показывают, сколько сериалов выходило ежегодно с 1950-х до наших дней.

Мы можем сделать заключение, что до 1980-х годов сериалы выходили не так часто, что скорее всего связано с трудностью и затратностью кинопроизводства. Однако далее наблюдается заметный рост производства данного формата, что отражает расширение телевизионного рынка и рост количества каналов.

Наиболее значительное увеличение числа сериалов приходится на 2000-е годы, когда индустрия начала активно использовать новые форматы и платформы.

После 2010-х график демонстрирует стабилизацию с периодическими колебаниями, вероятно, связанные с появлением стриминговых сервисов и изменением структуры выпуска.

0

В продолжение предыдущей аналитики был построен график с областями, демонстрирующий количество сериалов, сгруппированных по полувекам выпуска.

Это позволяет делать более структурированные выводы по эпохам, а использование цветовой дифференциации обеспечивает мгновенное визуальное различие между полувеками, что значительно упрощает анализ исторических тенденций.

0

Эта точечная диаграмма визуализирует динамику длительности телевизионных сериалов на протяжении времени. Каждая точка представляет отдельный сериал, расположенный по году выхода и продолжительности.

Так, мы можем сделать выводы, касающиеся опять эволюции кинопроизводства. В ранние десятилетия серии были относительно короткими — чаще менее 100 минут на эпизод, что может быть результатом дорогостоящего кинопроизводства.

Начиная с 1980 стали чаще появляться более длинные форматы: особенно заметны сериалы свыше 150 минут.

На графике видно, что в XXI веке индустрия постепенно смещается к более длительным и масштабным сериям, отражая рост требований зрителей и развитие кинопроизводственного процесса в целом.

Заключение

Original size 498x280

Анализ данных по телевизионным сериалам IMDb позволяет выявить множество интересных взаимосвязей и тенденций. Благодаря визуализации рейтингов, популярности, жанровых предпочтений, длительности и динамики выпуска сериалов становится очевидно, как менялись вкусы аудитории, как развивались форматы и какие жанры пользуются наибольшей популярностью.

На основе собранных данных даже можно проследить эволюцию производства киносериалов с момента его зарождения до современности: от коротких и относительно простых эпизодов начала XX века до масштабных и длинных проектов XXI века. В целом, анализ данных дает целостное представление о развитии телевизионного производства и изменении зрительских предпочтений во времени.

Описание применения генеративной модели:

Для расшифровок ошибок в коде, а также генерации изображения для обложки была использована модель ChatGPT