
ОПИСАНИЕ
Выбранные данные и источник:
Я выбрал датасет «Kentucky Derby Winners 1875-2022» с платформы Kaggle. Этот датасет содержит сведения о победителях Kentucky Derby за более чем 140 лет, включая такие параметры, как год, имя лошади, жокей, тренер, а также дополнительные характеристики.
Почему интересно анализировать эти данные: Мне было интересно изучить долгосрочные тренды и закономерности в этом престижном скачке. Например, можно понять, кто чаще побеждает — тренеры или жокеи, как менялись победители со временем, есть ли закономерности в породах или возрастах лошадей. Эти данные ценны для анализа спортивной истории, а также могут помочь любителям и специалистам по скаковой индустрии лучше понять динамику соревнований.
Мне также было интересно исследовать по личным причинам, так как с детства этот вид спорта вызывает интерес.

Ссылка на выбранный датасет: https://www.kaggle.com/datasets/danbraswell/kentucky-derby-winners-18752022
ЭТАПЫ РАБОТЫ

Гистограмма
Описание этапа Загрузка данных: Мы начали с загрузки датасета о победителях Kentucky Derby за период 1875–2022 годов. Датасет содержит такие поля, как год проведения гонки (year), имя победителя (winner), жокей, тренер, владелец и другие характеристики.
Анализ структуры данных: Выяснили, что в датасете отсутствуют поля о возрасте лошадей (Age) — вместо этого есть поле year, которое показывает год проведения гонки.
Выбор анализа: Чтобы понять, как менялось количество побед в разные периоды, выбрали построение гистограммы по годам. Это поможет увидеть, в какие периоды было больше или меньше побед.
Построение гистограммы: Использовали функцию histplot библиотеки Seaborn с бинами по 5 лет, чтобы сгладить вариации и лучше видеть общие тенденции. Гистограмма показывает, сколько побед было в каждый 5-летний промежуток.
Настройка визуализации: Добавили стили, установили светлый цвет фона и цвет столбцов, чтобы график был эстетичным и легко читаемым.
Круговую диаграмма
На данном этапе мы создали круговую диаграмму, которая показывает, какие жокеи чаще всего одерживают победу на Kentucky Derby. Для этого мы:
Произвели группировку данных по имени жокея и подсчитали количество его побед.
Отобрали топ-10 жокеев по числу побед, чтобы сосредоточиться на наиболее успешных участниках.
Построили круговую диаграмму с использованием только оттенков зеленого цвета, что делает визуализацию более эстетичной и гармоничной.
Добавили подписи и проценты для каждого жокея, чтобы было видно, какую долю побед он занимает среди топ-10.
Выводы Лидеры по победам: Диаграмма ясно показывает, какие жокеи доминируют на Kentucky Derby. Жокеи с наиболее высоким числом побед занимают значительную долю в общей картине, что свидетельствует о их опыте и мастерстве.
Распределение побед: Большинство побед сосредоточено у нескольких жокеев, что говорит о высокой конкуренции внутри этого топ-списка.
Важность опыта и репутации: Постоянное присутствие топ-жокеев в победителях подчеркивает их профессионализм и важность их роли в успехе лошадей.
Объяснение кода: Группировка данных: value_counts () подсчитывает количество побед каждого жокея. Мы берем топ-10 по числу побед. Цветовая палитра: Используется sns.color_palette ('pastel', …) для приятных пастельных цветов. Построение диаграммы: plt.pie () создает круговую диаграмму с метками и процентами. Дополнительные настройки: startangle=140 для приятного расположения сегментов, wedgeprops добавляют черную окантовку сегментов, а plt.axis ('equal') делает диаграмму круглой.
Что показывает этот график: Топ-10 тренеров по числу побед, то есть те, кто выигрывал Derby больше всего раз.
Количество побед каждого тренера — на оси X, причем логарифмическая шкала помогает лучше визуализировать разницу между тренерами с большим числом побед и теми, у кого побед было немного.
На графике видно, что большинство тренеров имеют небольшое число побед, а несколько — очень много, то можно сказать, что успехи в Kentucky Derby у тренеров неравномерны и доминируют несколько ключевых фигур.
График показывает снижение времени победителя с течением лет или гонок, можно сделать вывод о постоянном улучшении условий, техники или подготовки участников.
Пиковые значения: Наличие резко повышенных значений времени в определённые периоды может указывать на особые случаи — например, экстремальные погодные условия или необычные стратегические решения.
Влияние внешних факторов: В случае выявления значительных колебаний в определённые годы или периоды, можно предположить влияние внешних факторов (например, погоды, трассы, изменения правил).
Долгосрочные улучшения: Постепенное снижение времени победителя говорит о техническом прогрессе и повышении уровня спортсменов.
Линейный график (Line Chart): — Для отображения изменения времени победителя по годам или по порядку гонок, выявления трендов и динамики.
Точечный график (Scatter Plot): — Для анализа распределения данных, выявления возможных выбросов и взаимосвязей между переменными.
Гистограмма (Histogram): — Для анализа распределения частот по определённым переменным, например, времени победы или возрасту победителей.
Столбчатая диаграмма (Bar Chart): — Для сравнения количества побед у различных участников или команд.
Коробчатая диаграмма (Box Plot): — Для оценки распределения и выявления выбросов в данных, например, в времени прохождения гонки.
Использовалась нейросеть leonardo для создания иллюстраций