Original size 1140x1600

Визуализация данных дохода бюджета Московской области

Выбор данных

Для анализа были выбраны данные о доходах бюджета Московской области. Эти данные включают информацию о доходах от налогов, трансфертов и других источников.

Информация взята с (этой страницы) / текст кликабельный

Причины анализа

Эти данные представляют собой важную информацию для анализа финансовых процессов региона. Изучение доходов бюджета позволяет понять финансовое состояние Московской области, оценить эффективность налоговой политики и распределение средств на различные проекты и программы.

Мне было интересно проанализировать именно эти данные, так как они напрямую влияют на развитие региона и качество жизни его жителей.

big
Original size 1280x1019

Основной тип визуализации данных

Тип визуализации

Для анализа данных о доходах бюджета был выбран граф в виде дерева (или иерархической структуры). Этот тип графа подходит для отображения вклада в общий доход каждого отдельного источника.

Помимо этого, в качестве дополнительных типов визуализации были выбраны такие типы как: столбцевой, круговой и рассеяния. Благодаря ним данные можно представить в более привычном для восприятия виде

1. Загрузка и подготовка данных

Original size 534x226

Этот блок импортирует необходимые библиотеки: - numpy: для работы с массивами и математическими операциями. - pandas: для чтения и обработки данных в таблицах (DataFrame). - matplotlib.pyplot: для построения графиков и диаграмм. - pyvis.network: для создания интерактивных графов с помощью библиотеки PyVis.

2. Узловая диаграмма

- Функция читает данные из CSV файла. - Преобразует столбец RevenueVolumeActual в числовой формат и заменяет все ошибки на нули.

Original size 1286x466

- Создается граф с использованием библиотеки PyVis. - Параметры графа включают фоновый цвет, размеры и направленность (граф не направленный). - Для каждого администратора (кроме строки с «Доходы, всего») добавляется узел в граф. - Размер узла зависит от фактического дохода. - Цвет узла зависит от величины дохода (зеленый для положительных значений, красный для нулевых).

Original size 1084x388

- Добавляется узел для общего дохода по всем администраторам для каждой даты. - Этот узел будет соединять все другие узлы, относящиеся к этой дате. - Для каждого администратора, у которого дата совпадает с общей, создается ребро между ним и узлом «Доходы, всего».

Как выглядит узловая диаграмма

3. Горизонтальная столбчатая диаграмма

Original size 982x278

- Функция загружает данные и очищает столбец RevenueVolumeActual, преобразуя его в числовой формат. - Оставляются только те строки, где доход больше или равен 1.0. - Строки с «Доходы, всего» удаляются.

Original size 1154x478

- Строится горизонтальная столбчатая диаграмма, где по оси Y отображаются администраторы, а по оси X — их фактические доходы. - Настройка внешнего вида графика: цвет фона, шкала оси X (логарифмическая), оформление подписей и заголовков.

Original size 1280x768

Отображение горизонтальной столбчатой диаграммы

4. Круговая диаграмма

Original size 2160x532

- Эта функция фильтрует данные, оставляя только те строки, где доход превышает заданный порог threshold. - Аналогично предыдущей функции, удаляются лишние слова и обрезаются длинные названия администраторов. - Строки с доходом ниже порога группируются в одну категорию «Другие». - Создается новый DataFrame для графика, включая данные для «Других».

Original size 1116x248

- Строится круговая диаграмма для распределения доходов между администраторами, включая категорию «Другие».

Original size 1280x1280

Отображение круговой диаграммы

5. График рассеяния

Original size 1774x250

- Преобразует столбцы RevenueVolumeActual и RevenueVolumePlanned в числовой формат и заменяет ошибки на нули. - Отбираются только строки, где как фактический, так и планируемый объем дохода больше или равен 0.01. - Убираются дубликаты по администратору (сохраняется последняя строка). - Исключаются строки с «Доходы, всего».

Original size 1102x748

- Строится график рассеяния, где ось X отображает планируемый доход, а ось Y — фактический. - Выбираются 5 точек с наибольшим фактическим доходом. - Обе оси (X и Y) переводятся в логарифмическую шкалу, чтобы лучше визуализировать данные с большими различиями между значениями. - Устанавливаются цвета фона для осей (основной и графика), заголовок и подписи для осей.

Original size 1280x960

Как выглядит график рассеяния

Папка с файлами

Визуализация данных дохода бюджета Московской области