Курс дистанционного обучения SPARK: Анализ данных с Apache Spark

Mon, 16 March 2026, 14:00 (GMT+03:00)
Russia, Moscow
102400
Stream available

Теги:

6-дневный курс обучения по использованию распределенной платформы Apache Spark для работы с большими массивами данных, в том числе — неструктурированных и потоковой обработки информации.

Вы пройдете путь от основ архитектуры Spark до работы с продвинутыми компонентами, такими как GraphX, ML, Structured Streaming и Delta Lake. Программа охватывает как классические подходы (RDD, DataFrames, Spark SQL), так и актуальные тренды: интеграцию с Kubernetes, pandas API в Spark и управление данными через Delta Lake.
Благодаря такому разнообразию инструментов интерактивной аналитики данных, Спарк активно используется в системах интернета вещей (IoT/IIoT), а также в различных бизнес-приложениях, в т.ч. для машинного обучения. Например, для прогнозирования оттока клиентов и оценки финансовых рисков.

Современный Apache Spark может работать как в среде кластера Hadoop под управлением YARN, так и без компонентов ядра Hadoop, в частности, с использованием Kubernetes в качестве системы управления кластером. Спарк поддерживает несколько популярных распределённых систем хранения данных (HDFS и совместимые с HDFS файловые системы, объектное хранилище Amazon S3), а также может работать с Delta Lake. Apache Spark предоставляет языковые API для часто используемых в области Big Data языков программирования: Java, Scala, Python и R, в современных версиях добавлен Pandas API, возможность работы со Spark Connect, полезная при использовании территориально или сетево удаленных кластеров. Во время курса мы подробно разберем эти и другие особенности современного Apache Spark.
Курс обучения содержит теоретический минимум, необходимый для эффективного использования всех компонентов Apache Spark: от основ RDD до современных инструментов (Delta Lake, Spark on Kubernetes).

Практическая часть включает запуск и настройку компонентов, работу в среде Jupyter Notebook, прикладное использование Спарк для разработки собственных распределенных приложений пакетной и потоковой обработки информации и анализа больших данных.