SPARK: Анализ данных с Apache Spark

пн, 27 сентябрь 2021, 07:00 (GMT)
Россия, Москва, ул.Илимская д5. корп.2 офис 303
Бесплатно
Есть трансляция

Теги:

курс «Анализ и обработка данных с Apache Spark, включая Streaming, Spark SQL, MLLib и GraphX» представляет собой 3-дневный интенсивный тренинг по использованию распределенной платформы Apache Spark для работы с большими массивами неструктурированных данных и потоковой обработки информации.

Программа курса «Анализ данных с Apache Spark Streaming, Spark SQL, MLLib и GraphX«

  1. Обзор Apache Spark, знакомство со Spark RDD и Dataframe
    Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD)
    Обзор компонентов Spark и их назначения
    Low Level API, использование Resilient Distributed Dataset
    Structured API и основная абстракция Spark — Dataframe
  2. Apache Spark SQL
    Получение данных из SQL-источников и обработка данных с помощью Spark SQL
    Отправка данных в SQL СУБД и работа с Hive QL
    Spark SQL и Hadoop
  3. Производительность и параллелизм в Apache Spark
    Планы выполнения. Logical и physical планы
    Конфигурирование Apache Spark
  4. Spark Streaming
    Разница работы в режимах OLAP и OLTP. Основной workflow
    Виды Spark Stream-ов. Особенности исполнения streaming кода
    Checkpoint’ы в Spark Streaming
  5. GraphX и MLLib
    Задачи графов в программировании. Место графов в модели распределенных вычислений
    Представление графов в GraphX. Операции с графами
    Задачи машинного обучения и проблематика больших данных
    Основные возможности Spark MLLib
  6. Обработка слабоструктурированных данных
    Работа с JSON файлами и строками
    Обработка информации, представленной в виде XML
    Подробнее на сайте https://www.bigdataschool.ru/bigdata/apache-spark-sql.html