develop

Курс NoSQL: Интеграция Hadoop и NoSQL

Moscow, 13.12.2021 10:00
https://www.meetup.com/BigDataSchool/events/278525580/

Программа курса Интеграция Hadoop и NoSQL
Введение в NoSQL
Базовые принципы и компоненты Hadoop
Основные концепции и виды NoSQL решений
Архитектура Data Lake
Принципы формирование pipelines и Data Lake
Организация импорта данных
Apache Sqoop – основные принципы:
простой импорт и экспорт данных из реляционных источников
сценарии применения
Apache Spark – обзор возможностей:
импорт и экспорт данных из реляционных источников и файлов
нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов
Особенности использования форматов хранения файлов AVRO, ORC, Parquet.
Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS
Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS
Основные компоненты системы
Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности
Тюнинг JOIN операций
Сценарии использования
Cloudera Impala – OLAP аналитика данных в MPP Hadoop
Особенности решения
Интеграция с Hive и HBase
Форматы файлов для Cloudera Impala (Parquet, ORC)
Особенности JOIN-операций
Сценарии использования
Spark SQL
Возможности фреймворка и предоставляемые API
Сложные преобразования и агрегация с использованием Spark SQL
Интеграция с Hive
Сценарии использования
NoSQL в Hadoop
Спектр возможностей NoSQL в экосистеме Hadoop
Apache HBase – для real-time доступа на чтение и запись
Архитектура решения, концепция CRUD,
Проектирование базы данных, выбор column family
Сценарии использования HBase
Использование Apache Phoenix для HBase
Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB
Концепция MPP и её реализация в Greenplum/ArenadataDB.
Загрузка и распределение данных. Сегментирование таблиц. Индексация
Внешние таблицы, реплицированные таблицы, consistent hashing
Оптимизация запросов, JOIN
Best practices
Сценарии использования
OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts
Особенности реализации
Шардирование, партиционирование, индексация
Сценарии использования

Описание курса https://www.bigdataschool.ru/bigdata/nosql-hadoop-course.html