Курс NoSQL: Интеграция Hadoop и NoSQL

пн, 13 декабрь 2021, 07:00 (GMT)
Россия, Москва
Бесплатно

Программа курса Интеграция Hadoop и NoSQL Введение в NoSQL Базовые принципы и компоненты Hadoop Основные концепции и виды NoSQL решений Архитектура Data Lake Принципы формирование pipelines и Data Lake Организация импорта данных Apache Sqoop – основные принципы: простой импорт и экспорт данных из реляционных источников сценарии применения Apache Spark – обзор возможностей: импорт и экспорт данных из реляционных источников и файлов нагруженный импорт данных с преобразованием для вложенных, JSON, XML форматов Особенности использования форматов хранения файлов AVRO, ORC, Parquet. Организация Hadoop SQL интерфейса доступа к данным на файловой системе HDFS Apache Hive – интерфейс доступа для batch-процессинга данных на HDFS Основные компоненты системы Batch процессинг с использованием движков MapReduce/Tez, LLAP, Spark — особенности Тюнинг JOIN операций Сценарии использования Cloudera Impala – OLAP аналитика данных в MPP Hadoop Особенности решения Интеграция с Hive и HBase Форматы файлов для Cloudera Impala (Parquet, ORC) Особенности JOIN-операций Сценарии использования Spark SQL Возможности фреймворка и предоставляемые API Сложные преобразования и агрегация с использованием Spark SQL Интеграция с Hive Сценарии использования NoSQL в Hadoop Спектр возможностей NoSQL в экосистеме Hadoop Apache HBase – для real-time доступа на чтение и запись Архитектура решения, концепция CRUD, Проектирование базы данных, выбор column family Сценарии использования HBase Использование Apache Phoenix для HBase Организация хранилища MPP NoSQL на примере Greenplum/ArenadataDB Концепция MPP и её реализация в Greenplum/ArenadataDB. Загрузка и распределение данных. Сегментирование таблиц. Индексация Внешние таблицы, реплицированные таблицы, consistent hashing Оптимизация запросов, JOIN Best practices Сценарии использования OLAP на колоночных базах данных на примере Yandex ClickHouse и Arenadata Quick Marts Особенности реализации Шардирование, партиционирование, индексация Сценарии использования

Описание курса https://www.bigdataschool.ru/bigdata/nosql-hadoop-course.html