INTR: Основы Hadoop

пн, 05 июль 2021, 07:00 (GMT)
Россия, Москва, ул.Илимская д5. корп.2 офис 303
Бесплатно

Основы Hadoop и Big Data Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределенных вычислений Hadoop. Концепция Data Lake. Архитектура Apache Hadoop Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS. Отказоустойчивость и высокая доступность. Batch процессинг. Потоковая обработка Распределенная файловая система HDFS Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты. Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Влияние компрессии на производительность. Кодеки компрессии. Импорт(загрузка) данных на HDFS MapReduce Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce. Установка кластера Hadoop Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Оптимизация Java, JVM, Heap size, Garbage Collection Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Настройка подключений Hadoop клиентов. Установка кластера Hadoop в облаке. Особенности настройки кластера Hadoop на физическом сервере (on-premises) Топология кластера Hadoop Tiering — многоуровневое хранение данных (Cold, Warm,Hot, RAM disk). Storage policy — полтиики хранения. Метки конфигураций узлов. RACK awareness. Архитектура YARN — планировщик и менеджер ресурсов Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler Capacity scheduler (Планировщик по мощности) Fair scheduler (Гранулярное управление ресурсами) Защита очередей и доминантное управление ресурсами DRF Инструментарий Hadoop экосистемы Графический интерфейс сервиса HUE/Zeppelin Базовые операции в Apache Pig Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис. Импорт и экспорт SQL таблиц с применением Apache sqoop Настройка агентов для управления потоковыми операциями с Apache Flume Базовые операции в Apache Spark Примерный список практических занятий для курса «Основы Hadoop»:

Установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari Базовые операции обслуживания кластера Hadoop и файловые операции HDFS Управление ресурсами и запуском задач с использованием YARN и MapReduce ETL операции преобразования с использованием Apache Pig Знакомство с SQL интерфейсом доступа Apache Hive Выполнение базовых операций импорта/экспорта с применением Apache sqoop Настройка агента потоковой обработки Apache Flume(опционально) Применение веб-интерфейса HUE/Zeppelin (опционально) Подробнее на сайте https://www.bigdataschool.ru/bigdata/hadoop-intro.html