Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь. Information technology. Big data. Overview and vocabulary. УДК 004.01:006.354 ОКС 35.020. Редакция от 22.01.2023.

4.3.7 Масштабирование ГОСТ Р ИСО/МЭК 20546-2021

Большие данные подразумевают возможность расширения репозиториев данных и их обработку на параллельно работающих ресурсах - аналогичным образом сообщество специалистов, использующих моделирование, требующее ресурсоемких вычислений, массово перешло на параллельную обработку. Благодаря разработке методов взаимодействия между ресурсами, такое же масштабирование теперь доступно для приложений, использующих большое количество данных. Вертикальное масштабирование подразумевает увеличение системных параметров скорости обработки, хранения и памяти для повышения производительности. Этот подход ограничен физическими возможностями, развитие которых описано в законе Мура, и требует все более сложных элементов (например, аппаратного и программного обеспечения), приводящих к росту материальных и временных затрат на реализацию. Альтернативный метод состоит в применении горизонтального масштабирования, чтобы использовать отдельные распределенные ресурсы, объединяемые для работы в качестве единой системы. Именно горизонтальное масштабирование лежит в основе революции больших данных. Хотя методы достижения эффективной масштабируемости между ресурсами будут постоянно развиваться, эта смена парадигмы (по аналогии с предыдущим переходом на параллельную обработку в сообществе специалистов, используемых моделирование) представляет собой единовременное явление [из 4.3.7 Масштабирование ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13765 💥

Открыть в новой вкладке

4.3.8 Распределенная файловая система ГОСТ Р ИСО/МЭК 20546-2021

В распределенных файловых системах мультиструктурированные (объектные) массивы данных распределяются по вычислительным узлам кластера(ов) серверов. Данные могут распределяться на уровне файлов/массивов данных или - чаще всего - на уровне блоков, что позволяет нескольким узлам в кластере одновременно взаимодействовать с различными частями большого файла/массива данных. Системы больших данных часто проектируются таким образом, чтобы при распределении обработки использовать преимущества привязки данных к каждому вычислительному узлу, исключая необходимость перемещения данных между узлами. Кроме того, во многих распределенных файловых системах также реализована репликация на уровне файлов/блоков, при которой на разных узлах компьютеров хранится несколько копий каждого файла/блока как для обеспечения надежности/восстановления (данные не теряются при сбое узла в кластере), так и для улучшения привязки данных к вычислительным узлам. Любой тип данных и файлы любого размера могут обрабатываться без формального извлечения, преобразования и загрузки, при этом некоторые технологии работают заметно эффективнее с файлами большого размера [из 4.3.8 Распределенная файловая система ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13765 💥

Открыть в новой вкладке

4.3.9 Распределенная обработка данных ГОСТ Р ИСО/МЭК 20546-2021

Популярная структура для распределенных вычислений состоит из комбинации уровня хранения и уровня обработки, которая реализует мультиклассовую модель алгоритмического программирования. Недорогие серверы потребительского уровня, поддерживающие распределенную файловую систему хранения данных, могут значительно снизить затраты на хранение вычислений для большого объема данных (например, индексация в сети). При распределенной обработке данных запрос распределен по процессорам, а результаты собираются в центральный процессор. Затем результаты обработки обычно загружаются в аналитическую среду. Для достижения эффективности, надежности, высокой доступности и отказоустойчивости системы несколько узлов (например, клиентские узлы, узлы данных, узлы-реплики) размещаются в виде архитектуры «ведущий-ведомый» [из 4.3.9 Распределенная обработка данных ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13765 💥

Открыть в новой вкладке

SQL по ГОСТ Р ИСО/МЭК 20546-2021

Терминология

Язык баз данных, описанный в ИСО/МЭК 9075.

Примечание - Аббревиатура SQL иногда расшифровывается как «язык структурированных запросов» (Structured Query Language), но это название не используется в серии стандартов ИСО/МЭК 9075 [из 3.1.36 ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13718 💥

Открыть в новой вкладке

А.1 Общие сведения ГОСТ Р ИСО/МЭК 20546-2021

Развитие систем больших данных оказывает влияние на дискуссии и процессы стандартизации в других технологических областях. В данном приложении обсуждаются связи области больших данных с другими областями разработки стандартов [из А.1 Общие сведения ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13776 💥

Открыть в новой вкладке

А.10 Интернет вещей ГОСТ Р ИСО/МЭК 20546-2021

Одновременно с увеличением объема данных создаются вычислительные системы, способные эти данные анализировать. Пользователи предпочитают использовать объем данных, доступных с различных сенсоров и других источников, что обеспечивает эффективную предсказательную аналитику для управления и контроля сетевых решений. Технологические достижения в области сенсоров, а также развертывание протокола IPV6 для обеспечения Интернет-коннективности этих устройств порождают потребность в системах больших данных, которые могут обрабатывать потоковые данные из нескольких источников, обладающих высокой скоростью генерации. Подобные системы отличаются от систем, создаваемых для пакетной обработки малого числа больших массивов данных. Различие в характеристиках массивов данных оказывает прямое влияние на архитектуру систем и методы анализа данных [из А.10 Интернет вещей ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13776 💥

Открыть в новой вкладке

А.11 Языки программирования ГОСТ Р ИСО/МЭК 20546-2021

Анализ расширенных данных с использованием статистических вычислений является фундаментальным методом в парадигме больших данных. Системы аналитики больших данных могут разрабатываться с использованием базовых языков программирования. Потребности в распределенной обработке данных привели к появлению новых языков программирования, языков запросов и процессов обработки, пригодных для создания систем больших данных. Языки программирования (см. примечание), как правило, имеют общедоступные среды разработки, библиотеки и среды выполнения для обеспечения эффективной обработки больших данных с использованием параллельных вычислений и хранения. Среди новых процессов - распределение-сборка данных для их распределенной обработки.

Примечание - Примеры языков включают в себя R, Python, Scaia, Java и т. д. [из А.11 Языки программирования ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13776 💥

Открыть в новой вкладке

А.2 Метаданные ГОСТ Р ИСО/МЭК 20546-2021

Метаданные представляют собой описательные данные, включая, например, описание истории обработки данных. Системы больших данных спроектированы для выполнения распределенной обработки данных, в том числе тех, которые являются внешними и не находятся под контролем системы больших данных, поэтому использование метаданных становится все более значимой концепцией. Большие данные повторно используются для целей, не связанных с целями, для которых они собирались, поэтому важно, чтобы любые данные, доступ к которым предоставляется другим сторонам, были снабжены адекватными метаданными. Метаданные также включают в себя сведения об источниках данных и об использовании данных. Их можно разделить на бизнес- и технические метаданные [из А.2 Метаданные ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13776 💥

Открыть в новой вкладке

А.3 Алгоритмы ГОСТ Р ИСО/МЭК 20546-2021

При разработке алгоритмов анализа больших данных необходимо учитывать требования распределенной обработки, поскольку ранее данные обычно хранились на локальных устройствах. Алгоритмы обработки больших данных в узлах должны быть адаптированы к горизонтальному масштабированию, чтобы явно учитывать распределение данных по узлам [из А.3 Алгоритмы ГОСТ Р ИСО/МЭК 20546-2021]

Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

⇪В 13776 💥

Открыть в новой вкладке

А.4 Кластерные вычисления ГОСТ Р ИСО/МЭК 20546-2021

Кластерные вычисления относятся к распределению процессов по компьютерной сети. Для работы аппаратной среды как единого целого используется специализированное программное обеспечение. Если поместить уровень служб поверх аппаратной среды, то будут достигнуты преимущества облачных вычислений.

Примечание - В данном перефразированном определении кластерных вычислений под кластером понимается «комбинация набора взаимосвязанных компьютеров/серверов» [из А.4 Кластерные вычисления ГОСТ Р ИСО/МЭК 20546-2021]