Приложение А (справочное) - Сквозные понятия в сфере больших данных ГОСТ Р ИСО/МЭК 20546-2021

А.1 Общие сведения ГОСТ Р ИСО/МЭК 20546-2021

Развитие систем больших данных оказывает влияние на дискуссии и процессы стандартизации в других технологических областях. В данном приложении обсуждаются связи области больших данных с другими областями разработки стандартов [из А.1 Общие сведения ГОСТ Р ИСО/МЭК 20546-2021]

А.2 Метаданные ГОСТ Р ИСО/МЭК 20546-2021

Метаданные представляют собой описательные данные, включая, например, описание истории обработки данных. Системы больших данных спроектированы для выполнения распределенной обработки данных, в том числе тех, которые являются внешними и не находятся под контролем системы больших данных, поэтому использование метаданных становится все более значимой концепцией. Большие данные повторно используются для целей, не связанных с целями, для которых они собирались, поэтому важно, чтобы любые данные, доступ к которым предоставляется другим сторонам, были снабжены адекватными метаданными. Метаданные также включают в себя сведения об источниках данных и об использовании данных. Их можно разделить на бизнес- и технические метаданные [из А.2 Метаданные ГОСТ Р ИСО/МЭК 20546-2021]

А.3 Алгоритмы ГОСТ Р ИСО/МЭК 20546-2021

При разработке алгоритмов анализа больших данных необходимо учитывать требования распределенной обработки, поскольку ранее данные обычно хранились на локальных устройствах. Алгоритмы обработки больших данных в узлах должны быть адаптированы к горизонтальному масштабированию, чтобы явно учитывать распределение данных по узлам [из А.3 Алгоритмы ГОСТ Р ИСО/МЭК 20546-2021]

А.4 Кластерные вычисления ГОСТ Р ИСО/МЭК 20546-2021

Кластерные вычисления относятся к распределению процессов по компьютерной сети. Для работы аппаратной среды как единого целого используется специализированное программное обеспечение. Если поместить уровень служб поверх аппаратной среды, то будут достигнуты преимущества облачных вычислений.

Примечание - В данном перефразированном определении кластерных вычислений под кластером понимается «комбинация набора взаимосвязанных компьютеров/серверов» [из А.4 Кластерные вычисления ГОСТ Р ИСО/МЭК 20546-2021]

А.5 Облачные вычисления ГОСТ Р ИСО/МЭК 20546-2021

Облачные вычисления - одна из парадигм доступности и управления ресурсами для систем больших данных. Существует несколько ключевых характеристик, часто присущих применению облачных вычислений, в том числе: широкополосный доступ, измеримое обслуживание, многопользовательский режим, самообслуживание по требованию, быстрая адаптация и масштабируемость, а также объединение ресурсов. Облачные вычисления для инфраструктуры, платформ или приложений могут применяться при формировании системы больших данных [из А.5 Облачные вычисления ГОСТ Р ИСО/МЭК 20546-2021]

А.6 Безопасность данных ГОСТ Р ИСО/МЭК 20546-2021

Системы больших данных из-за распределенного характера обработки имеют дополнительные проблемы с безопасностью. Дополнительные уязвимости возникают, например, при распределенном использовании и управлении физической компьютерной и сетевой инфраструктурами, а также при контроле доступа на каждом слое программного обеспечения и системы хранения. Обычно в среде распределенной обработки данных осуществляются шифрование, маскирование и управление доступом на основе ролей для обеспечения всесторонней защиты данных на всех слоях, включая передачу данных по сети. Некоторые примеры массивов данных, для которых обязателен высокий уровень безопасности, включают конфиденциальную информацию о клиентах, сведения о продуктах, коммерческие сведения компаний, данные счетов и финансовые транзакции, медицинские записи пациентов, а также сведения, относящиеся к национальной обороне и безопасности [из А.6 Безопасность данных ГОСТ Р ИСО/МЭК 20546-2021]

А.7 Требования по защите персональных данных ГОСТ Р ИСО/МЭК 20546-2021

Существуют законодательные и нормативные требования, которые влияют на использование персональных данных и регулируют его. Все больше персональных данных можно получить из сети Интернет, социальных сетей, устройств слежения и т. д. В широком смысле защита персональных данных - это совокупность правовых и нормативных требований, которые обеспечивают право отдельных лиц на контроль не только над использованием их персональных данных, но также их достоверностью, аспектами жизненного цикла (включая принудительное удаление) и т. д. Кроме того, ключевым правом защиты персональных данных является право «информированного согласия» человека в отношении использования его персональных данных. Интеграция массивов данных из разнородных источников может приводить к созданию наборов персональных данных или получению нового способа их использования, отличного от цели, для которой получено осознанное согласие конкретного лица на использование таких персональных данных. Поэтому любая организация, разрабатывающая и использующая системы больших данных, несет юридическую и фидуциарную ответственность за обеспечение полной поддержки и внедрения всех применимых норм по защите персональных данных в тех случаях, когда их деятельность связана с обработкой персональных данных [из А.7 Требования по защите персональных данных ГОСТ Р ИСО/МЭК 20546-2021]

А.8 SQL ГОСТ Р ИСО/МЭК 20546-2021

SQL - это стандартный (см. серию стандартов ИСО/МЭК 9075) интерактивный язык программирования, предназначенный для создания запросов, обновления и управления данными и их массивами в базе данных. SQL предназначен для работы со структурированными данными и предоставляет полноценную и всеобъемлющую структуру для доступа к данным, а также поддерживает широкий спектр эффективных аналитических функций. Расширения баз данных SQL поддерживают обнаружение столбцов в широком диапазоне массивов данных: не только реляционных таблиц/представлений, но также XML, JSON, пространственных объектов, объектов, схожих с изображениями (больших двоичных объектов и больших символьных объектов), и семантических объектов. Системы управления данными NoSQL, предназначенные для поддержки нетабличных структурированных данных, а так же неструктурированных и полуструктурированных данных, еще не сделали выбор в пользу одного общего языка доступа. Во многих вариантах реализации NoSQL приняты SQL-подобные языки, включающие некоторое подмножество стандартного SQL с расширениями, поддерживающими специфические особенности реализаций NoSQL [из А.8 SQL ГОСТ Р ИСО/МЭК 20546-2021]

А.9 Параллельные вычисления ГОСТ Р ИСО/МЭК 20546-2021

Большие данные обычно связаны с распределенной интенсивной обработкой данных в узлах кластера. Сообщество специалистов в области моделирования уже много лет разрабатывает методы интенсивного использования компьютерных вычислений в больших вычислительных кластерах. Учитывая, что оба подхода представляют собой крайние случаи для крупномасштабных вычислений и анализа данных, технологии обоих подходов будут использоваться для спектра возможностей, требующих как интенсивных компьютерных вычислений, так и интенсивной обработки данных [из А.9 Параллельные вычисления ГОСТ Р ИСО/МЭК 20546-2021]

А.10 Интернет вещей ГОСТ Р ИСО/МЭК 20546-2021

Одновременно с увеличением объема данных создаются вычислительные системы, способные эти данные анализировать. Пользователи предпочитают использовать объем данных, доступных с различных сенсоров и других источников, что обеспечивает эффективную предсказательную аналитику для управления и контроля сетевых решений. Технологические достижения в области сенсоров, а также развертывание протокола IPV6 для обеспечения Интернет-коннективности этих устройств порождают потребность в системах больших данных, которые могут обрабатывать потоковые данные из нескольких источников, обладающих высокой скоростью генерации. Подобные системы отличаются от систем, создаваемых для пакетной обработки малого числа больших массивов данных. Различие в характеристиках массивов данных оказывает прямое влияние на архитектуру систем и методы анализа данных [из А.10 Интернет вещей ГОСТ Р ИСО/МЭК 20546-2021]

А.11 Языки программирования ГОСТ Р ИСО/МЭК 20546-2021

Анализ расширенных данных с использованием статистических вычислений является фундаментальным методом в парадигме больших данных. Системы аналитики больших данных могут разрабатываться с использованием базовых языков программирования. Потребности в распределенной обработке данных привели к появлению новых языков программирования, языков запросов и процессов обработки, пригодных для создания систем больших данных. Языки программирования (см. примечание), как правило, имеют общедоступные среды разработки, библиотеки и среды выполнения для обеспечения эффективной обработки больших данных с использованием параллельных вычислений и хранения. Среди новых процессов - распределение-сборка данных для их распределенной обработки.

Примечание - Примеры языков включают в себя R, Python, Scaia, Java и т. д. [из А.11 Языки программирования ГОСТ Р ИСО/МЭК 20546-2021]