В настоящем стандарте применены следующие термины с соответствующими определениями.
ISO (ИСО) и IEC (МЭК) поддерживают терминологические базы данных для использования в стандартизации по следующим адресам:
- Онлайн-библиотека стандартов ISO (ИСО) по ГОСТ Р ИСО/МЭК 20546-2021: доступна по адресу: https://www.iso.org/obp;
- Международный электротехнический словарь МЭК (IEC Electropedia) по ГОСТ Р ИСО/МЭК 20546-2021: доступен по адресу: http://www.electropedia.org/.
[из 3 Термины и определения ГОСТ Р ИСО/МЭК 20546-2021]
3.1 Термины ГОСТ Р ИСО/МЭК 20546-2021
Выгода (benefit) по ГОСТ Р ИСО/МЭК 20546-2021
Польза для организации от практически полезных знаний, полученных из аналитической системы.
Примечание - Большие данные часто ассоциируются с выгодой вследствие понимания того, что данные имеют потенциальную ценность, ранее обычно не рассматриваемую [из 3.1.1 ГОСТ Р ИСО/МЭК 20546-2021]
Большие данные (big data) по ГОСТ Р ИСО/МЭК 20546-2021
Большие массивы данных (3.1.11), отличающиеся главным образом такими характеристиками, как объем, разнообразие, скорость обработки и (или) вариативность, которые требуют использования технологии масштабирования для эффективного хранения, обработки, управления и анализа.
Примечание - Термин «большие данные» широко применяется в различных значениях, например в качестве наименования технологии масштабирования, используемой для обработки больших массивов данных [из 3.1.2 ГОСТ Р ИСО/МЭК 20546-2021]
Облачные вычисления (cloud computing) по ГОСТ Р ИСО/МЭК 20546-2021
Парадигма для предоставления возможности сетевого доступа к масштабируемому и эластичному пулу общих физических или виртуальных ресурсов с предоставлением самообслуживания и администрированием по требованию.
Примечание - Примерами таких ресурсов являются серверы, операционные системы, сети, программное обеспечение, приложения и оборудование для хранения [из 3.1.3 ГОСТ Р ИСО/МЭК 20546-2021]
Кластер (в распределенной обработке данных) (cluster) по ГОСТ Р ИСО/МЭК 20546-2021
Совокупность функциональных устройств, находящихся под общим управлением [из 3.1.4 ГОСТ Р ИСО/МЭК 20546-2021]
Данные (data) по ГОСТ Р ИСО/МЭК 20546-2021
Представление информации в формальном виде, пригодном для передачи, интерпретации или обработки.
Примечание - Данные могут быть обработаны автоматически или вручную [из 3.1.5 ГОСТ Р ИСО/МЭК 20546-2021]
Аналитика данных (data analytics) по ГОСТ Р ИСО/МЭК 20546-2021
Составное понятие, охватывающее получение, сбор, проверку и обработку данных (3.1.9), включая их количественную оценку, визуализацию и интерпретацию.
Примечание - Аналитика данных используется для представления объектов, описываемых данными (3.1.5), с целью прогнозирования конкретных ситуаций и формирования пошаговых рекомендаций при решении задач. Закономерности, полученные посредством аналитики, используются в различных целях, таких как принятие решений, проведение исследований, обеспечение устойчивого развития, проектирование, планирование и т. д. [из 3.1.6 ГОСТ Р ИСО/МЭК 20546-2021]
База данных (database) по ГОСТ Р ИСО/МЭК 20546-2021
Совокупность данных (3.1.5), организованная в соответствии с концептуальной структурой, в которой описываются характеристики этих данных и взаимосвязи между представляемыми ими сущностями для одной или нескольких областей применения [из 3.1.7 ГОСТ Р ИСО/МЭК 20546-2021]
Модель данных (data model) по ГОСТ Р ИСО/МЭК 20546-2021
Схема данных (3.1.5), структурированная в базе данных (3.1.7) в соответствии с формальными описаниями в информационной системе и требованиями используемой системы управления базой данных [из 3.1.8 ГОСТ Р ИСО/МЭК 20546-2021]
Обработка данных (data processing) по ГОСТ Р ИСО/МЭК 20546-2021
Систематическое выполнение операций с данными (3.1.5).
- Арифметические или логические операции с данными, объединение или сортировка данных или такие операции с текстом, как редактирование, сортировка, объединение, хранение, извлечение, отображение или печать.
- Термин «обработка данных» не должен использоваться в качестве синонима для термина «обработка информации».
[из 3.1.9 ГОСТ Р ИСО/МЭК 20546-2021]
Массив данных (data set, dataset) по ГОСТ Р ИСО/МЭК 20546-2021
Идентифицируемая совокупность данных (3.1.5), к которой можно получить доступ или скачать в одном или нескольких форматах [из 3.1.11 ГОСТ Р ИСО/МЭК 20546-2021]
Примечание - Наряду с термином «массивы данных» используется равнозначный термин «наборы данных» [из 3.3 ГОСТ Р 59925-2021]
Тип данных (data type, datatype) по ГОСТ Р ИСО/МЭК 20546-2021
Совокупность объектов данных (3.1.5) установленной структуры и набора допустимых операций над этими объектами.
- Целочисленный тип данных имеет простую структуру, каждый экземпляр которой, обычно называемый значением, представляет собой одно из целых чисел из заданного диапазона, а допустимые действия включают в себя обычные арифметические операции над этими целыми числами.
- Если толкование не вызывает сомнений, то вместо термина «тип данных» может быть использован термин «тип».
- Тип данных; определение и термины, стандартизованные ИСО/МЭК [ИСО/МЭК 2382-15:1999].
[из 3.1.12 ГОСТ Р ИСО/МЭК 20546-2021]
Вариативность данных (data variability) по ГОСТ Р ИСО/МЭК 20546-2021
Изменения в скорости передачи, формате или структуре, семантике или качестве массива данных (3.1.11) [из 3.1.13 ГОСТ Р ИСО/МЭК 20546-2021]
Разнообразие данных (data variety) по ГОСТ Р ИСО/МЭК 20546-2021
Диапазон форматов, логических моделей, временных шкал и семантики массива данных (3.1.11).
Примечание - Данное понятие отражает нерегулярность и разнородность структур данных, навигации по структурам, запросов и типов данных [из 3.1.14 ГОСТ Р ИСО/МЭК 20546-2021]
Скорость обработки данных (data velocity) по ГОСТ Р ИСО/МЭК 20546-2021
Скорость потока, с которой данные (3.1.5) создаются, передаются, сохраняются, анализируются или визуализируются [из 3.1.15 ГОСТ Р ИСО/МЭК 20546-2021]
Достоверность данных (data veracity) по ГОСТ Р ИСО/МЭК 20546-2021
Полнота и (или) точность данных (3.1.5).
Примечание - Под достоверностью данных понимают описательные данные и самоанализ объектов для поддержки принятия решений в режиме реального времени [из 3.1.16 ГОСТ Р ИСО/МЭК 20546-2021]
Изменчивость данных (data volatility) по ГОСТ Р ИСО/МЭК 20546-2021
Характеристика данных (3.1.5), относящаяся к скорости их изменения с течением времени [из 3.1.17 ГОСТ Р ИСО/МЭК 20546-2021]
Объем данных (data volume) по ГОСТ Р ИСО/МЭК 20546-2021
Количественная характеристика данных (3.1.5), влияющая на выбор ресурсов для вычислений и хранения, а также на управление данными в процессе обработки.
Примечание - Объем данных становится важным при работе с большими массивами данных (3.1.11) [из 3.1.18 ГОСТ Р ИСО/МЭК 20546-2021]
Распределенная обработка данных (distributed data processing) по ГОСТ Р ИСО/МЭК 20546-2021
Обработка данных, при которой выполнение операций распределено по узлам вычислительной сети [из 3.1.19 ГОСТ Р ИСО/МЭК 20546-2021]
Файл (file) по ГОСТ Р ИСО/МЭК 20546-2021
Поименованная совокупность записей, рассматриваемая как единое целое [из 3.1.21 ГОСТ Р ИСО/МЭК 20546-2021]
Сборка (gather) по ГОСТ Р ИСО/МЭК 20546-2021
Объединение результатов из нескольких узлов в кластере.
Примечание - См. распределение-сборка (3.2.33) [из 3.1.22 ГОСТ Р ИСО/МЭК 20546-2021]
Горизонтальное масштабирование (horizontal scaling) по ГОСТ Р ИСО/МЭК 20546-2021
Формирование единого логического целого путем соединения нескольких аппаратно-программных комплексов.
- Примером горизонтального масштабирования является повышение производительности распределенной обработки данных путем добавления узлов в кластере с целью подключения (привлечения) дополнительных ресурсов.
- Горизонтальное масштабирование для увеличения производительности также называется масштабированием вширь (scale-out).
[из 3.1.23 ГОСТ Р ИСО/МЭК 20546-2021]
Метаданные (metadata) по ГОСТ Р ИСО/МЭК 20546-2021
Данные (3.1.5) о данных или элементах данных, которые могут включать описание, а также сведения о владельце данных, путях доступа к ним, правах доступа и изменчивости данных (3.1.17) [из 3.1.24 ГОСТ Р ИСО/МЭК 20546-2021]
Нереляционная база данных (non-relational database) по ГОСТ Р ИСО/МЭК 20546-2021
База данных (3.1.7), не соответствующая реляционной модели (3.1.31).
Примечание - «NoSQL», что обычно переводится как «не SQL» или «не только SQL», является общеупотребительным термином для обозначения баз данных, не соответствующих реляционной модели [из 3.1.25 ГОСТ Р ИСО/МЭК 20546-2021]
Нереляционная модель данных (non-relational model) по ГОСТ Р ИСО/МЭК 20546-2021
Логическая модель данных (3.1.10), не соответствующая реляционной модели (3.1.31) хранения и обработки данных (3.1.5) [из 3.1.26 ГОСТ Р ИСО/МЭК 20546-2021]
Параллельность (parallel) по ГОСТ Р ИСО/МЭК 20546-2021
Относится к процессу, в котором все события происходят в одном и том же интервале времени, и при этом каждое из них обрабатывается отдельной, но схожей функциональной единицей.
Примечание - Параллельная передача битов компьютерного слова по линиям внутренней шины [из 3.1.27 ГОСТ Р ИСО/МЭК 20546-2021]
Частично структурированные данные (partially structured data) по ГОСТ Р ИСО/МЭК 20546-2021
Данные (3.1.5), в которых присутствует определенная степень организации.
- Частично структурированные данные в практической деятельности часто называют полуструктурированными.
- Примерами частично структурированных данных являются записи со свободными текстовыми полями в дополнение к более структурированным данным. Такие данные часто представлены в компьютерно-интерпретируемых/разбираемых форматах, таких как XML или JSON.
[из 3.1.28 ГОСТ Р ИСО/МЭК 20546-2021]
Реляционная алгебра (relational algebra) по ГОСТ Р ИСО/МЭК 20546-2021
Алгебра для выражения и манипулирования отношениями [из 3.1.29 ГОСТ Р ИСО/МЭК 20546-2021]
Реляционная база данных (relational database) по ГОСТ Р ИСО/МЭК 20546-2021
База данных (3.1.7), данные в которой организованы по реляционной модели (3.1.31) [из 3.1.30 ГОСТ Р ИСО/МЭК 20546-2021]
Реляционная модель данных (relational model) по ГОСТ Р ИСО/МЭК 20546-2021
Модель данных (3.1.10), структура которой основана на реляционных отношениях [из 3.1.31 ГОСТ Р ИСО/МЭК 20546-2021]
Распределение (scatter) по ГОСТ Р ИСО/МЭК 20546-2021
Распределение обработки по нескольким узлам в кластере (3.1.4).
Примечание - См. распределение-сборка (3.2.33) [из 3.1.32 ГОСТ Р ИСО/МЭК 20546-2021]
Распределение-сборка (scatter-gather) по ГОСТ Р ИСО/МЭК 20546-2021
Вид обработки больших массивов данных (3.1.11), при которой необходимые вычисления разделяются и распределяются по нескольким узлам в кластере, а общий результат формируется путем объединения результатов от каждого узла.
Примечание - Обработка методом распределения-сборки обычно требует алгоритмического изменения обрабатывающего программного обеспечения. Примером обработки данных методом распределения-сборки является MapReduce [из 3.1.33 ГОСТ Р ИСО/МЭК 20546-2021]
Потоковые данные (streaming data) по ГОСТ Р ИСО/МЭК 20546-2021
Данные (3.1.5), передаваемые через интерфейс от непрерывно работающего источника [из 3.1.34 ГОСТ Р ИСО/МЭК 20546-2021]
Структурированные данные (structured data) по ГОСТ Р ИСО/МЭК 20546-2021
Данные (3.1.5), организованные на основе предопределенного (применимого) набора правил.
- Предопределенный набор правил, регулирующих основу для структурирования данных, должен быть четко изложен и опубликован.
- Предопределенная модель данных часто используется для управления структурированием данных.
[из 3.1.35 ГОСТ Р ИСО/МЭК 20546-2021]
SQL по ГОСТ Р ИСО/МЭК 20546-2021
Язык баз данных, описанный в ИСО/МЭК 9075.
Примечание - Аббревиатура SQL иногда расшифровывается как «язык структурированных запросов» (Structured Query Language), но это название не используется в серии стандартов ИСО/МЭК 9075 [из 3.1.36 ГОСТ Р ИСО/МЭК 20546-2021]
Неструктурированные данные (unstructured data) по ГОСТ Р ИСО/МЭК 20546-2021
Данные (3.1.5), характеризуемые отсутствием какой-либо структуры, кроме структуры на уровне записи или файла.
- В целом неструктурированные данные не состоят из элементов данных.
- Примером неструктурированных данных является произвольный текст.
[из 3.1.37 ГОСТ Р ИСО/МЭК 20546-2021]
Вертикальное масштабирование (vertical scaling) по ГОСТ Р ИСО/МЭК 20546-2021
Повышение производительности обработки данных за счет улучшения характеристик процессоров, памяти, хранения или коннективности.
Примечание - Вертикальное масштабирование для увеличения производительности также называется масштабированием ввысь (scale-up) [из 3.1.38 ГОСТ Р ИСО/МЭК 20546-2021]
3.2 Сокращения ГОСТ Р ИСО/МЭК 20546-2021
- JSON - обозначение объектов Javascript;
- PII (personally identifiable information) - персональные данные;
- XML - расширяемый язык разметки.
[из 3.2 Сокращения ГОСТ Р ИСО/МЭК 20546-2021]