4.3 Ключевые характеристики обработки данных ГОСТ Р ИСО/МЭК 20546-2021

4.3.1 Наука о данных ГОСТ Р ИСО/МЭК 20546-2021

Наука о данных изучает процесс извлечения из них знаний. Используемый научный подход может заключаться либо в проведении исследований, либо в проверке гипотез. Наука о данных изучает полный жизненный цикл аналитики данных, в котором аналитика данных понимается согласно 3.1.6 [из 4.3.1 Наука о данных ГОСТ Р ИСО/МЭК 20546-2021]

4.3.2 Изменчивость данных ГОСТ Р ИСО/МЭК 20546-2021

Изменчивость данных связана с ограниченным промежутком времени, в течение которого значения данных остаются актуальными для конкретного анализа, и определяется динамикой изменений.

В тех ситуациях, когда аналитика данных проводится в режиме реального времени, немедленная обработка данных является критически необходимой для принятия решений. Наиболее очевидным образом это проявляется при работе с данными с высокой скоростью генерации, например с данными, связанными с фондовыми рынками или телекоммуникациями. Однако данные, непригодные для специфического, чувствительного к временным рамкам анализа ввиду устаревания, могут оставаться актуальными для других типов аналитики, не зависимых от времени [из 4.3.2 Изменчивость данных ГОСТ Р ИСО/МЭК 20546-2021]

4.3.3 Достоверность данных ГОСТ Р ИСО/МЭК 20546-2021

Достоверность данных определяется их полнотой и точностью, в связи с чем для обозначения качества данных в профессиональном жаргоне длительное время существует выражение «мусор на входе - мусор на выходе». Если аналитика данных направлена на установление причинно-следственных связей, то качество каждого элемента является крайне важным. Если аналитика осуществляется путем выявления корреляций или трендов в больших массивах данных, то отдельные некорректные элементы могут быть утеряны при общих подсчетах, но тренд может оставаться точным [из 4.3.3 Достоверность данных ГОСТ Р ИСО/МЭК 20546-2021]

4.3.5 Визуализация данных ГОСТ Р ИСО/МЭК 20546-2021

Под визуализацией данных подразумевается такое их представление, которое позволяет пользователю извлечь из них информацию. Большие данные потребовали новых методов обработки массивов данных больших объемов, включая сбор и обобщение данных для их наибольшей наглядности. Большие данные также требуют более пристального внимания к визуальному представлению для лиц, ответственных за принятие решений. Это необходимо для изложения результатов в доступном для понимания виде, а также для информирования об их сложности, точности и вероятностном интервале ошибок [из 4.3.5 Визуализация данных ГОСТ Р ИСО/МЭК 20546-2021]

4.3.6 Структурированные и неструктурированные данные ГОСТ Р ИСО/МЭК 20546-2021

Постоянно увеличиваются как объемы, так и значение неструктурированных данных. Хотя реляционные базы данных обычно поддерживают эти типы элементов данных, их способность непосредственно анализировать, индексировать и обрабатывать такие типы данных, как правило, ограничена и доступна через нестандартные расширения SQL. Потребность в анализе неструктурированных данных существует уже много лет. Однако переход на парадигму больших данных привел к повышению значимости неструктурированных данных. Также в отношении неструктурированных данных особое внимание уделяется различным новым методам разработки, которые позволят проводить анализ таких данных более эффективно [из 4.3.6 Структурированные и неструктурированные данные ГОСТ Р ИСО/МЭК 20546-2021]

4.3.7 Масштабирование ГОСТ Р ИСО/МЭК 20546-2021

Большие данные подразумевают возможность расширения репозиториев данных и их обработку на параллельно работающих ресурсах - аналогичным образом сообщество специалистов, использующих моделирование, требующее ресурсоемких вычислений, массово перешло на параллельную обработку. Благодаря разработке методов взаимодействия между ресурсами, такое же масштабирование теперь доступно для приложений, использующих большое количество данных. Вертикальное масштабирование подразумевает увеличение системных параметров скорости обработки, хранения и памяти для повышения производительности. Этот подход ограничен физическими возможностями, развитие которых описано в законе Мура, и требует все более сложных элементов (например, аппаратного и программного обеспечения), приводящих к росту материальных и временных затрат на реализацию. Альтернативный метод состоит в применении горизонтального масштабирования, чтобы использовать отдельные распределенные ресурсы, объединяемые для работы в качестве единой системы. Именно горизонтальное масштабирование лежит в основе революции больших данных. Хотя методы достижения эффективной масштабируемости между ресурсами будут постоянно развиваться, эта смена парадигмы (по аналогии с предыдущим переходом на параллельную обработку в сообществе специалистов, используемых моделирование) представляет собой единовременное явление [из 4.3.7 Масштабирование ГОСТ Р ИСО/МЭК 20546-2021]

4.3.8 Распределенная файловая система ГОСТ Р ИСО/МЭК 20546-2021

В распределенных файловых системах мультиструктурированные (объектные) массивы данных распределяются по вычислительным узлам кластера(ов) серверов. Данные могут распределяться на уровне файлов/массивов данных или - чаще всего - на уровне блоков, что позволяет нескольким узлам в кластере одновременно взаимодействовать с различными частями большого файла/массива данных. Системы больших данных часто проектируются таким образом, чтобы при распределении обработки использовать преимущества привязки данных к каждому вычислительному узлу, исключая необходимость перемещения данных между узлами. Кроме того, во многих распределенных файловых системах также реализована репликация на уровне файлов/блоков, при которой на разных узлах компьютеров хранится несколько копий каждого файла/блока как для обеспечения надежности/восстановления (данные не теряются при сбое узла в кластере), так и для улучшения привязки данных к вычислительным узлам. Любой тип данных и файлы любого размера могут обрабатываться без формального извлечения, преобразования и загрузки, при этом некоторые технологии работают заметно эффективнее с файлами большого размера [из 4.3.8 Распределенная файловая система ГОСТ Р ИСО/МЭК 20546-2021]

4.3.9 Распределенная обработка данных ГОСТ Р ИСО/МЭК 20546-2021

Популярная структура для распределенных вычислений состоит из комбинации уровня хранения и уровня обработки, которая реализует мультиклассовую модель алгоритмического программирования. Недорогие серверы потребительского уровня, поддерживающие распределенную файловую систему хранения данных, могут значительно снизить затраты на хранение вычислений для большого объема данных (например, индексация в сети). При распределенной обработке данных запрос распределен по процессорам, а результаты собираются в центральный процессор. Затем результаты обработки обычно загружаются в аналитическую среду. Для достижения эффективности, надежности, высокой доступности и отказоустойчивости системы несколько узлов (например, клиентские узлы, узлы данных, узлы-реплики) размещаются в виде архитектуры «ведущий-ведомый» [из 4.3.9 Распределенная обработка данных ГОСТ Р ИСО/МЭК 20546-2021]

4.3.10 Нереляционные базы данных ГОСТ Р ИСО/МЭК 20546-2021

В горизонтально масштабируемых системах данные распределяются по узлам кластера, имея при этом единую логическую структуру. Новые парадигмы базы данных нереляционной модели обычно называют NoSQL («не только SQL» или «не SQL»). Проблема с определением парадигмы хранения больших данных как NoSQL заключается, во-первых, в описании хранения данных на теоретико-множественном языке для запросов и извлечения данных и, во-вторых, в расширении возможностей применения языков запросов, похожих на SQL, к новым нереляционным хранилищам данных. В то время как NoSQL используется настолько широко, что будет применяться в новых моделях данных вне рамок реляционной модели, сам термин относится к базам данных, не следующим реляционной модели. Примерами моделей нереляционных баз данных являются столбец, разреженная таблица, ключ-значение, документ-ключ и графические модели [из 4.3.10 Нереляционные базы данных ГОСТ Р ИСО/МЭК 20546-2021]