Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь

4.2.3 Разнообразие данных ГОСТ Р ИСО/МЭК 20546-2021

Свойство разнообразия данных отражает необходимость анализа данных разных типов из различных предметных областей. Как правило, проблема разнообразия данных решалась посредством их преобразования или проведения предварительного анализа с целью выявления свойств, позволяющих объединить их с другими данными. Более широкий диапазон форматов данных, логических моделей, временных шкал и семантики, которые предпочтительно использовать при аналитике, усложняет интеграцию разнообразных данных. В качестве средства, способствующего интеграции, все чаще используются метаданные. Одним из результатов влияния разнообразия на большие данные является необходимость представления семантики данных в машиночитаемом виде [из 4.2.3 Разнообразие данных ГОСТ Р ИСО/МЭК 20546-2021]

    4.2.4 Вариативность данных ГОСТ Р ИСО/МЭК 20546-2021

    Вариативность данных означает изменения в скорости передачи данных, их формате/структуре, семантике и (или) качестве, которые влияют на поддерживаемое приложение, аналитику или проблему. Влияние вариативности может заключаться в необходимости проведения реорганизации архитектур, интерфейсов, методов обработки/алгоритмов, интеграции/слияния, хранения, применимости или использования данных. В дополнение следует отметить, что вариативность объемов данных подразумевает необходимость увеличения или уменьшения виртуализированных ресурсов для эффективного управления дополнительной нагрузкой на обработку [из 4.2.4 Вариативность данных ГОСТ Р ИСО/МЭК 20546-2021]

      4.3.1 Наука о данных ГОСТ Р ИСО/МЭК 20546-2021

      Наука о данных изучает процесс извлечения из них знаний. Используемый научный подход может заключаться либо в проведении исследований, либо в проверке гипотез. Наука о данных изучает полный жизненный цикл аналитики данных, в котором аналитика данных понимается согласно 3.1.6 [из 4.3.1 Наука о данных ГОСТ Р ИСО/МЭК 20546-2021]

        4.3.10 Нереляционные базы данных ГОСТ Р ИСО/МЭК 20546-2021

        В горизонтально масштабируемых системах данные распределяются по узлам кластера, имея при этом единую логическую структуру. Новые парадигмы базы данных нереляционной модели обычно называют NoSQL («не только SQL» или «не SQL»). Проблема с определением парадигмы хранения больших данных как NoSQL заключается, во-первых, в описании хранения данных на теоретико-множественном языке для запросов и извлечения данных и, во-вторых, в расширении возможностей применения языков запросов, похожих на SQL, к новым нереляционным хранилищам данных. В то время как NoSQL используется настолько широко, что будет применяться в новых моделях данных вне рамок реляционной модели, сам термин относится к базам данных, не следующим реляционной модели. Примерами моделей нереляционных баз данных являются столбец, разреженная таблица, ключ-значение, документ-ключ и графические модели [из 4.3.10 Нереляционные базы данных ГОСТ Р ИСО/МЭК 20546-2021]

          4.3.2 Изменчивость данных ГОСТ Р ИСО/МЭК 20546-2021

          Изменчивость данных связана с ограниченным промежутком времени, в течение которого значения данных остаются актуальными для конкретного анализа, и определяется динамикой изменений.

          В тех ситуациях, когда аналитика данных проводится в режиме реального времени, немедленная обработка данных является критически необходимой для принятия решений. Наиболее очевидным образом это проявляется при работе с данными с высокой скоростью генерации, например с данными, связанными с фондовыми рынками или телекоммуникациями. Однако данные, непригодные для специфического, чувствительного к временным рамкам анализа ввиду устаревания, могут оставаться актуальными для других типов аналитики, не зависимых от времени [из 4.3.2 Изменчивость данных ГОСТ Р ИСО/МЭК 20546-2021]

            4.3.3 Достоверность данных ГОСТ Р ИСО/МЭК 20546-2021

            Достоверность данных определяется их полнотой и точностью, в связи с чем для обозначения качества данных в профессиональном жаргоне длительное время существует выражение «мусор на входе - мусор на выходе». Если аналитика данных направлена на установление причинно-следственных связей, то качество каждого элемента является крайне важным. Если аналитика осуществляется путем выявления корреляций или трендов в больших массивах данных, то отдельные некорректные элементы могут быть утеряны при общих подсчетах, но тренд может оставаться точным [из 4.3.3 Достоверность данных ГОСТ Р ИСО/МЭК 20546-2021]

              4.3.5 Визуализация данных ГОСТ Р ИСО/МЭК 20546-2021

              Под визуализацией данных подразумевается такое их представление, которое позволяет пользователю извлечь из них информацию. Большие данные потребовали новых методов обработки массивов данных больших объемов, включая сбор и обобщение данных для их наибольшей наглядности. Большие данные также требуют более пристального внимания к визуальному представлению для лиц, ответственных за принятие решений. Это необходимо для изложения результатов в доступном для понимания виде, а также для информирования об их сложности, точности и вероятностном интервале ошибок [из 4.3.5 Визуализация данных ГОСТ Р ИСО/МЭК 20546-2021]

                4.3.6 Структурированные и неструктурированные данные ГОСТ Р ИСО/МЭК 20546-2021

                Постоянно увеличиваются как объемы, так и значение неструктурированных данных. Хотя реляционные базы данных обычно поддерживают эти типы элементов данных, их способность непосредственно анализировать, индексировать и обрабатывать такие типы данных, как правило, ограничена и доступна через нестандартные расширения SQL. Потребность в анализе неструктурированных данных существует уже много лет. Однако переход на парадигму больших данных привел к повышению значимости неструктурированных данных. Также в отношении неструктурированных данных особое внимание уделяется различным новым методам разработки, которые позволят проводить анализ таких данных более эффективно [из 4.3.6 Структурированные и неструктурированные данные ГОСТ Р ИСО/МЭК 20546-2021]

                  Страницы

                  Подписка на Из ГОСТ Р ИСО/МЭК 20546-2021 Информационные технологии. Большие данные. Обзор и словарь