Из ГОСТ Р 59897-2021 Данные для систем искусственного интеллекта в образовании. Требования к сбору, хранению, обработке, передаче и защите данных

ГОСТ Р 59897–2021 Данные для систем искусственного интеллекта в образовании. Требования к сбору, хранению, обработке, передаче и защите данных. Data for artificial intelligence systems in education. Requirements for the collection, storage, processing, transmission and protection of data. УДК 004.896:004.624:006.354 ОКС 35.240.90. Редакция от 11.12.2023.

3 Термины и определения ГОСТ Р 59897-2021

В настоящем стандарте применены термины по ГОСТ Р ИСО 8000–2, а также следующие термины с соответствующими определениями:

Основные данные, мастер-данные (master-data) по ГОСТ Р 59897-2021

Данные, описывающие основные объекты и субъекты, участвующие в образовательной деятельности.

Примечания

  1. Помимо информации непосредственно о том или ином объекте, в основные данные входят взаимосвязи между этими объектами и субъектами и иерархии.
  2. Каждая организация определяет самостоятельно, какие данные следует считать основными.

[из 3.3 ГОСТ Р 59897–2021]

4 Общие требования ГОСТ Р 59897-2021

При организации сбора, хранения, обработки, передачи и защиты данных в образовательных продуктах с алгоритмами искусственного интеллекта:

  1. сбор, хранение, обработка и передача персональных данных может осуществляться только с согласия пользователей образовательного продукта. Рекомендуется предусмотреть возможность пользователя ознакомиться с собираемыми о нем данными;
  2. должны быть идентифицированы все заинтересованные стороны или их представители, на которых может быть оказано влияние в результате использования данных, определены их интересы и связанные с ними риски;
  3. предприняты необходимые действия для минимизации выявленных рисков.

[из 4 Общие требования ГОСТ Р 59897–2021]

5 Структура образовательной деятельности и модель данных ГОСТ Р 59897-2021

5.1 Образовательную деятельность с использованием образовательных продуктов с алгоритмами искусственного интеллекта можно представить в виде последовательности действий по планированию, осуществлению и оценке деятельности и ее результатов (см. рисунок 1).

- Этапы образовательной деятельности

Рисунок 1 – Этапы образовательной деятельности

[из 5.1 ГОСТ Р 59897–2021]

5.3 Модель данных включает в себя основные и транзакционные данные, описывающие участников образовательной деятельности, их планируемую и фактическую деятельность, оценку деятельности обучающегося и результатов обучения [из 5.3 ГОСТ Р 59897–2021]

5.5 Выделяют три уровня данных о фактической образовательной деятельности:

[из 5.5 ГОСТ Р 59897–2021]

5.6 В образовательную деятельность с использованием образовательных продуктов с алгоритмами искусственного интеллекта вовлечены обучающиеся и педагоги, а также инструменты и образовательные материалы продукта. Таким образом, данные о действиях в процессе обучения могут относиться к деятельности обучающихся, педагогов, а также использованию образовательных модулей и элементов [из 5.6 ГОСТ Р 59897–2021]

5.7 Отдельные элементы фактически осуществленной деятельности обучающегося описаны следующими параметрами:

Данные параметры также могут быть использованы для описания отдельных аспектов планируемой деятельности.

Примечание — Участник деятельности может быть представлен отдельным физическим лицом или группой лиц.

[из 5.7 ГОСТ Р 59897–2021]

6 Источники данных ГОСТ Р 59897-2021

6.3 Внутренними источниками данных являются отдельные модули и системы, входящие в состав образовательных продуктов с алгоритмами искусственного интеллекта. Внутренние источники обеспечивают сбор транзакционных данных о фактически осуществленной образовательной деятельности. Для успешного использования технологий искусственного интеллекта внутренние источники данных должны обеспечивать сбор разнородных данных, включая видео– и аудиоданные, изображения, текстовые и неструктурированные данные [из 6.3 ГОСТ Р 59897–2021]

6.4 Внешними источниками данных являются иные информационные системы, цифровые платформы и технические устройства. Источником внешних данных, необходимых для образовательных продуктов с алгоритмами искусственного интеллекта могут выступать:

[из 6.4 ГОСТ Р 59897–2021]

6.5 Для функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо использовать только верифицированные источники данных, гарантирующие достоверность, правильность и точность предоставляемой информации [из 6.5 ГОСТ Р 59897–2021]

7 Жизненный цикл данных ГОСТ Р 59897-2021

7.4 Обработка данных представляет собой манипуляции с данными на протяжении всего жизненного цикла, обеспечивающие их качество. На этапе обработки данные могут быть очищены, преобразованы, подвергнуты слиянию, улучшены или агрегированы [из 7.4 ГОСТ Р 59897–2021]

7.6 Архивация данных представляет собой копирование данных в специализированную систему (среду), в которой будет обеспечено их долгосрочное хранение, и удаление этих данных из активной системы. Архивация обеспечивает возможность повторного использования исторических данных, если они понадобятся вновь [из 7.6 ГОСТ Р 59897–2021]

8 Требования к сбору данных ГОСТ Р 59897-2021

8.1 До проведения мероприятий по сбору данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта необходимо определить:

  • цели и задачи, являющиеся основанием для сбора данных;
  • перечень и объем собираемых данных;
  • методы сбора данных.

Также целесообразно определить гипотезу, которая может быть подтверждена или опровергнута в ходе исследования собираемых данных [из 8.1 ГОСТ Р 59897–2021]

8.3 Качество данных оценивают по следующим критериям:

  1. точность — соответствие данных реальному состоянию исследуемых объектов;
  2. полнота — данные отражают все ожидаемые характеристики исследуемых объектов в ожидаемом объеме;
  3. согласованность — в данных отсутствуют внутренние противоречия, идентичные данные из различных источников совпадают;
  4. целостность — данные не были изменены при выполнении какой–либо операции (передача, хранение или отображение);
  5. обоснованность — собранные данные отвечают поставленным целям и задачам;
  6. расхождение во времени — соответствие собираемых данных времени их возникновения;
  7. уникальность — в данных отсутствуют дубликаты;
  8. валидность — данные соответствуют ожидаемому формату, значения находятся в ожидаемых диапазонах и имеют ожидаемую точность.

[из 8.3 ГОСТ Р 59897–2021]

8.7 Сбор данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта может проходить в несколько этапов:

[из 8.7 ГОСТ Р 59897–2021]

9 Требования к хранению данных ГОСТ Р 59897-2021

9.1 Хранимые данные должны иметь определенный набор метаданных. Метаданные подразделяются на три основных категории:

Примеры полей метаданных приведены в приложении А [из 9.1 ГОСТ Р 59897–2021]

9.2 Для управления метаданными необходимо установить требования к:

[из 9.2 ГОСТ Р 59897–2021]

9.3 Должно быть реализовано управление основными данными, включающее следующие мероприятия:

[из 9.3 ГОСТ Р 59897–2021]

10 Требования к обработке данных ГОСТ Р 59897-2021

10.2 Данные после очистки и достижения установленного уровня качества форматируют в наборы данных для дальнейшего использования в образовательных продуктах с алгоритмами искусственного интеллекта.

Примечание — На данном этапе могут возникнуть производные атрибуты или новые записи, а также данные, интегрированные из других источников.

[из 10.2 ГОСТ Р 59897–2021]

10.6 Мероприятия по повышению качества данных разделяют на две категории: предупредительные и корректирующие.

Примечания

  1. Примеры предупредительных мероприятий по повышению качества данных: проверка данных на несоответствие на входе, повышение квалификации сотрудников, ответственных за сбор данных, определение правил в части качества данных, использование источников с высококачественными данными и определение должностных лиц, ответственных за качество данных.
  2. Примеры корректирующих мероприятий по повышению качества данных: автоматическое исправление данных по известным шаблонам, исправление автоматизированными инструментами с ручной проверкой и ручное исправление.

[из 10.6 ГОСТ Р 59897–2021]

11 Требования к передаче данных ГОСТ Р 59897-2021

12 Требования к защите данных ГОСТ Р 59897-2021

Приложение А (справочное) - Примеры полей метаданных ГОСТ Р 59897-2021

А.1 Примеры описательных метаданных ГОСТ Р 59897-2021

Примерами описательных метаданных служат:

[из А.1 Примеры описательных метаданных ГОСТ Р 59897–2021]

А.2 Примеры описательных метаданных для образовательных данных ГОСТ Р 59897-2021

Примерами описательных метаданных для образовательных данных служат:

[из А.2 Примеры описательных метаданных для образовательных данных ГОСТ Р 59897–2021]

А.З Примеры технических метаданных ГОСТ Р 59897-2021

Примерами технических метаданных служат:

[из А.З Примеры технических метаданных ГОСТ Р 59897–2021]

А.4 Примеры операционных метаданных ГОСТ Р 59897-2021

Примерами операционных метаданных служат:

[из А.4 Примеры операционных метаданных ГОСТ Р 59897–2021]