ГОСТ Р 59897–2021 Данные для систем искусственного интеллекта в образовании. Требования к сбору, хранению, обработке, передаче и защите данных. Data for artificial intelligence systems in education. Requirements for the collection, storage, processing, transmission and protection of data. УДК 004.896:004.624:006.354 ОКС 35.240.90. Редакция от 11.12.2023.
1 Область применения ГОСТ Р 59897-2021
Настоящий стандарт устанавливает требования к процессам сбора, хранения, обработки, передачи и защиты данных, используемых в образовательных программно–технических системах с алгоритмами искусственного интеллекта [из 1 Область применения ГОСТ Р 59897–2021]
3 Термины и определения ГОСТ Р 59897-2021
В настоящем стандарте применены термины по ГОСТ Р ИСО 8000–2, а также следующие термины с соответствующими определениями:
Образовательный продукт с алгоритмами искусственного интеллекта по ГОСТ Р 59897-2021
Программно–техническая система, использующая алгоритмы искусственного интеллекта для решения различных задач в области образования [из 3.1 ГОСТ Р 59897–2021]
Жизненный цикл данных (data lifecycle) по ГОСТ Р 59897-2021
Последовательность этапов, через которые проходят данные от начального этапа формирования до момента уничтожения [из 3.2 ГОСТ Р 59897–2021]
Основные данные, мастер-данные (master-data) по ГОСТ Р 59897-2021
Данные, описывающие основные объекты и субъекты, участвующие в образовательной деятельности.
- Помимо информации непосредственно о том или ином объекте, в основные данные входят взаимосвязи между этими объектами и субъектами и иерархии.
- Каждая организация определяет самостоятельно, какие данные следует считать основными.
[из 3.3 ГОСТ Р 59897–2021]
Транзакционные данные по ГОСТ Р 59897-2021
Данные, которые образовались в результате выполнения каких–либо операций [из 3.4 ГОСТ Р 59897–2021]
Очистка данных (data cleansing) по ГОСТ Р 59897-2021
Процесс исправления или удаления неверных, поврежденных, неправильно отформатированных, дублированных или неполных данных в наборе данных [из 3.5 ГОСТ Р 59897–2021]
Персональные данные по ГОСТ Р 59897-2021
Любая информация, прямо или косвенно относящаяся к определенному или определяемому физическому лицу (субъекту персональных данных) [1, статья 3] [из 3.6 ГОСТ Р 59897–2021]
Репозиторий по ГОСТ Р 59897-2021
Место, где хранятся и поддерживаются какие–либо данные вместе с историей их изменения и другой служебной информацией [ГОСТ Р 57723–2017, статья 3.1.21] [из 3.7 ГОСТ Р 59897–2021]
Системы управления учебной деятельностью (LMS-системы) по ГОСТ Р 59897-2021
Программно–технические системы для организации учебного процесса и управления образовательными материалами [из 3.8 ГОСТ Р 59897–2021]
4 Общие требования ГОСТ Р 59897-2021
При организации сбора, хранения, обработки, передачи и защиты данных в образовательных продуктах с алгоритмами искусственного интеллекта:
- сбор, хранение, обработка и передача персональных данных может осуществляться только с согласия пользователей образовательного продукта. Рекомендуется предусмотреть возможность пользователя ознакомиться с собираемыми о нем данными;
- должны быть идентифицированы все заинтересованные стороны или их представители, на которых может быть оказано влияние в результате использования данных, определены их интересы и связанные с ними риски;
- предприняты необходимые действия для минимизации выявленных рисков.
[из 4 Общие требования ГОСТ Р 59897–2021]
5 Структура образовательной деятельности и модель данных ГОСТ Р 59897-2021
5.1 Образовательную деятельность с использованием образовательных продуктов с алгоритмами искусственного интеллекта можно представить в виде последовательности действий по планированию, осуществлению и оценке деятельности и ее результатов (см. рисунок 1).
Рисунок 1 – Этапы образовательной деятельности
[из 5.1 ГОСТ Р 59897–2021]
5.2 Фактически осуществленная образовательная деятельность может отличаться от запланированной в силу объективных и субъективных обстоятельств [из 5.2 ГОСТ Р 59897–2021]
5.3 Модель данных включает в себя основные и транзакционные данные, описывающие участников образовательной деятельности, их планируемую и фактическую деятельность, оценку деятельности обучающегося и результатов обучения [из 5.3 ГОСТ Р 59897–2021]
5.4 Данные о планируемой деятельности включают в себя основные данные о структуре, содержании, планируемых результатах, организационно–педагогических условиях их реализации [из 5.4 ГОСТ Р 59897–2021]
5.5 Выделяют три уровня данных о фактической образовательной деятельности:
- уровень деятельности (например, прохождение образовательной программы или курса в целом);
- уровень отдельного действия, имеющего смысл с точки зрения обучения (например, выполнение отдельной задачи в рамках курса, ответ на отдельный вопрос, просмотр видео и т.п.);
- уровень операции, не имеющей самостоятельного смысла с точки зрения обучения (например, взаимодействие с алгоритмами интерфейса в информационной системе).
[из 5.5 ГОСТ Р 59897–2021]
5.6 В образовательную деятельность с использованием образовательных продуктов с алгоритмами искусственного интеллекта вовлечены обучающиеся и педагоги, а также инструменты и образовательные материалы продукта. Таким образом, данные о действиях в процессе обучения могут относиться к деятельности обучающихся, педагогов, а также использованию образовательных модулей и элементов [из 5.6 ГОСТ Р 59897–2021]
5.7 Отдельные элементы фактически осуществленной деятельности обучающегося описаны следующими параметрами:
- участник образовательной деятельности;
- цель деятельности;
- инструменты, используемые в деятельности;
- обстоятельства и условия деятельности;
- предметная область деятельности;
- состояние участника в момент деятельности;
- результаты деятельности: образовательные и предметные (артефакты);
- роли участника деятельности (в коллективной деятельности);
- продемонстрированные или освоенные знания, умения, навыки.
Данные параметры также могут быть использованы для описания отдельных аспектов планируемой деятельности.
Примечание — Участник деятельности может быть представлен отдельным физическим лицом или группой лиц.
[из 5.7 ГОСТ Р 59897–2021]
6 Источники данных ГОСТ Р 59897-2021
6.1 Для эффективного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо обеспечить сбор и использование данных об участниках и объектах образовательного процесса из разнородных источников [из 6.1 ГОСТ Р 59897–2021]
6.2 Источники данных можно разделить на внутренние и внешние [из 6.2 ГОСТ Р 59897–2021]
6.3 Внутренними источниками данных являются отдельные модули и системы, входящие в состав образовательных продуктов с алгоритмами искусственного интеллекта. Внутренние источники обеспечивают сбор транзакционных данных о фактически осуществленной образовательной деятельности. Для успешного использования технологий искусственного интеллекта внутренние источники данных должны обеспечивать сбор разнородных данных, включая видео– и аудиоданные, изображения, текстовые и неструктурированные данные [из 6.3 ГОСТ Р 59897–2021]
6.4 Внешними источниками данных являются иные информационные системы, цифровые платформы и технические устройства. Источником внешних данных, необходимых для образовательных продуктов с алгоритмами искусственного интеллекта могут выступать:
- информационные системы образовательных организаций, в которых используются образовательные продукты с алгоритмами искусственного интеллекта;
- государственные информационные системы;
- информационные системы иных организаций, а также отраслевые информационные системы;
- цифровые социальные платформы.
[из 6.4 ГОСТ Р 59897–2021]
6.5 Для функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо использовать только верифицированные источники данных, гарантирующие достоверность, правильность и точность предоставляемой информации [из 6.5 ГОСТ Р 59897–2021]
7 Жизненный цикл данных ГОСТ Р 59897-2021
7.1 Жизненный цикл данных включает следующие этапы: сбор, хранение, обработка, использование, архивация и уничтожение данных [из 7.1 ГОСТ Р 59897–2021]
7.2 Сбор данных представляет собой формирование новых данных, получаемых от источников данных [из 7.2 ГОСТ Р 59897–2021]
7.3 Хранение данных представляет собой обеспечение сохранности и доступа к данным [из 7.3 ГОСТ Р 59897–2021]
7.4 Обработка данных представляет собой манипуляции с данными на протяжении всего жизненного цикла, обеспечивающие их качество. На этапе обработки данные могут быть очищены, преобразованы, подвергнуты слиянию, улучшены или агрегированы [из 7.4 ГОСТ Р 59897–2021]
7.5 Использование данных представляет собой применение данных для решения различных задач [из 7.5 ГОСТ Р 59897–2021]
7.6 Архивация данных представляет собой копирование данных в специализированную систему (среду), в которой будет обеспечено их долгосрочное хранение, и удаление этих данных из активной системы. Архивация обеспечивает возможность повторного использования исторических данных, если они понадобятся вновь [из 7.6 ГОСТ Р 59897–2021]
7.7 Уничтожение данных представляет собой необратимое удаление данных, исключающее их использование и восстановление [из 7.7 ГОСТ Р 59897–2021]
7.8 Допускается возможность перехода данных на новый жизненный цикл при их модификации и обогащении новыми данными [из 7.8 ГОСТ Р 59897–2021]
8 Требования к сбору данных ГОСТ Р 59897-2021
8.1 До проведения мероприятий по сбору данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта необходимо определить:
- цели и задачи, являющиеся основанием для сбора данных;
- перечень и объем собираемых данных;
- методы сбора данных.
Также целесообразно определить гипотезу, которая может быть подтверждена или опровергнута в ходе исследования собираемых данных [из 8.1 ГОСТ Р 59897–2021]
8.2 Для эффективного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо установить уровень качества собираемых данных и соответствующие требования к его определению [из 8.2 ГОСТ Р 59897–2021]
8.3 Качество данных оценивают по следующим критериям:
- точность — соответствие данных реальному состоянию исследуемых объектов;
- полнота — данные отражают все ожидаемые характеристики исследуемых объектов в ожидаемом объеме;
- согласованность — в данных отсутствуют внутренние противоречия, идентичные данные из различных источников совпадают;
- целостность — данные не были изменены при выполнении какой–либо операции (передача, хранение или отображение);
- обоснованность — собранные данные отвечают поставленным целям и задачам;
- расхождение во времени — соответствие собираемых данных времени их возникновения;
- уникальность — в данных отсутствуют дубликаты;
- валидность — данные соответствуют ожидаемому формату, значения находятся в ожидаемых диапазонах и имеют ожидаемую точность.
[из 8.3 ГОСТ Р 59897–2021]
8.5 Для удобства дальнейшего использования данных, в том числе для их последующей очистки, по результатам оценки качества данных может быть сформирован соответствующий отчет [из 8.5 ГОСТ Р 59897–2021]
8.6 Для собираемых данных необходимо предварительно определить основные параметры жизненного цикла данных, включая продолжительность хранения, сроки архивации и уничтожения данных [из 8.6 ГОСТ Р 59897–2021]
8.7 Сбор данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта может проходить в несколько этапов:
- подготовительный этап, на котором данные собирают для настройки и тестирования моделей машинного обучения (элементов искусственного интеллекта), используемых в образовательном продукте;
- формирующий этап — первичный сбор данных об участнике образовательной деятельности, осуществляемый при его первоначальном обращении к образовательному продукту;
- реализующий этап — текущий сбор данных, осуществляемый регулярно для реализации функций адаптивной обучающей системы (например, сбор цифрового следа обучающегося).
[из 8.7 ГОСТ Р 59897–2021]
8.8 Для наиболее эффективного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо обеспечить сбор данных обо всех действиях участников образовательного процесса [из 8.8 ГОСТ Р 59897–2021]
9 Требования к хранению данных ГОСТ Р 59897-2021
9.1 Хранимые данные должны иметь определенный набор метаданных. Метаданные подразделяются на три основных категории:
- описательные метаданные, описывающие содержание и состояние данных;
- технические метаданные, описывающие технические подробности хранения данных;
- операционные метаданные описывают процессы обработки данных и доступа к ним.
Примеры полей метаданных приведены в приложении А [из 9.1 ГОСТ Р 59897–2021]
9.2 Для управления метаданными необходимо установить требования к:
- частоте обновления метаданных;
- необходимости хранения исторических метаданных;
- правам доступа к метаданным;
- степени интеграции метаданных из различных источников;
- процессам и правилам обновления метаданных;
- ролям и обязанностям по управлению метаданными;
- качеству метаданных.
[из 9.2 ГОСТ Р 59897–2021]
9.3 Должно быть реализовано управление основными данными, включающее следующие мероприятия:
- установление сущностей и атрибутов основных данных;
- создание идентификаторов и перекрестных ссылок для интеграции данных из разных источников;
- объединение данных из различных источников для устранения несоответствий;
- дополнение и обновление репозитория основных данных.
[из 9.3 ГОСТ Р 59897–2021]
9.4 Для обеспечения возможности замены программного обеспечения, осуществляющего обработку и анализ данных, рекомендуется использовать открытые форматы хранения данных [из 9.4 ГОСТ Р 59897–2021]
10 Требования к обработке данных ГОСТ Р 59897-2021
10.1 Если собранные данные являются первичными, то сначала необходимо провести их очистку [из 10.1 ГОСТ Р 59897–2021]
10.2 Данные после очистки и достижения установленного уровня качества форматируют в наборы данных для дальнейшего использования в образовательных продуктах с алгоритмами искусственного интеллекта.
Примечание — На данном этапе могут возникнуть производные атрибуты или новые записи, а также данные, интегрированные из других источников.
[из 10.2 ГОСТ Р 59897–2021]
10.3 Для каждой отдельной разновидности организации данных должен быть определен формат набора данных [из 10.3 ГОСТ Р 59897–2021]
10.4 Поскольку качество данных может пострадать на любом этапе жизненного цикла, необходимо планировать меры по обеспечению качества данных в расчете на весь жизненный цикл данных [из 10.4 ГОСТ Р 59897–2021]
10.5 Для корректного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо проводить мероприятия по повышению качества данных [из 10.5 ГОСТ Р 59897–2021]
10.6 Мероприятия по повышению качества данных разделяют на две категории: предупредительные и корректирующие.
- Примеры предупредительных мероприятий по повышению качества данных: проверка данных на несоответствие на входе, повышение квалификации сотрудников, ответственных за сбор данных, определение правил в части качества данных, использование источников с высококачественными данными и определение должностных лиц, ответственных за качество данных.
- Примеры корректирующих мероприятий по повышению качества данных: автоматическое исправление данных по известным шаблонам, исправление автоматизированными инструментами с ручной проверкой и ручное исправление.
[из 10.6 ГОСТ Р 59897–2021]
11 Требования к передаче данных ГОСТ Р 59897-2021
11.1 Для организации взаимодействия образовательных продуктов с алгоритмами искусственного интеллекта с другими образовательными продуктами и иными информационными системами, в том числе с системами управления учебной деятельностью (LMS–системами), возможна организация разовой или регулярной передачи данных [из 11.1 ГОСТ Р 59897–2021]
11.2 Данные могут передаваться как в исходном, так и в обезличенном формате [из 11.2 ГОСТ Р 59897–2021]
11.3 Данные, собираемые и хранимые в образовательных продуктах с алгоритмами искусственного интеллекта, необходимо передавать в формате набора данных с соответствующим набором метаданных [из 11.3 ГОСТ Р 59897–2021]
11.4 Должна быть обеспечена надежность передачи данных, уменьшающая риск снижения качества данных в процессе передачи, а также исключающая копирование данных в другие системы [из 11.4 ГОСТ Р 59897–2021]
12 Требования к защите данных ГОСТ Р 59897-2021
12.1 Права доступа к данным, содержащимся в образовательных продуктах с алгоритмами искусственного интеллекта, должны быть описаны для каждой целевой группы пользователей [из 12.1 ГОСТ Р 59897–2021]
11.2 Для каждого набора данных, а также метаданных, хранящихся в образовательных продуктах с алгоритмами искусственного интеллекта, на уровне метаданных должен быть установлен уровень конфиденциальности [из 12.2 ГОСТ Р 59897–2021]
12.3 Данные, содержащиеся в образовательных продуктах с алгоритмами искусственного интеллекта, должны быть защищены от потери (например, с помощью резервного копирования или реплицирования) [из 12.3 ГОСТ Р 59897–2021]
Приложение А (справочное) - Примеры полей метаданных ГОСТ Р 59897-2021
А.1 Примеры описательных метаданных ГОСТ Р 59897-2021
Примерами описательных метаданных служат:
- определения и описания данных, сущностей, атрибутов;
- правила использования данных;
- уровень качества данных;
- расписание обновления данных;
- происхождение данных;
- допустимые ограничения значений;
- необходимая контактная информация;
- уровень конфиденциальности данных;
- известные проблемы с данными;
- примечания.
[из А.1 Примеры описательных метаданных ГОСТ Р 59897–2021]
А.2 Примеры описательных метаданных для образовательных данных ГОСТ Р 59897-2021
Примерами описательных метаданных для образовательных данных служат:
- контекст сбора данных (название образовательной программы, учебного курса, мероприятия);
- характер данных (описание и план деятельности, фактически осуществленная деятельность, оценка деятельности);
- источник данных (учащийся, фасилитатор);
- вид данных (данные о характеристиках учащегося или фасилитатора, данные о деятельности);
- уровень данных о деятельности (деятельность, действие, операция).
[из А.2 Примеры описательных метаданных для образовательных данных ГОСТ Р 59897–2021]
А.З Примеры технических метаданных ГОСТ Р 59897-2021
Примерами технических метаданных служат:
- имена таблиц и столбцов баз данных и их свойства;
- права доступа к данным, группы и роли;
- правила создания, замены, обновления и удаления данных;
- физические модели данных (имена таблиц, ключей и т.п.);
- перечень используемых справочников и классификаторов с указанием их версий;
- определение формата хранения данных;
- информация о происхождении, включая информацию о версиях;
- описание используемых программ и приложений;
- правила восстановления и резервного копирования.
[из А.З Примеры технических метаданных ГОСТ Р 59897–2021]
А.4 Примеры операционных метаданных ГОСТ Р 59897-2021
Примерами операционных метаданных служат:
- журналы выполнения заданий;
- история использования;
- журнал ошибок;
- отчеты о запросах, включая частоту и время выполнения;
- план и текущее состояние обслуживания и обновления;
- информация о резервном копировании;
- правила архивирования и хранения данных, связанные архивы;
- критерии очистки;
- правила обмена данными;
- технические роли и обязанности, контактная информация.
[из А.4 Примеры операционных метаданных ГОСТ Р 59897–2021]
Библиография ГОСТ Р 59897-2021
[1] Федеральный закон от 27 июля 2006 г. № 152–ФЗ «О персональных данных»
[из Библиография ГОСТ Р 59897–2021]