8.1 До проведения мероприятий по сбору данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта необходимо определить:
- цели и задачи, являющиеся основанием для сбора данных;
- перечень и объем собираемых данных;
- методы сбора данных.
Также целесообразно определить гипотезу, которая может быть подтверждена или опровергнута в ходе исследования собираемых данных [из 8.1 ГОСТ Р 59897–2021]
8.2 Для эффективного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо установить уровень качества собираемых данных и соответствующие требования к его определению [из 8.2 ГОСТ Р 59897–2021]
8.3 Качество данных оценивают по следующим критериям:
- точность — соответствие данных реальному состоянию исследуемых объектов;
- полнота — данные отражают все ожидаемые характеристики исследуемых объектов в ожидаемом объеме;
- согласованность — в данных отсутствуют внутренние противоречия, идентичные данные из различных источников совпадают;
- целостность — данные не были изменены при выполнении какой–либо операции (передача, хранение или отображение);
- обоснованность — собранные данные отвечают поставленным целям и задачам;
- расхождение во времени — соответствие собираемых данных времени их возникновения;
- уникальность — в данных отсутствуют дубликаты;
- валидность — данные соответствуют ожидаемому формату, значения находятся в ожидаемых диапазонах и имеют ожидаемую точность.
[из 8.3 ГОСТ Р 59897–2021]
8.5 Для удобства дальнейшего использования данных, в том числе для их последующей очистки, по результатам оценки качества данных может быть сформирован соответствующий отчет [из 8.5 ГОСТ Р 59897–2021]
8.6 Для собираемых данных необходимо предварительно определить основные параметры жизненного цикла данных, включая продолжительность хранения, сроки архивации и уничтожения данных [из 8.6 ГОСТ Р 59897–2021]
8.7 Сбор данных для использования в образовательных продуктах с алгоритмами искусственного интеллекта может проходить в несколько этапов:
- подготовительный этап, на котором данные собирают для настройки и тестирования моделей машинного обучения (элементов искусственного интеллекта), используемых в образовательном продукте;
- формирующий этап — первичный сбор данных об участнике образовательной деятельности, осуществляемый при его первоначальном обращении к образовательному продукту;
- реализующий этап — текущий сбор данных, осуществляемый регулярно для реализации функций адаптивной обучающей системы (например, сбор цифрового следа обучающегося).
[из 8.7 ГОСТ Р 59897–2021]
8.8 Для наиболее эффективного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо обеспечить сбор данных обо всех действиях участников образовательного процесса [из 8.8 ГОСТ Р 59897–2021]