10.1 Если собранные данные являются первичными, то сначала необходимо провести их очистку [из 10.1 ГОСТ Р 59897–2021]
10.2 Данные после очистки и достижения установленного уровня качества форматируют в наборы данных для дальнейшего использования в образовательных продуктах с алгоритмами искусственного интеллекта.
Примечание — На данном этапе могут возникнуть производные атрибуты или новые записи, а также данные, интегрированные из других источников.
[из 10.2 ГОСТ Р 59897–2021]
10.3 Для каждой отдельной разновидности организации данных должен быть определен формат набора данных [из 10.3 ГОСТ Р 59897–2021]
10.4 Поскольку качество данных может пострадать на любом этапе жизненного цикла, необходимо планировать меры по обеспечению качества данных в расчете на весь жизненный цикл данных [из 10.4 ГОСТ Р 59897–2021]
10.5 Для корректного функционирования образовательных продуктов с алгоритмами искусственного интеллекта необходимо проводить мероприятия по повышению качества данных [из 10.5 ГОСТ Р 59897–2021]
10.6 Мероприятия по повышению качества данных разделяют на две категории: предупредительные и корректирующие.
- Примеры предупредительных мероприятий по повышению качества данных: проверка данных на несоответствие на входе, повышение квалификации сотрудников, ответственных за сбор данных, определение правил в части качества данных, использование источников с высококачественными данными и определение должностных лиц, ответственных за качество данных.
- Примеры корректирующих мероприятий по повышению качества данных: автоматическое исправление данных по известным шаблонам, исправление автоматизированными инструментами с ручной проверкой и ручное исправление.
[из 10.6 ГОСТ Р 59897–2021]