Искусственный интеллект, методы и технологии информационной безопасности
Международная научно-техническая конференция «Практическое применение технических и
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г.
506
В последнем случае задействуют различные методы предобработки для
вариативных моделей МО, обучаемых на разных частях датасета.
Автоматизированная подготовка пайплайна
— это преимущественно
задача комбинаторной оптимизации или поиска наилучшего сочетания
возможных факторов — множества вычислительных блоков. В этом
случае пайплайн описывают в виде направленного ациклического графа
(directed
acyclic graph, DAG), который может быть транслирован в граф
вычислений, а эффективность определяют с помощью целевых функций,
численно оценивающих качество, сложность, устойчивость и другие
свойства получившейся модели. Самый примитивный метод решения этой
задачи — случайный поиск (random search) с оценкой сочетаний блоков.
Более
совершенный
подход
—
мета-эвристические
алгоритмы
оптимизации: роевые и эволюционные (последние
можно реализовать с
помощью фреймворков TPOT и FEDOT). Такие алгоритмы должны иметь
специализированные операторы кроссовера, мутации и селекции для
применения к особям, описываемым графом (обычно деревом), работать с
многокритериальной целевой функцией, включать дополнительные
процедуры для создания устойчивых и не склонных к переобучению
пайплайнов (например, регуляризацию). Операторы кроссовера и мутации
могут быть реализованы классическим способом — в
виде кроссовера
поддеревьев (subtree crossover), когда выбираются две родительские особи,
которые обмениваются случайными частями своих графов. Но это — не
единственная возможная реализация, есть и более семантически сложные
варианты (например, one-point crossover). Мутация на деревьях также
предполагает реализации, включающие случайное изменение модели (или
вычислительного блока) в случайном узле графа на подходящий вариант
из пула моделей, удаление случайного узла, а также случайное добавление
поддерева. В идеальном случае, AutoML позволяет исключить эксперта-
аналитика из процесса
разработки, эксплуатации и внедрения модели.
Типовой сценарий применения AutoML выглядит следующим
образом. На основе доступных данных (обучающей выборки)
Sun’iy intelekt, axborot xavfsizligi texnikasi va texnologiyalari
Международная научно-техническая конференция «Практическое применение технических и
цифровых технологий и их инновационных решений», ТАТУФФ, Фергана, 4 мая 2023 г.
507
осуществляют оптимизация структуры пайплайна моделирования и
гиперпараметров блоков, входящих в его состав. Однако на практике
реализации, неплохо работающие на тестовых задачах, оказываются не так
хороши на «боевых» сводах данных. Поэтому появляются всё новые и
новые AutoML-решения: H2O, AutoGluon, LAMA, NNI и другие. Они
отличаются по возможностям (например,
индустриальные решения
обладают развитыми инфраструктурными возможностями), но часто не
подходят для широкого круга задач. Хотя большинство фреймворков
позволяют решать задачи классификации и регрессии, прогнозирование
временных рядов они часто не поддерживают.