Коллективом российских ученых из компании-разработчика систем компьютерного зрения на основе искусственного интеллекта Smart Engines, ИППИ РАН и ФИЦ «Информатика и управление» РАН предложены новые подходы к радикальному улучшению интеллектуальных возможностей нейросетей, применяемых в автопилотах.

Решая задачу определения границ документа и распознавания строк текста в видеопотоке, научный коллектив под руководством кандидата физико-математических наук Дмитрия Николаева (ИППИ РАН) и кандидата технических наук Владимира Арлазарова (ФИЦ «Информатика и управление» РАН), которые также являются основателями компании-разработчика систем компьютерного зрения Smart Engines, разработал новую архитектуру нейронной сети, которая за счет принципиально нового подхода к анализу прямых может вывести на новый уровень зрительный интеллект систем автопилотирования. Этот новый подход ведет к «интуитивному пониманию» нейросетью геометрических законов физического 3-мерного мира, законов перспективы и динамики изменения изображения сцены при движении. Прямая в компьютерном зрении является одним из основных примитивов. Детекция прямых и их отрезков, поиск пучков и точек схода, где прямые пересекаются, являются основой для реконструкции трехмерной сцены «в воображении» технической системы. При этом надо понимать, что имеются в виду не только реальные прямые, как граница линии разметки на дороге, но и воображаемые, вроде линии крыш домов, верениц автомобилей, верхушек фонарей или деревьев, и т.д. Такие линии легко детектирует человеческий мозг, как показывает, например, иллюзия треугольника Канижа.

Результаты работ исследователей Smart Engines по созданию новой архитектуры нейронной сети, включающей в себя быстрое преобразование Хафа и получившей название ХафНет (HoughNet), были представлены на прошедших в Австралии и Нидерландах международных конференциях по компьютерному зрению ICDAR и ICMV и доступны на сайте arxiv.org.

ХафНет изначально разрабатывалась для создания нового поколения системы распознавания документов на мобильном устройстве. Распознавание на стороне пользователя предъявляет жесткие требования к «интеллектуальной эффективности» нейросети. Иначе говоря, сложность решаемых задач в пересчете на один нейрон велика. Испытания архитектуры показали, что ее интеллектуальная эффективность в задачах анализа изображений трехмерного мира в 100 раз превосходит классическую сверточную архитектуру U-net.

Важно тут то, что ХафНет — это не нейросеть для распознавания документов, и даже не архитектура для поиска прямых, а принципиально новая математическая модель для нейросетевого зрительного интеллекта. Если говорить простым языком, в новую архитектуру в виде математических ограничений заложены геометрические законы перспективы. В системах автопилотирования и в целом компьютерного зрения для уверенного распознавания сцены нейронная сеть должна «увидеть» весь кадр, или хотя бы его ключевую часть. Любая прямая пересекает все изображение, и для восстановления структуры сцены классическая сверточная архитектура должна иметь сотни слоев свертки, иначе ни у одного нейрона не окажется необходимой для распознавания информации. В новом подходе нейросеть «видит» структуру прямых буквально на первых уровнях свертки, и дальнейшая работа по восстановлению 3-мерной сцены и детекции отслеживаемых объектов уже ведется с использованием этого знания. Этим обеспечивается высокая скорость и точность работы, снижается энергопотребление.

Использование такой архитектуры нейросетей способно улучшить работу «автопилотов» для управления автомобилями, БПЛА, техники сельскохозяйственного и добывающего назначения. Нейросети архитектуры ХафНет открывают новые возможности для исследований в области компьютерного зрения, и, помимо применения в системах автопилота, они могут стать основой для прорыва в смежных направлениях ИИ. Так, хафовские сети уже показали высокую эффективность в задачах анализа изображений в компьютерной томографии при диагностике различных заболеваний, и вполне вероятно, что в скором времени, благодаря работе ученых, они будут использоваться там, где сегодня это представляется совершенно неочевидным.