Про детектирование объектов

Наткнулся на интересную работу, которая во многом подтверждает мои мысли, высказанные ещё в начале года. Мысли были о том, что сетка YOLO – очень интересный шаг в детектировании объектов и что стоит идти по этому пути.

Новая работа называется SSD (Single Shot MultiBox Detector) и сделала её российская компания(?) deepsystems.io (не доглядел, сделали конечно не они, это просто обзор от них). По сути, вся работа про то, как довести до ума YOLO. Результаты у них получились неплохие:

1

Работает очень быстро и с приемлемым качеством. Главное улучшение – проброс информации с нижних слоёв, обучение детектора сразу на нескольких уровнях. Основных вопросов к работе два:

  1. Сравнивали ли с DetectNet, которую недавно выпустила NVIDIA в своём фреймворке DIGITS вдохновившись YOLO? Там нет проброса инфы с нижних слоёв, в остальном – похоже.
  2. Почему не ResNet? Там проброс инфы осуществляется автоматически. Не нужно городить пирамиду на верхних уровнях.

Вот две видюшки от создателей: