Наткнулся на интересную работу, которая во многом подтверждает мои мысли, высказанные ещё в начале года. Мысли были о том, что сетка YOLO – очень интересный шаг в детектировании объектов и что стоит идти по этому пути.
Новая работа называется SSD (Single Shot MultiBox Detector) и сделала её российская компания(?) deepsystems.io (не доглядел, сделали конечно не они, это просто обзор от них). По сути, вся работа про то, как довести до ума YOLO. Результаты у них получились неплохие:
Работает очень быстро и с приемлемым качеством. Главное улучшение – проброс информации с нижних слоёв, обучение детектора сразу на нескольких уровнях. Основных вопросов к работе два:
- Сравнивали ли с DetectNet, которую недавно выпустила NVIDIA в своём фреймворке DIGITS вдохновившись YOLO? Там нет проброса инфы с нижних слоёв, в остальном – похоже.
- Почему не ResNet? Там проброс инфы осуществляется автоматически. Не нужно городить пирамиду на верхних уровнях.
Вот две видюшки от создателей: