Оказывается, неделю назад были опубликованы новые результаты по VOC2012. Статей по топовым из них, судя по всему, ещё нет. Единственное дополнительное упоминание о первом в списке алгоритме “SegModel” есть в конкурсе CityScapes dataset. Про него я думаю, ещё упомяну вскоре. Топовые из открытых статей – Adelaine (первый подход, второй подход). Deep Parsing Network. Всё это ещё стоит подробнее исследовать. Но в голову уже закралась одна смешная мысль. В 2012-2014 годах новая эпоха свёрточных нейросетей приходила на волне “больше никакого ручного мэнеджмента фич!”. “Никаких больше сложных логических выделений фич на уровнях!”. “Изображение должно обрабатываться целиком сеткой!”.
Понятно, что появление RCNN/Fast-RCNN уже нанесло урон этим высказываниям. Ручная обработка фич присутствовала и там и там. При этом сети давали значительно лучший результат. Урон был смягчён Faster-RCNN, где для этого была сделана отдельная сетка.
И вот опять. Топовые алгоритмы начинают применять старые добрые, проверенные временем методы из классической обработки изображений: графы, марковские модели, разноуровневое выделение фич.
Конечно, всё это задачи сегментации. Конечно это своя специфика. Но тем не менее, явно видно, что сейчас идёт спираль. Скоро, скорее всего, придумают как контуры спрямлять не Марковскими полями/CRF, а какими-нибудь хитрыми рекурентными сетями.