Tesla – взгляд через замочную скважину на правильную систему

Всегда когда я разговариваю с человеком который хочет сделать новую систему распознавания я рассказываю о том что машинное обучение неидеально. Что всегда есть ошибки. Что всегда что-то будет идти не так. И что цель – не обучить один раз систему распознавания. А цель  – выстроить систему которая будет стабильна к любым ошибкам распознавания.

Continue reading “Tesla – взгляд через замочную скважину на правильную систему”

MIPS 2019

На прошлой неделе сходил на Mips. Очень прикольно смотреть как год от года меняется стек основных технологий на выставке. При этом одно дело – изменение стека. А второе дело – изменение применения.
Ну, условно. За последние два года взлетели компании распознавания по лицу. Компании то взлетели. И на выставке появилось куча демо стендов с прикрученным face detection. Но вот до embedded устройств доступа технология дошла так, что практически нет изменений по качеству, применению, функционалу по сравнению с решениями два года назад, пять лет назад.
Реальному бизнесу не нужно распознавание лиц в толпе, которое не даёт 100% результата по огромной базе. Или нужно, но очень кастомное под бизнес задачу. А предложить что то базовое, что ощутимо изменит существующий стек технологий для 90%девайсов ntech вижнлабс и прочие не могут.
Или распознавание номеров. Как работало, так и работает. Нет новых решений, которые смогли закрыть новые ниши или создать их.
Ну, то есть они есть. Но они штучные и не на этой выставке. А масс продакшн как ест мутные плохо работающие системы, так и ест.
Менять систему и изобретать новое применение никто не готов.
К чему это все. Выставка отрезвляет. Ты понимаешь насколько все решения в мире стары и банальны. И как сложно что то изменить. Даже если технология новая и принципиально круче всего что есть, то люди не смогут её применить и найти новые смыслы.
Тем смешнее смотреть на выставке стенды по PoseRecognition где люди которые следят за экспозицией даже не могут ответить зачем нужно всё то что у них представлено.
Сначала думал записать на выставке видео.Но мне стало грустно – и не стал…:)

Почему не работает 3D сканирование

Есть одна огромная тема, которая лежит на границе старого машинного зрения, (где нет нейронных сетей и чистая математика), и нового машинного зрения, где всё делается сеточками.
Это 3D. Лезть в него без знания аналита, матана и теорвера – сложно. Но тем не менее, именно различные способы 3D сканирования – это единственное, что позволяет решать многие задачи. Тут я попробовал сделать кратенький обзор по тому какие способы существуют.

Портирование и ускорение

Нормальная часть любого процесса разработки любой нейронной сети – портировать её на нужную платформу. Конечно, мы обычно стараемся это не делать, завёртывать сети в облако, создавать облачные подключения, и.т.д.

Но иногда приходится. В этом видео я рассказываю о том, какие платформы могут быть, какие удобнее использовать, какие проблемы будут вас ждать.

Продолжаем в ютубчег

Итак. Сегодня поговорим почему системы распознавания номеров не работают на практике. И ведь проблемы опять те же самые, что и всегда! Плохое качество картинки, люди пытаются использовать оценочные суждения, не понимая что они могут быть неправы.

Заказчики в CV, какие они бывают

Эта статья – некоторое обобщение опыта, который появился у меня за последние лет 10. Я не претендую что он однозначно правильный. Или на то, что наша стратегия единственная рабочая. Но для себя я его использую как некоторую априорную оценку того имеет шанс на жизнь договор или нет.

Continue reading “Заказчики в CV, какие они бывают”

Новый формат?

Решил сделать несколько видео на те темы, на которые всё не хватает времени написать нормальную статью. Начнём с банальной темы по распознаванию по лицам!
Почему они не работают?

И ещё раз про базы данных

Краткий обзор вещей по датасетам на которые я наталкивался в последний год.

Я думаю, что все прекрасно понимают, что в нормальной работе по ComputerVision 80% работы может занимать взаимодействие с базой (картинку с заглавия утащил отсюда).  Создание базы, разметка, выбор критериев, создание загрузки, модели зашумления, и.т.д. Конечно, я видел случаи, когда это и 95% занимает (медицина), и 20%(использование открытых датасетов). Всякое бывает.
Решил запечатлеть несколько вещей, на которые я натыкался в последний год.

Continue reading “И ещё раз про базы данных”

GAN и компьютерные игры

Натолкнулся на то, чем сам развлекался месяца три назад:
https://towardsdatascience.com/turning-fortnite-into-pubg-with-deep-learning-cyclegan-2f9d339dcdb0
Товарищ циклическим GAN’ом перетринировал видео Fortnit’a в PUBG. Я перетренировывал PUBG чтобы на картах был снег:



Про Fortnite я тоже подумал, но я его не так люблю чтобы собирать датасет подробный (кстати, если кому нужен датасет на ПУБГ/зиму – могу скинуть):


Мне кажется, что это интересное направление. Нейросети ещё не дошли до компьютерных игр и графики реального времени. Но рано или поздно они должны там быть.
Уже есть много проектов, которые улучшают разрешение. Добавляют ХДР на изображение. Конечно, в играх это проще делать другими способами. Но ведь очевидно, что рано или поздно появиться идея как можно в игры добавить какую-нибудь фишку с сетями которая зацепит. Главное найти какую:)
Мне нравиться что люди ищут. Может интересные карты научаться. Может более красивые изображения.

Про распознавание флюорограмм

В последнее время, как мне кажется, писать статьи по машинному обучению стало некоторой пошлостью. Раньше любая статья воспринималась как какая-то магия, а сейчас все более-менее устаканилось. Кто-то пишет статьи для новичков. Кто-то обзор технологий. Кто-то пытается написать специализированные статьи по новым разработкам. Но их читает полтора человека. Новизны практически нет.

Пожалуй единственный жанр, который мне остался интересен – статьи про то как на базе ML разрабатывается и внедряется технология. Процессы каждый раз могут быть кардинально отличающимися.

Continue reading “Про распознавание флюорограмм”