SmartData

На днях посетил конференцию SmartData. Весьма странное мероприятие, никогда таких раньше не видел. Организаторы (https://jugru.org/) обычно проводят программистские конференции. Ну, либо базы данных, продакшн, всё такое. А тут решили хайпануть и провести практически в той же стилистике конференцию по машинному обучению. Получилось причудливо.

Конечно, сам бы я на такое мероприятие билет не купил. Задушила жаба (всю информацию, очевидно, можно было бы найти и так). Но учитывая, что организаторы предложили в обмен на небольшую статью на хабр билет на конференцию с оплатой дороги, я согласился.

Статья в их блог была на мой выбор (упомянуть можно было ребят в последнем абзаце).  Статей на Хабр у меня в загашниках всегда штуки 2-3 лежат, а тут даже повод чтобы всё собрать и обернуть. Плюс адекватный редактор всё мне причесал и поправил. Наверное от моего корявого языка с полным пренебрежением к грамматике их редактор до сих пор вскакивает во сне (когда я отправил статью в редактуру на эти три страницы было поле полутора сотен правок). Статья, если честно, получилась скорее для этого блога, чем для Хабра. Но, вроде логика в ней присутствует и мысли есть:)

А теперь пару слов про конференцию:

  • О чём она была
  • Что ждать от такого формата
  • Что было интересного по теме ML
  • Минусы

В конференцию решили напихать всего, где встречается слово “Машинное обучение”. Начиная от рассказов про сервисы которые можно использовать в МО, заканчивая обзором научных работ из узких направлений. Были доклады про разворачивание Hadoop кластера, доклады про забавное исследование статистики по именам, доклады от создателя Нейронной Обороны.

Если честно, мне не до конца понятна аудитория. Хотя организаторы воспринимали конференцию тоже как прощупывание аудитории. Например для меня 50% докладов были непонятны/не по моей тематике. Я честно попробовал послушать один из них, про пайплайны в Одноклассниках, но слова Pig, Spark, Hadoop, без объяснения что это такое и зачем надо меня вымораживали. Доклад про CatBoost я слушал краем уха. Я понимаю о чем говорят, это забавно, но специфика темы не дала мне воспринять его полностью. Из оставшихся половина докладов слишком просты и ни о чём. Оставшаяся половина интересна. Но таких мало. Мне очень понравился доклад от создателя Нейронной обороны,  он был интересным(про него чуть ниже). И от руководителя Яндекс.Толоки(и про него чуть ниже).

Специалистов по Data Scince на конференции было 30-50 человек из 300. Я думаю, что в принципе все они должны иметь сходное ощущение. При этом треть из них плохо понимает что такое бустинг (например я), треть плохо понимает что такое свёрточные сети.

Но на конференции была ещё масса людей, для которых всё строго наоборот – они тоже понимали 50%, но другие. В конце мероприятия я общался со специалистом из банковской отрасли. Его впечатления по докладам были диаметрально противоположны. Те что понравились мне – не понравились ему и наоборот.

А были ещё менеджеры – там третья картина. Были руководители проектов – там четвёртая. Некоторые из задаваемых вопросов говорили что люди даже не знают что такое искуственный нейрон.

Когда я решил сходить на конференцию меня на это сподвигло несколько причин:

а)  Было несколько тем для меня интересных (Толока, сети для поиска). Результат себя оправдал. Первая лекция не подвела, я кучу полезного узнал. Вторая была очень слабой. Автор рассчитывал на аудиторию которая не знает что такое нейронные сети. Наверное это был правильный рассчёт, учитывая состав слушателей. Но я разочарован, полезной инфы для меня было ноль.

б) Было несколько тем, которые лежат на границе моей области работы/моих знаний. Бустинг, построение пайплайнов. Была надежда быстро и просто расширить свой кругозор. Но тут, я вынужден признать, особо интересного я ничего не услышал. Либо шел перегруз терминами, без особого трактования. Когда года полтора назад я ходил в Яндекс на лекции по Q-Learning там ораторы примерно за то же время смогли достучаться до моего подсознания и внести туда все базовые установки, чтобы я понимал материал.

в) Возможно пообщаться с интересными людьми. Наверное этот пункт удачнее. Я видел мероприятия где было больше интересных и полезных контактов, но и тут было забавно.

Теперь по темам:
Яндекс.Толока. С момента анонса сервиса я почти не пробовал понять что там происходит и куда он пришёл. А оказалось, что сервис прошёл огромный путь от момента создания до сегодняшнего состояния. Появилось много инструментов для ращзметки данных. Появилась возможность писать инструменты для разметчиков. Перехват горячих клавиш, и.т.д.
Минут 15 допрашивал руководителя сервиса, понял что нам в наших проектах просто срочно нужно использовать:)
Обычно мы нанимаем каких-нибудь фрилансеров. Но получается плохо масштабируемо, надо ждать время, надо обучать, и.т.д., и.т.п. А тут просто готовый инструмент взаимодействия, коммуникации и разметки.

Очень классный доклад про то как учат сети писать стихи и играть музыку. Внешне очень простой и понятный на мой взгляд. Но за каждым вторым словом/предложением скрывается достаточно большая глубина/методы/подходы которые использует автор. Для человека который не разбирается выглядит как красивая и понятная магия. Но без особого перегруза понятиями автор сумел сделать что любой кто в теме понимает как и что они делали. Давно докладов такого высокого уровня не видел.

Основной минус на мой взгляд – странный подбор докладов. Взять тот же Янедекс. От них очевидно были 2 рекламных доклада. Неужели нельзя было попросить сделать их красивый доклад про практическое использование? Или про какую-нибудь хайповую тему типа управляемых автомобилей?

Трансляция основого зала конференции. (Самый интересный доклад что-то в ней отсутствует)

Translation