Где обучать модели?

Казалось бы, банальный вопрос. Каждый скажет что на “….”. Но, по опыту, ответы очень разные. Кто-то обучает на машине где разрабатывает. Кто-то на Амазоне.
Сделал небольшое видео где попробовал структурировать все это:

А в этом посте чуть больше ссылок про которые говорю:

  1. Обучение на своем железе:
    1. Локально на своем компе (норм для отладки, ужасно для прода/постоянной работы). Часто используем:)
    2. Удаленно на своем железе которое стоит в офисе/коллокейшне. Норм если вы угадали с нагрузкой. Сложно масштабируется. Как ни странно – этот вариант встречается мне достаточно часто. У нас с Васей 2 машины в коллокейшне последние 3-4 года стоит (хотя сейчас все реже их для обучения используем).
  2. Аренда:
    1. Аренда полноценной машины помесячно. Масштабируется хорошо, но не идельно. Не везде есть хорошо работающие провайдеры. Раньше использовали hetzner, но сейчас там нет GPU. Из тех что я видел в последнее время, но не использовали:
      1. https://selectel.ru/services/cloud/servers/gpu/
      2. https://iqhost.ru/services/arenda-gpu/ (можно по дням арендовать)
    2. Аренда почасовая/поминутная. Небольшой список:
      1. https://immers.cloud/ – периодически используем, но сейчас как-то очень мало хороших машин
      2. https://www.genesiscloud.com/pricing/ – не использовали, все думал потестить
      3. fluidstack.io – натолкнулся только недавно, не использовал. При этом 3090/3080/2080 в режиме “on demand” вроде не даются, только помеячно.
      4. https://vast.ai – не использовал ни разу, но выглядит очень круто, в том числе по цене
      5. https://www.ovhcloud.com/en/public-cloud/prices/ – только Теслы
    3. Аренда в дорогом облаке. Из машин там есть только дорогие (Tesla и TPU). Но обычно в облаке хорошая инфраструктура и постоянная доступность:
      1. AWS – самое продуманное и классное облако. Там даже есть Механический турок и SageMaker.
      2. Google Cloud – пользовались пару раз. Есть TPU, но это все таки специфика которая далеко не всем нужна.
      3. Yandex Cloud – часто использовали в некоторых проектах. Там были какие-то дешевые варианты с арендой GPU-шек, которые могут быть не постоянные. Не знаю насколько это осталось сейчас. Но так как используем часто Толоку – часто там что-то размечаем.
      4. Azure – не использовали ни разу
    4. Colab. Наверное все знают. Для тех кто не знает – советую почитать. Это прикольный инструмент, где можно обучать даже бесплатно. Что круто. На платных тарифах процесс становится не такой болезненный (машины отваливаются не после 30 минут неиспользования).
      Мне не очень нравиться работа в Юпитере + стилистика где может отвалиться машина. Но например с вот таким-вот приколом https://t.me/partially_unsupervised/112 Colab становится куда более интересной штукой.