Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля

Суровый Норильский ИИ: обзор MetalGPT-1 Норникеля
Вы наверняка слышали, что в декабре Норникель выложил код своей LLM MetalGPT-1 – “первой в мире доменной модели на 32 миллиарда параметров, специально оптимизированной под металлургию”. Мы протестировали ее на рабочих задачах нашего конструкторского бюро. Делимся результатами.
Спойлер: текущее качество ответов, как у ChatGPT 2023-2024 года: много галлюцинаций, недостаточно знаний технологий производства, отсутствие возможности выходить в интернет и работать с файлами. Но помним, что это только первая версия.

В этой статье:
  1. Где протестировать самостоятельно?
  2. Тестируем на задачах из проекта КБ42
  3. Сравниваем с Алисой, ChatGPT, Grok, DeepSeek
  4. Что бы мы хотели увидеть в будущих версиях
Использовали официальную MetalGPT-1 AWQ версию, оптимизированную для использования меньших вычислительных мощностей [ссылка на Hugging Face nn-tech].

Где протестировать самостоятельно?

По ссылке – мы арендовали Nvidia A100L, собрали модель на Gradio и разместили на Hugging Face, чтобы вы тоже смогли протестировать. Оставим ее включенной до конца января. Дата выхода официальной браузерной версии с интерфейсом обозначена как “скоро” – ждем вместе с вами.

*Мы также включили в ответы скрытую часть – «мысли модели», чтобы можно было лучше проследить логику (или посмеяться).

Тестируем на задачах из проекта КБ42

Для тестов выбрали задачи по подбору материала и технологии производства. Чтобы оценить качество ответов, сравнивали с нашими решениями из последнего проекта КБ42 – увеличение ресурса шнеков для строительного 3д принтера.

Спрашивали про:
  1. Поиск оптимального метода производства
  2. Подбор материала для изделия
  3. Выбор материала по ГОСТ

Ответы MetalGPT-1 нас не устроили ни в одном из вопросов, смотрите примеры в следующем разделе.
Обобщенные выводы:
  • По подбору материала смогли сразу получить хорошие ответы от Алисы, Grok и DeepSeek
  • Лаконичность и релевантность ссылок среди всех лучше у Алисы
  • Подтвердили для себя, что можно использовать LLM как отправную точку и советника по ходу подбора материалов из ГОСТ таблиц

Сравниваем с Алисой, ChatGPT, Grok, DeepSeek

TL;DR
Отставание от популярных LLM общего назначения очевидно. Пока для нашей работы мы использовать не готовы. Модель Норникеля ни разу не попала “в яблочко”, хотя всегда отвечала “что-то из той же области”. Приятно удивила Алиса.

Для тестов мы использовали такой сетап:
Алиса (и потенциально LLM Норникеля) по сравнению с другими LLM имеет юридическое преимущество, так как данные хранятся в России и может использоваться российским бизнесом с меньшими рисками.
Слева MetalGPT-1, справа Алиса. Ответы Алисы более лаконичные, в конце ссылки на источники. Но и MetalGPT-1 с этим вопросом справился хорошо.
Слева MetalGPT-1, справа Grok. MetalGPT-1 не знает ГОСТ 7769-82, начал придумывать материалы. Рекомендации Grok подходящие.
Слева MetalGPT-1, справа DeepSeek (ссылка на диалог). Пробовали узнать у MetalGPT-1, что такое ХТС - не знает. DeepSeek сразу понял.
Слева MetalGPT-1, справа ChatGPT. Ответ ChatGPT в целом верный, но на троечку. У MetalGPT-1 проблема с незнанием ГОСТов, дает некорректные расшифровки.
Мы в КБ42 используем LLM на этапе подбора материала для первичного обзора возможностей. Также мы используем AI ассистентов для поиска по ГОСТам и работы с ними. Мы видим возможность у MetalGPT-1 стать полезным инструментом для этого. Речь не про замену инженера-технолога, а что-то вроде Copilot, который помогал бы нам в поиске и исследовании возможностей.

Что бы мы хотели увидеть в будущих версиях

В первую очередь – исправление текущих проблем для улучшения качества ответов. В начале теста одна из наших главных надежд была, что модель будет отлично жонглировать информацией из ГОСТов – как минимум лучше чем https://gostassistent.ru/ или Алисы. Но пока что эти надежды не оправдались.
Возможно, для других задач MetalGPT-1 отвечает лучше. Качество ответов MetalGPT-1 согласно слайдам в презентации Норникеля в целом хорошее. Там же найдете сравнение с бенчмарками.
Текущие проблемы:
  • Сильные галлюцинации
  • Использовано явно недостаточно данных для обучения

Это проявляется в:
  • Рекомендует материалы, которых нет в указанном ГОСТе
  • Путает номера ГОСТ, ISO и т.д.
  • Дает некорректные ссылки на интернет-ресурсы
  • Придумывает новые материалы / дает нерелевантные, но созвучные
  • Пытается угадать / придумать технологию производства
  • Путает термины (например, износостойкость и жесткость)

***

Мы благодарны команде Норникеля за возможность протестировать эту модель. Уверены, что несмотря на обозначенные проблемы, шаг за шагом модель и сам продукт станет лучше.
Ждем вместе с вами браузерную версию!

– команда КБ42

10.01.2026