Спецпроекты

ПО Интернет Веб-сервисы Техника Импортонезависимость Искусственный интеллект axenix

Большие языковые модели теперь не требуют мощных серверов: ученые «Яндекса», НИУ ВШЭ, MIT, KAUST и ISTA совершили прорыв в оптимизации LLM

Лаборатория исследований искусственного интеллекта Yandex Research совместно с ведущими научно-технологическими вузами разработала метод быстрого сжатия больших языковых моделей (LLM) без потери качества. Теперь для работы с моделями достаточно смартфона или ноутбука — и не нужно использовать дорогие серверы и мощные GPU. Об этом CNews сообщили представители «Яндекса».

Метод позволяет быстро тестировать и внедрять новые решения на основе нейросетей, экономить время и деньги на разработку. Это делает LLM доступнее не только для крупных, но и для небольших компаний, некоммерческих лабораторий и институтов, индивидуальных разработчиков и исследователей.

Ранее для запуска языковой модели на смартфоне или ноутбуке требовалось провести ее квантизацию на дорогостоящем сервере, что занимало от нескольких часов до несколько недель. Теперь квантизацию можно выполнить прямо на телефоне или ноутбуке за считанные минуты.

Трудности в применении LLM

Сложность в использовании больших языковых моделей заключается в том, что они требуют значительных вычислительных ресурсов. Это касается и опенсорс-моделей. Например, одна из них — популярная DeepSeek-R1 — не помещается даже на дорогостоящих серверах, предназначенных для работы с искусственным интеллектом и машинным обучением. Это означает, что использовать большие модели может только ограниченный круг компаний, даже если сама модель находится в открытом доступе.

Новый метод позволяет уменьшить размер модели, сохранив ее качество, и запустить на более доступных устройствах. Например, с помощью этого метода можно сжимать даже такие большие модели, как DeepSeek-R1 на 671 млрд параметров и Llama 4 Maverick на 400 млрд параметров, которые до сих пор удавалось квантовать только самыми простыми методами со значительной потерей в качестве.

Новый способ квантизации дает больше возможностей для использования LLM в различных областях, особенно в тех, где ресурсы ограничены — например, в образовании или социальной сфере. Теперь стартапы и независимые разработчики могут использовать сжатые модели для создания инновационных продуктов и сервисов, не тратя деньги на дорогое оборудование. Яндекс уже сам применяет новый метод для прототипирования — создания рабочих версий продуктов и быстрой проверки идей: сжатые модели проходят тестирование быстрее, чем их исходные версии.

Подробнее о новом методе

Новый метод квантизации называется HIGGS (от англ. Hadamard Incoherence with Gaussian MSE-optimal GridS). Он позволяет сжимать нейросети без использования дополнительных данных и без вычислительно сложной оптимизации параметров. Это особенно полезно в ситуациях, когда недостаточно подходящих данных для дообучения модели. Метод обеспечивает баланс между качеством, размером модели и сложностью квантизации, что позволяет использовать модели на самых разных устройствах.

Метод уже проверили на популярных моделях Llama 3 и Qwen2.5. Эксперименты показали, что HIGGS — это лучший способ квантизации по соотношению качества к размеру модели среди всех существующих методов квантизации без использования данных, в том числе NF4 (4-bit NormalFloat) и HQQ (Half-Quadratic Quantization).

В разработке метода участвовали ученые из НИУ ВШЭ, Массачусетского технологического института (MIT), Австрийского института науки и технологий (ISTA) и Научно-технологического университета имени короля Абдаллы (KAUST).

Метод HIGGS уже доступен разработчикам и исследователям на Hugging Face и GitHub, а научную статью про него можно прочитать на arXiv.

Короткая ссылка