AMD представила первую малую языковую модель
Компания AMD, нацелившись на развитие в сегменте искусственного интеллекта, представила свою первую малую языковую модель AMD-135M, принадлежащую к семейству Llama, которая нацелена на частный бизнес.
Не ясно, связан ли выпуск модели с недавним приобретением Silo AI (учитывая, что сделка не финализирована, вряд ли), но очевидно, что компания сделала шаг на встречу конкретным заказчикам.
Главная причина быстрой работы модели AMD — спекулятивное декодирование. Оно представляет меньшие «черновые модели», которые генерируют множество токенов-кандидатов в единственном прямом проходе. Затем токены проходят в большую, более точную «целевую модель», которая верифицирует или корректирует их. Такой подход позволяет одновременно генерировать множество токенов, ценой большего энергопотребления из-за увеличения количества транзакций.
Новая языковая модель представлена в двух версиях: AMD-Llama-135M и AMD-Llama-135M-code, которые по-разному обучались и предназначены для разных задач. Первая, AMD-Llama-135M, обучалась на 670 миллиардах токенов общих данных с применением 8-путевых нод AMD Instinct MI250 в течение шести дней. Вариант AMD-Llama-135M-code на том же оборудовании обучался на 20 миллиардах токенов за четыре дня.