Насколько велики большие языковые модели? (2025) ( gist.github.com )
Deepseek v1 — это ~670 млрд, что составляет ~1,4 ТБ физических данных.
Все оцифрованные книги, когда-либо написанные/закодированные, сжимаются до нескольких ТБ. Общедоступная сеть — ~50ТБ. Я думаю, что пригодный для использования zip-архив всех общедоступных английских электронных текстов будет на O(100ТБ)
Таким образом, мы достигли примерно 1% от этого размера модели и находимся в области убывающей отдачи от обучения — т. е. переход к >1% не привел к улучшениям (сравните gpt4.5 и 4o).
Вот почему затраты на вычисления перемещаются на время вывода с моделями “рассуждения”. Вероятно, мы также близки к уменьшению отдачи от вычислений во время вывода, отсюда агенты, посредством которых (в основном) детерминированные инструменты дополняют информацию/возможности в системе.
Я думаю, чтобы извлечь больше пользы из этого класса моделей, мы будем рассматривать предметно-ориентированную специализацию, выходящую за рамки тонкой настройки инструкций.
Насколько велики они по размеру на диске и объему видеопамяти?
Что-то вроде 1.61B для меня ничего не значит, поскольку я не очень хорошо разбираюсь в сути LLM. Но мне интересно, как это переносится на компьютерное оборудование — какие характеристики мне понадобятся для их запуска? Что я могу запустить сейчас, что потребует затрат денег и что я, возможно, смогу запустить через десятилетие?
>Ни один из документов не был написан ИИ
Я думаю, что в таких сценариях статьи должны включать в себя модель подсказки и генерации.
Мета: Включение текущего года («(2025)») в заголовок выглядит странно, хотя он и есть в самом названии поста, на который дана ссылка. Повторение этого слова здесь заставляет меня оглядываться в поисках элементов управления машиной времени.
Source: news.ycombinator.com