Грядет горький урок токенизации ( lucalp.dev )
Да, сделайте сеть глубже.
Когда у вас есть только молоток… Имеет смысл, что слой преобразования, который делает токены более семантически релевантными, поможет оптимизировать всю сеть после него и увеличить эффективный размер вашего контекстного окна. И одним из главных непосредственных препятствий, мешающих этим моделям стать интеллектуальными, является размер контекстного окна.
С другой стороны, обучение текущих моделей уже стоит около среднего ВВП страны, и они даже близко не стоят этого по стоимости. Поговорка о том, что «если грубая сила не решила вашу проблему, значит, вы применили недостаточно силы», должна восприниматься как шутка.
Обратное тоже возможно: бросание огромных вычислений на проблему может скрыть существование более простого, более общего решения. Методы общего назначения, как правило, побеждают с течением времени, но как мы можем быть уверены, что они действительно являются наиболее общими, если мы так сильно привержены одной парадигме (например, LLM), что прекращаем исследовать базовую структуру?

Как я это вижу, с точки зрения исследования-эксплуатации, вполне рационально вкладывать большую часть усилий в одно действие, которое показало себя как приносящее наибольшую награду, тратя небольшое количество усилий на исследование других. Затем, если и когда это одно действие перестает быть таким же плодотворным по сравнению с другими, вы переключаете больше усилий на исследование, теперь получив значительные ресурсы от этого более раннего исследования, чтобы исследовать быстрее.

Мы можем убедиться в этом с помощью анализа, основанного на теории вычислений, например, https://arxiv.org/abs/2503.03961 и https://arxiv.org/abs/2310.07923 . Это позволяет нам узнать, какие классы задач способна решить модель, и было показано, что достаточно глубокие преобразователи с цепочкой мыслей теоретически способны решать очень большой класс задач.

Генератор случайных чисел гарантированно выдаст правильное решение любой задачи, но время выполнения обычно не соответствует стандартам удобства использования.
Также обязательно тестирование решения. К счастью, вы можете попросить ГСЧ и об этом, если у вас уже есть написанные тесты для тестировщиков.
Но это использует модель трансформеров для обоснования собственной силы рассуждений, которая может быть слепым пятном, что и является моей изначальной точкой зрения. Все вышесказанное показывает, что трансформеры могут имитировать решение определенного набора проблем. Это не показывает, что они являются лучшим инструментом для работы.

Я понял, что при токенизации возникает теоретическое узкое место при прогнозировании следующего токена.
Допустим, у нас есть 15 тыс. уникальных токенов (согласно современным открытым моделям). Допустим также, что у нас есть размерность вложения 1 тыс. Это подразумевает, что у нас есть максимум 1 тыс. степеней свободы (или ранга) на нашем выходе. Модель способна выбрать любой из 15 тыс. токенов в качестве верхнего токена, но выразительность _распределения вероятностей_ по своей сути ограничена 1 тыс. уникальных линейных компонентов.
Хотя теоретическое узкое место и существует, оно гораздо менее ограничительно, чем то, что вы описываете, поскольку количество почти ортогональных векторов растет экспоненциально с размерностью окружения. И ортогональность — это то, что важно для различения разных векторов: поскольку любое распределение может быть выражено как смесь гауссианов, количество отдельных концепций, которые вы можете закодировать с помощью такой смеси, также растет экспоненциально

Ключевое понимание заключается в том, что вы можете представлять различные признаки векторами, которые не являются точно перпендикулярными, а лишь почти перпендикулярными (например, между 85 и 95 градусами). Если вы терпите такой шум, то количество векторов, которые вы можете подогнать, растет экспоненциально относительно количества измерений.
12288 измерений (размер GPT3) могут вместить более 40 миллиардов почти перпендикулярных векторов.
[1]: https://www.3blue1brown.com/lessons/mlp#superposition
Я думаю, что в этом есть комбинаторная сила. Если мы представим себе встраивание чего-то только с 2 измерениями x и y, мы можем фактически закодировать неограниченное количество концепций, поскольку мы можем представить отдельные отдельные кластеры или районы, разбросанные по большой 2d карте. Конечно, это гораздо более возможно с большим количеством измерений.

Похоже, вы предполагаете, что модели пытаются предсказать следующий токен. Они действительно так работают? Я бы предположил, что токенизация — это мера только для входных данных, поэтому у вас есть, возможно, до 50 тыс. уникальных входных токенов, но на выходе — необработанный текст, синтезированная речь или изображение. На выходе нет токенов, поэтому на выходе нет ограничений.

да, в типичных архитектурах моделей, работающих с текстом, выходными данными является токен из того же словаря, что и входные данные.
Source: news.ycombinator.com