Грядет горький урок токенизации=news.ycombinator.com=

Грядет горький урок токенизации ( lucalp.dev )

marcosdumay 7 минут назад | [–]
Да, сделайте сеть глубже.

Когда у вас есть только молоток… Имеет смысл, что слой преобразования, который делает токены более семантически релевантными, поможет оптимизировать всю сеть после него и увеличить эффективный размер вашего контекстного окна. И одним из главных непосредственных препятствий, мешающих этим моделям стать интеллектуальными, является размер контекстного окна.

С другой стороны, обучение текущих моделей уже стоит около среднего ВВП страны, и они даже близко не стоят этого по стоимости. Поговорка о том, что «если грубая сила не решила вашу проблему, значит, вы применили недостаточно силы», должна восприниматься как шутка.

cheesecompiler 1 час назад | | [–]
Обратное тоже возможно: бросание огромных вычислений на проблему может скрыть существование более простого, более общего решения. Методы общего назначения, как правило, побеждают с течением времени, но как мы можем быть уверены, что они действительно являются наиболее общими, если мы так сильно привержены одной парадигме (например, LLM), что прекращаем исследовать базовую структуру?

falcor84 4 минуты назад | | [–]
Как я это вижу, с точки зрения исследования-эксплуатации, вполне рационально вкладывать большую часть усилий в одно действие, которое показало себя как приносящее наибольшую награду, тратя небольшое количество усилий на исследование других. Затем, если и когда это одно действие перестает быть таким же плодотворным по сравнению с другими, вы переключаете больше усилий на исследование, теперь получив значительные ресурсы от этого более раннего исследования, чтобы исследовать быстрее.

logicchains 23 минуты назад | | | [–]
Мы можем убедиться в этом с помощью анализа, основанного на теории вычислений, например, https://arxiv.org/abs/2503.03961 и https://arxiv.org/abs/2310.07923 . Это позволяет нам узнать, какие классы задач способна решить модель, и было показано, что достаточно глубокие преобразователи с цепочкой мыслей теоретически способны решать очень большой класс задач.

dsr_ 16 минут назад | | | [–]
Генератор случайных чисел гарантированно выдаст правильное решение любой задачи, но время выполнения обычно не соответствует стандартам удобства использования.

Также обязательно тестирование решения. К счастью, вы можете попросить ГСЧ и об этом, если у вас уже есть написанные тесты для тестировщиков.

cheesecompiler 8 минут назад | | | | [–]
Но это использует модель трансформеров для обоснования собственной силы рассуждений, которая может быть слепым пятном, что и является моей изначальной точкой зрения. Все вышесказанное показывает, что трансформеры могут имитировать решение определенного набора проблем. Это не показывает, что они являются лучшим инструментом для работы.

Scene_Cast2 1 час назад | [–]
Я понял, что при токенизации возникает теоретическое узкое место при прогнозировании следующего токена.

Допустим, у нас есть 15 тыс. уникальных токенов (согласно современным открытым моделям). Допустим также, что у нас есть размерность вложения 1 тыс. Это подразумевает, что у нас есть максимум 1 тыс. степеней свободы (или ранга) на нашем выходе. Модель способна выбрать любой из 15 тыс. токенов в качестве верхнего токена, но выразительность _распределения вероятностей_ по своей сути ограничена 1 тыс. уникальных линейных компонентов.

blackbear_ 46 минут назад | | [–]
Хотя теоретическое узкое место и существует, оно гораздо менее ограничительно, чем то, что вы описываете, поскольку количество почти ортогональных векторов растет экспоненциально с размерностью окружения. И ортогональность — это то, что важно для различения разных векторов: поскольку любое распределение может быть выражено как смесь гауссианов, количество отдельных концепций, которые вы можете закодировать с помощью такой смеси, также растет экспоненциально

molf 16 минут назад | | | [–]
Ключевое понимание заключается в том, что вы можете представлять различные признаки векторами, которые не являются точно перпендикулярными, а лишь почти перпендикулярными (например, между 85 и 95 градусами). Если вы терпите такой шум, то количество векторов, которые вы можете подогнать, растет экспоненциально относительно количества измерений.

12288 измерений (размер GPT3) могут вместить более 40 миллиардов почти перпендикулярных векторов.

[1]: https://www.3blue1brown.com/lessons/mlp#superposition

unoti 57 минут назад | | | [–]
Я думаю, что в этом есть комбинаторная сила. Если мы представим себе встраивание чего-то только с 2 измерениями x и y, мы можем фактически закодировать неограниченное количество концепций, поскольку мы можем представить отдельные отдельные кластеры или районы, разбросанные по большой 2d карте. Конечно, это гораздо более возможно с большим количеством измерений.

kevingadd 22 минуты назад | | [–]
Похоже, вы предполагаете, что модели пытаются предсказать следующий токен. Они действительно так работают? Я бы предположил, что токенизация — это мера только для входных данных, поэтому у вас есть, возможно, до 50 тыс. уникальных входных токенов, но на выходе — необработанный текст, синтезированная речь или изображение. На выходе нет токенов, поэтому на выходе нет ограничений.

anonymoushn 6 минут назад | | [–]
да, в типичных архитектурах моделей, работающих с текстом, выходными данными является токен из того же словаря, что и входные данные.

Рассмотрите возможность подачи заявки на набор в YC на осень 2025 года! Заявки принимаются до 4 августа

Source: news.ycombinator.com

Leave a Reply Cancel reply