Первые мысли о o3 pro ( latent.space )
Я обнаружил, что o3 pro нуждается в смене парадигмы, при которой задержка делает невозможным его использование каким-либо иным образом, кроме асинхронного.
У вас есть широкий вопрос, вероятно, несколько расплывчатый, и вы передаете его o3 с кучей контекста. Затем, может быть, через 20 минут у вас будет прилично хороший ответ. Определенно сильнее, чем любые другие модели — у него действительно есть вкус.
Но самое страшное здесь то, что я все больше начинаю чувствовать себя узким местом. Человек может думать только о таком количестве задач параллельно, и кажется, что мой вклад становится все менее и менее важным с каждым обновлением модели.
Время от времени я задаюсь вопросом, зачем я плачу 200 долларов за максимальный тарифный план, но потом появляется что-то вроде этого, и все становится очевидным.
> Мы в эпоху моделей, ориентированных на конкретные задачи. С одной стороны, у нас есть «нормальные» модели, такие как 3.5 Sonnet и 4o — те, с которыми мы общаемся как с друзьями, которые помогают нам с написанием…
…
> [Модели] сегодня настолько хороши …
…
> o3 pro (слева) явно лучше понимает ограничения своей среды.
Чудесные модели, которые так хорошо помогают нам в письме, однако мы все равно используем их в притяжательной форме.
Я не понимаю, что вы предлагаете. Что они разумны? Что у них есть пол? Что модели OpenAI — мужские, а модели Anthropic — женские? Или что вы просто не впечатлены ими?

Не имеет отношения к роду; правильная форма притяжательного падежа — «its» без апострофа, а не «it's».

лол, какой потрясающий метаобмен прямо здесь

Я пока не определился с its/it's… но в основном я думаю, что меня бы устроило исчезновение “its”. Это почти никогда не бывает двусмысленным в письменной или устной речи в данном контексте, и это странная непоследовательность притяжательной формы.

Какой из них самый непоследовательный?
Он -> Его Оно -> Его Она -> Её Он -> Он есть -> Он Оно -> Оно есть -> Это Она -> Она есть -> Она Единственное, что нарушает шаблон, — это Она , хотя вместо этого следовало бы писать Она, если бы мы хотели сохранить последовательность.
На самом деле, если следовать шаблону, то это будет Ши.

Что мне нравится в этой статье, так это то, как она подкрепляет идею о том, что с такими моделями, как o3 Pro, действительно сложно добиться хороших результатов.
У меня пока нет интуиции, когда я обращусь к o3 Pro. Какие у меня проблемы, когда аутсорсинг огромной модели, которая работает несколько минут, имеет смысл?
Сейчас мне очень нравится обычный o3, особенно с учетом того, что на днях на него сильно упала цена. С o3 Pro мне гораздо сложнее разобраться.
То же самое, мне было бы очень интересно узнать, как другие решают, какую модель использовать для тех или иных задач.
Я нахожу эти многоминутные итерации настолько мучительными, что на практике я всегда выбираю быстрые модели, не требующие рассуждений.
Представьте себе сложную проблему распределенных систем, где вы передаете весь контекст вашей настройки в LLM, и он использует расширенные рассуждения для диагностики возможных путей. Недавно я сделал это с помощью модели frontier, чтобы раскрыть некоторые очень сложные проблемы пула соединений, связанные с istio, вызывающие потоки syn/ack.
Для кодирования я обычно использую быструю модель фронтира, например, o4minihigh, но я использую сложные исследовательские модели, когда мне нужны такие вещи, как общая архитектура и обратная связь по дизайну, которые требуют более широких продвинутых рассуждений.
> С другой стороны, у нас есть гигантские, медленные, дорогие, требующие максимального IQ модели рассуждений, к которым мы обращаемся для глубокого анализа (они хороши в критике), однократного решения сложных проблем и расширения границ чистого интеллекта.
Мне очень нравится, когда LLM пишет большую часть моего нудного кода в последнее время, но комментарии вроде этого просто странные для меня. Может кто-нибудь поделиться текстовым вопросом, который я могу задать дорогому медленному LLM, который продемонстрирует «глубокий анализ» или «iq-maxxing» по любой теме? Всякий раз, когда я задаю им фактические или дискуссионные вопросы, я обычно получаю что-то, пронизанное фактическими ошибками или просто нудное, например, чтение эссе, написанного кем-то для школы.
Я не имею ни малейшего представления о том, что такое “хорошие” подсказки для демонстрации таких моделей. Но то, что я бы спросил у такой модели, это следующее. Я понятия не имею, упадет ли она лицом вниз или нет.
Можете ли вы написать версию проекционного метода Чорина для уравнений Навье-Стокса, которая была бы одновременно явной и второго порядка по времени?
В идеале модель не должна нуждаться в более подробной подсказке, чем эта. Студенту первого года обучения по численному анализу она точно не понадобится.
o3 pro, похоже, хорош в мета-подсказках. То есть, когда вы просите его создать подсказку для вас. В частности, он кажется более лаконичным, чем o3, когда делает это.
Кто-нибудь еще это заметил?
Source: news.ycombinator.com