Модель мира V-JEPA 2 и новые критерии для физических рассуждений ( meta.com )

TheAceOfHearts 4 часа назад | следующий [–] > Благодаря этим визуальным подцелям V-JEPA 2 достигает показателей успешности 65–80 % при выборе и размещении новых объектов в новых и невидимых средах.
Как это соотносится с существующими альтернативами? Возможно, я просто не в курсе, но минимальный уровень неудач в 20% звучит довольно плохо? В статье сравниваются их результаты с более старыми подходами, которые, по-видимому, имели что-то вроде 15% уровня успеха, поэтому переход к 80% уровню успеха действительно кажется значительным скачком. Если я правильно читаю статью, количество времени, необходимое для вычисления и выполнения каждого действия, сократилось с 4 минут до 16 секунд, что также кажется значительным.
Необходимость указания конечной цели в виде изображения кажется довольно ограниченной, но, по крайней мере, авторы признают это в статье:
> Во-вторых, как упоминалось в разделе 4, V-JEPA 2-AC в настоящее время опирается на задачи, определенные как цели изображения. Хотя это может быть естественным для некоторых задач, есть другие ситуации, где спецификация целей на основе языка может быть предпочтительнее. Расширение V-JEPA 2-AC для принятия целей на основе языка, например, путем наличия модели, которая может встраивать цели на основе языка в пространство представления V-JEPA 2-AC, является еще одним важным направлением для будущей работы. Результаты, описанные в разделе 7, согласующие V-JEPA 2 с моделью языка, могут служить отправной точкой.
Я думаю, было бы интересно, если бы авторы ответили, считают ли они, что существует четкая траектория к модели, которую можно обучить для достижения показателя успешности >99%. 
deepGem 9 минут назад | родитель | следующий [–] В настоящее время,
Вы обучаете модель VLA (Vision Language Action) для конкретной пары роботизированных рук для конкретной задачи. Действия конечного привода встроены в модель (действия). Допустим, вы обучаете пару рук поднимать яблоко. Вы не можете обнулить ее, чтобы поднять стакан. То, что вы видите в демонстрациях, является результатом большого количества тренировок и тонкой настройки (несколько кадров) на конкретных типах объектов и с конкретными роботизированными руками или телами.
Встраивание посредника языка приносит некоторые обобщающие навыки, но их не так много. Видение -> язык -> перевод действия, как бы это сказать, в лучшем случае хрупкий.
То, что эти ребята показывают, — это подход с нулевым выстрелом к новым задачам в новых условиях с точностью 80%. Это большое дело. Pi0 от Physical Intelligence — лучшая модель для сравнения, я думаю. 
ricardobeat 3 часа назад | родитель | предыдущий | следующий [–] Важно сохранять некоторую перспективу: в настоящее время в дикой природе нет ни одного робота, который использовал бы модель мира для работы над задачами, которым они не были специально обучены. Это передовые исследования, и 80% успеха просто поразительны!
londons_explore 2 часа назад | корень | родитель | следующий [–] 80%-ный показатель успеха также потенциально коммерчески выгоден, если в настоящее время задачу выполняет человек.
Работу, которую раньше выполняли 10 человек, теперь могут выполнять 10 роботов + 2 человека в 20% случаев сбоя, при меньших общих затратах. 
zeroxfe 2 часа назад | корень | родитель | следующий [–] Это действительно зависит от видов отказов. В целом, люди терпят неудачу предсказуемым и в основном безопасным образом. ИИ терпят неудачу крайне непредсказуемым и потенциально очень опасным образом. (Человек может случайно уронить нож, ИИ может случайно ударить вас им.)
Максион 17 минут назад | корень | родитель | следующий [–] Или, если бы он управлял рукой робота, он бы пронзил конвейерную ленту на полном ходу.
vFunct 3 часа назад | корень | родитель | предыдущий | следующий [–] Я удивлен, что это не так, как это уже сделано. Я бы предположил, что некоторые внутренние слои в LLM уже были “моделями мира”, и что именно внешние слои отличали модели между текстом и изображениями/робототехникой/другими режимами…
mjburgess 3 часа назад | корень | родитель | следующий [–] Так утверждает пропаганда, но когда мы продолжаем объяснять, оказывается, что это неправда, и армия прибывает, чтобы повторить рекламный текст своего любимого технического гуру.
Все статистические модели такого рода, которые используются, являются интерполяциями исторических данных — никакой магии. Поэтому, когда вы интерполируете исторические тексты, ваша модель — это исторический текст.
Текст не является мерой мира, фраза «небо голубое» даже не ассоциируется надежно с голубизной неба, не говоря уже о том, что небо не голубое (неба нет, и атмосфера не голубая).
Эти модели кажутся “захватывающими больше” только потому, что когда вы интерпретируете текст, вы приписываете ему значение/понимание как причину его создания — но это не было причиной, это обязательно иллюзия. В модели исторического текста нет модели мира — есть модель мира в вашей голове, которую вы ассоциируете с текстом, и эта ассоциация эксплуатируется, когда вы используете LLM, чтобы сделать больше, чем просто преобразование синтаксиса.
LLM преуспевают больше всего в “нечетком поиске” и таких вещах, как кодирование — последнее в основном вопрос синтаксиса, а первое — воспоминания. Как только вам требуется, чтобы подсказка-дополнение поддерживало “семантическую целостность” с несинтаксическими/вызываемыми ограничениями, все разваливается. 
nightski 2 часа назад | корень | родитель | следующий [–] Мне кажется, что вы игнорируете или отбрасываете слово «интерполяция», хотя, вероятно, лучшим словом было бы обобщение. Я бы сказал, что очень трудно обобщать без какой-либо формы модели мира. Мне ясно, что у трансформаторов есть какая-то форма модели мира, хотя и не такая, как та, что представлена в V-JEPA.
Еще одна придирка заключается в том, что вы ограничиваетесь «историческими данными», хотя обучение проводится на других классах данных, таких как смоделированные и генеративные. 
mjburgess 1 час назад | корень | родитель | следующий [–] Я не сказал обобщение, потому что его нет. Индуктивное обучение не обобщает, оно интерполирует — если область вашего будущего предсказания (в данном случае, конкуренция подсказок) лежит на интерполированной области или близко к ней, то система полезна.
Обобщение — это противоположный процесс, предполагающий универсальное и находящий контрпримеры для ограничения универсального обобщения. Например, «весь огонь горит» выдвигается компетентным животным при единожды встрече с огнем.
Индуктивные «обучающиеся» придерживаются противоположного подхода: огонь обжигает во «всех этих случаях», и если у вас есть случай, подобный этим, то огонь обожжет вас.
Они могут выглядеть одинаково в области интерполяции, но выглядеть совсем по-другому, когда вы покидаете ее: все эти системы быстро рушатся, когда накладывается больше, чем горстка семантических ограничений. Это число является мерой расстояния от интерполированной границы (например, рассмотрите эту интерпретацию последней статьи Apple о рассуждениях в LLM: «сложность среды» есть не что иное, как мера различия интерполяции).
Ранние современные философы науки были этим очень смущены, но это ясно как день у Аристотеля, и это также чрезвычайно хорошо установлено с 80-х годов, поскольку развитие формальной вычислительной статистики потребовало прояснить это: интерполяция не является обобщением. Первое не дает вам устойчивости к нерелевантной перестановке (т. е. обобщению); оно не позволяет рассматривать контрфактуальные сценарии (т. е. обобщение); оно не дает вам семантики/теории процесса генерации данных (т. е. обобщение, т. е. модель мира).
Интерполяция — это модель данных . Обобщение требует модели процесса генерации данных , первое не дает вам второго, хотя может показаться, что это так при сильных экспериментальных предположениях известных причинных моделей.
Здесь LLM моделируют структуру языка-как-символического-упорядочения, эта структура “в интерполированной области” выражает рассуждение, но это не модель рассуждения . Это модель рассуждения, как оно зафиксировано в исторических случаях. 
jeremyjh 1 час назад | корень | родитель | следующий [–] Разве нет документов, показывающих, что возникает некая модель мира? Как представления доски Отелло, которые мы бы узнали, были найдены и успешно обработаны в небольшой модели.
mjburgess 34 минуты назад | корень | родитель | следующий [–] Существуют две последующие статьи, показывающие, что представления «запутаны» (эвфемизм для статистического мусора), но в данный момент я не могу себе позволить их найти.
Однако вся проблема Отелло нелогична и свидетельствует о том, что люди, вовлеченные в нее, на самом деле не понимают сути проблемы или того, что такое модель мира.
«Модель мира» — это модель процесса генерации данных, которая не сводится к его измерениям и не конституируется ими. То есть, нас интересует случай, когда есть пространство измерений (например, высота ртутного столба в термометре) и целевое пространство свойств (например, температура кофе). Так что между данными-мерой и их причинами существует разрыв. В языке этот разрыв огромен: причина моего высказывания «Я голоден» может не иметь ничего общего с моим голодом, даже если это часто так. Что касается «научных измерительных приборов», они сконструированы так, чтобы максимально минимизировать этот разрыв.
В любом случае, с настольными играми и другими математическими объектами нет разрыва. Данные — это игра. «Состояние доски» — это абстрактный объект, образованный всеми возможными состояниями доски. Игра «состоит из» ее реализаций.
Однако мир не создан из языка, а кофе не создан из термометров. Поэтому модель данных не является моделью процесса их генерации.
Поэтому вопрос о том, «полностью ли характеризует» интерполяция состояний доски абстрактный математический объект «игра», настолько нерелевантен для вопроса, что выдает фундаментальное отсутствие понимания даже сути вопроса.
Никто не спорит, что структурированная интерполяционная модель (т. е. та, которая имеет индуктивное смещение архитектурой NN) не выражает свойства базового домена в своей структуре. Вопрос в том, что происходит с этой моделью данных , когда у вас есть тот же процесс генерации данных , но вы не находитесь в интерполированной области.
Эта проблема, в пределе больших данных, невозможна для абстрактных игр по их природе, например, модель, классифицирующая входные данные X на допустимые/недопустимые состояния доски, является игрой.
Другой способ сформулировать это так: в учебниках по машинному обучению/искусственному интеллекту часто начинают с предположения, что есть функция, которую вы аппроксимируете. Но в подавляющем большинстве случаев, когда используются нейронные сети, такой функции нет — нет токенов функции -> значений (например, «я голоден» неоднозначно).
Но в случае абстрактной математики есть функция, {boards} -> Legal|Illegal — это функция, нет неоднозначных досок.
Итак: из бесконечного числа приближений f* к f_game любое допустимо в пределе len(X) -> inf. Из бесконечного числа f*_lang к f_language все недопустимы (каждое по-своему). 
abtinf 2 часа назад | корень | родитель | предыдущий | следующий [–] > армия прибывает, чтобы повторить рекламный текст своего любимого технического гуру
Это до боли точно.
Разговоры проходят примерно так:
Я: «Ребята, я знаю, о чем говорю. Я написал свою первую нейронную сеть 30 лет назад в средней школе. Эта технология крутая, но она не волшебная и недостаточно хороша, чтобы делать то, что вы хотите, не рискуя получить за это судебный иск или что-то похуже».
Они: «Бро, я прочитал твит о том, что мы по ту сторону сингулярности. У нас есть шесть месяцев, чтобы заработать денег, прежде чем все взорвется». 
refulgentis 3 часа назад | корень | родитель | предыдущий | следующий [–] Я могу это принять, учитывая очень широкое значение “специально обученный” и немного помахав рукой насчет “насколько
я знаю*”, но затем я читаю фактическую формулировку “новые объекты в новых и невиданных средах” и вспоминаю, что они летали вокруг Маунтин-Вью, выполняя задания, связанные с новыми объектами в неизведанных средах много лет назад. Тогда мне как бы приходится сдаться и признаться себе, что я искажаю разговор, подчеркивая позитивность вместо земной истины.
gyudin 3 часа назад | корень | родитель | предыдущий | следующий [–] Они не используют его, потому что это небезопасно и потенциально опасно для жизни, лол.
dghlsakjg 3 часа назад | корень | родитель | следующий [–] Множество вещей небезопасны и потенциально опасны для жизни, включая машины с запрограммированными процедурами, которые мы используем сегодня. У нас уже есть роботы с ограниченным интеллектом, которые безопасно взаимодействуют с людьми на рабочих местах.
Эта технология обучения не существовала до этого момента. Вероятно, это больше связано с тем, почему никто не использует ее в дикой природе. 
lukan 3 часа назад | корень | родитель | следующий [–] Да, вы можете просто добавить другие надежные меры безопасности. То есть, если человек подойдет слишком близко, робот остановится.
Или робот находится под постоянным наблюдением.
Или просто действует в зоне, где нет людей.
Но пока это всего лишь исследование, а не выход на рынок. 
DickingОколо 2 часов назад | родитель | предыдущий | следующий [–] Я управляю тысячами роботов на производстве. Мы можем получить очень высокий процент успеха, но только для той задачи, для которой они предназначены. Производственные роботы пока не могут поднимать то, что они уронили. И этот уровень «80%» на самом деле не является приемлемым или даже современным для простого подъема и перемещения, но он привлекателен для робота, который также умеет делать другие вещи с таким же качеством (если JEPA это делает).
siavosh 2 часа назад | предыдущая | следующая [–] Кто-нибудь знает, как изучаются “семантические” вложения? Это, пожалуй, главная техническая проблема здесь.
фидотрон 3 часа назад | предыдущая | следующая [–] Возникает вопрос, будет ли модель в конечном итоге воссоздавать где-то интеграцию Верле или же она будет генерировать кучу этих эвристик типа отмены оптического ускорения в форме нейронной сети.
Это одна из тех идей, которая вертится у меня в голове уже некоторое время: если объединить хорошее отслеживание объектов с пониманием интеграции Верле, то, в принципе, можно довольно легко измерять всевозможные физические величины. 
cubefox 3 часа назад | предыдущая | следующая [–] Я думаю, что фундаментальная идея JEPA (не обязательно эта конкретная реализация Meta) в конечном итоге будет правильной: предсказывать вложения вместо конкретных токенов. Возможно, именно это делают животные. Предсказание следующего токена (распределение вероятностей по возможным следующим токенам) хорошо работает для дискретной области текста, но не очень хорошо работает для непрерывной области, такой как видео, которая была бы необходима для робототехники в реальном времени.
Для текста с двухбайтовым токенизатором вы получаете 2^16 (~65.000) возможных следующих токенов, и вычисление распределения вероятностей по ним вполне осуществимо. Но «возможные следующие кадры» в видеопотоке уже будут чрезвычайно большим числом. Если один кадр имеет несжатый размер 1 мегабайт (вместо всего 2 байт для текстового токена), то существует 2^(8*2^20) возможных следующих кадров, что является слишком большим числом. Поэтому нам каким-то образом нужно предсказать только вложение кадра, то есть то, как будет выглядеть примерно следующий кадр видеопотока.
Более того, для робототехники мы не хотим просто предсказывать следующий (приблизительный) кадр видеопотока. Мы хотим предсказывать будущие сенсорные данные в более общем плане. Вероятно, именно это делают животные, включая людей. Мы постоянно предвидим, что произойдет с нами в «будущем», приблизительно, и где более далекое будущее предсказывается все менее точно. Мы относительно уверены в том, что произойдет через секунду, но все меньше и меньше уверены в том, что произойдет через минуту, или через день, или через год. 
kaivi 56 минут назад | родитель | следующий [–] > Мы постоянно предвидим, что произойдет с нами в «будущем», приблизительно, и где более отдаленное будущее предсказывается все менее точно
Затем появляются доказательства того, что называется Предиктивным Кодированием. Когда это будущее наступает, схема более высокого уровня решает, насколько мы далеки от него, а затем высвобождает соответствующие нейромодуляторы, чтобы перемонтировать эту схему.
Это означало бы, что для того, чтобы учиться быстрее, вам нужно подвергать себя ситуациям, в которых вы часто ошибаетесь: часто удивляться и идти по неправильному пути. Иметь механизм обратной связи, который скажет вам, когда вы ошибаетесь. Возможно, поэтому лучшие учителя — это те, кто часто задает классу вопросы, на которые есть контринтуитивные ответы. 
abraxas 2 часа назад | родитель | предыдущий | следующий [–] Но как перейти от прогнозирования внедрений (которые можно рассматривать как тип сжатия исходных данных с потерями) к чему-то пригодному для использования, например, к последовательности токенов изображений/видео или последовательности действий робота?
bobosha 2 часа назад | корень | родитель | следующий [–] Вот тут-то и вступает в дело память: если у вас есть память о прошлых встраиваниях и связанных с ними метках, можно использовать запрос ИНС для извлечения наиболее похожих встраиваний и выведения из них выводов.
abraxas 2 часа назад | корень | родитель | следующий [–] Но вложение больше похоже на односторонний хэш, вроде sha1 или md5, не так ли? Вы можете получить из входных данных значение хэша, но не наоборот, верно? Я знаю, что аналогично размещенные векторы вложения будут располагаться рядом с семантически связанными векторами, но эти кластеры могут быть очень разреженными в таком массивно-размерном гиперпространстве, и поэтому ближайшие значения в кэше могут быть слишком далеки, чтобы быть полезными?
Кстати, я тут совсем не эксперт и просто пытаюсь понять, как эта система работает от начала до конца. Не воспринимайте все, что я здесь пишу, как авторитет. 
cubefox 2 часа назад | корень | родитель | предыдущий | следующий [–] Роботизированная модель должна будет постоянно преобразовывать прогноз (внедрение) будущих наблюдений вместе с «планом» того, чего робот пытается достичь, в действие. В некое движение, которое учитывает как план действий, так и прогнозируемые сенсорные данные.
Это во многом нерешенная проблема, и я не знаю, насколько далеко продвинулась Мета по этому пути. Не очень далеко, я полагаю. 
NitpickLawyer 2 часа назад | корень | родитель | следующий [–] Если я правильно понял ваш пост, они также делают это:
> V-JEPA 2-AC — это модель мира, обусловленная скрытыми действиями, прошедшая постобучение на основе V-JEPA 2 (с использованием небольшого количества данных о взаимодействии траектории робота), которая решает задачи по манипуляции роботом без сбора данных, специфичных для конкретной среды, или обучения или калибровки для конкретной задачи.
> После этапа бездействия перед обучением модель может делать прогнозы о том, как может развиваться мир, однако эти прогнозы напрямую не учитывают конкретные действия, которые предпримет агент. На втором этапе обучения мы фокусируемся на том, чтобы сделать модель более полезной для планирования, используя данные робота, которые включают визуальные наблюдения (видео) и управляющие действия, которые выполнял робот. Мы включаем эти данные в процедуру обучения JEPA, предоставляя информацию о действиях предиктору. После обучения на этих дополнительных данных предиктор учится учитывать конкретные действия при составлении прогнозов и затем может использоваться для управления. Нам не нужно много данных робота для этого второго этапа — в нашем техническом отчете мы показываем, что обучение всего с 62 часами данных робота уже приводит к модели, которую можно использовать для планирования и управления.
> Мы демонстрируем, как V-JEPA 2 может использоваться для планирования робота с нуля в новых средах и с участием объектов, не наблюдавшихся во время обучения. В отличие от других моделей фундамента робота, которые обычно требуют, чтобы некоторые данные для обучения поступали из конкретного экземпляра робота и среды, где развернута модель, мы обучаем модель на открытом исходном наборе данных DROID, а затем развертываем ее непосредственно на роботах в наших лабораториях. Мы показываем, что предиктор V-JEPA 2 может использоваться для таких фундаментальных задач, как достижение, подъем объекта и размещение его в новом месте.
> Для задач с коротким горизонтом, таких как выбор или размещение объекта, мы указываем цель в виде изображения. Мы используем кодер V-JEPA 2 для получения вложений текущего и целевого состояний. Начиная с наблюдаемого текущего состояния, робот затем планирует с помощью предиктора представить последствия выполнения набора действий-кандидатов и оценивает кандидатов на основе того, насколько близко они подходят к желаемой цели. На каждом временном шаге робот перепланирует и выполняет следующее действие с самым высоким рейтингом по направлению к этой цели с помощью управления на основе прогнозирования модели. Для задач с более длинным горизонтом, таких как выбор объекта и размещение его в нужном месте, мы указываем ряд визуальных подцелей, которых робот пытается достичь последовательно, аналогично визуальному имитационному обучению, наблюдаемому у людей. С этими визуальными подцелями V-JEPA 2 достигает показателей успеха 65% – 80% для выбора и размещения новых объектов в новых и невидимых средах. 
jcelerier 3 часа назад | предыдущая | следующая [–] > Такого рода физическая интуиция не появляется у взрослых после многих лет обучения — маленькие дети развивают эту интуицию, наблюдая за окружающим миром еще до того, как они научатся говорить полными предложениями.
Я имею в виду, что им все равно требуется гораздо больше времени, чем требуется для обучения даже самых крупных LLM, с которыми мы работаем (пара месяцев). 
lukan 3 часа назад | родитель | следующий [–] Но энергии они тратят на это гораздо меньше.
dist-epoch 3 часа назад | родитель | предыдущий | следующий [–] По времени настенных часов. Если считать по входным токенам/пикселям, люди обучаются, имея на порядки меньше входных данных.
logicchains 3 часа назад | корень | родитель | следующий [–] Это совсем не так; объем аудиовизуальных данных, которым подвергается человек даже за один год, невероятно огромен. Более шестидесяти кадров в секунду, шестнадцать часов в день дают более триллиона кадров в год, а каждый кадр при таком высоком разрешении будет сотнями токенов.
cluckindan 5 минут назад | корень | родитель | следующий [–] Вот почему мы проводим токенизацию на очень раннем этапе разработки концепции.
Связанные: https://en.wikipedia.org/wiki/Form_constant 
dist-epoch 2 часа назад | корень | родитель | предыдущий | следующий [–] Давайте возьмем ваши цифры:
Человек: 1000 токенов * 60 * 86400 * 365 = 2 триллиона токенов / год
GPT-4: 13 триллионов токенов
Llama-3: 15 триллионов токенов 
artificialprint 4 часа назад | предыдущая | следующая [–] Бросьте в него ARC-AGI 2!
jadbox 4 часа назад | родитель | следующий [–] Подозреваю, что это не слишком поможет. Эта модель предназначена для моделирования мира на основе физики, в то время как почти все проблемы в ARC — это символические рассуждения.
artificialprint 4 часа назад | корень | родитель | следующий [–] Я бы сказал, что моделирование мира может обеспечить основы, из которых может возникнуть символическое рассуждение, в конце концов, именно так мы (люди) тоже учимся этому. В arc есть много задач, которые основаны на простой физике
littlestymaar 3 часа назад | корень | родитель | следующий [–] > Я бы сказал, что моделирование мира может обеспечить основу, из которой может возникнуть символическое мышление, в конце концов, именно так мы (люди) его и изучаем
Как обычно, сравнения с людьми дают мало практического понимания того, чего можно достичь с помощью МО. Людям не нужно изучать все с нуля, как это делают модели МО, вы не ожидаете, что модели МО выучат язык из нескольких тысяч токенов только потому, что люди могут это сделать, поэтому вы не должны ожидать, что нейронные сети научатся рассуждать только на основе взаимодействия с миром. 
falcor84 3 часа назад | родитель | предыдущий | следующий [–] Да, похоже, что в ARC-AGI 2 много игровых задач, связанных с (проекцией) гравитации и столкновениями, поэтому мне было бы интересно посмотреть, можно ли их обобщить.
nlitened 3 часа назад | предыдущая | следующая [–] Я думаю, что русскоговорящие члены команды повеселились, называя модель V-JEPA.
Тиберий 3 часа назад | родитель | следующий [–] Для любопытных: “жопа” (на которую “JEPA” похоже) означает “задница” на русском языке. Также V (“В”) означает “в” (хотя если говорить конкретно, то регистр должен быть “жопу” или “жопе” в зависимости от контекста)
Коакума-чан 3 часа назад | корень | родитель | следующий [–] А также миниатюра видео:
JEPA 
iLoveOncall 2 часа назад | предыдущая | следующая [–] «Модель мира» и «физическое обоснование» — это такая ложь.
Эти модели не имеют никакого представления о физике, они просто воспроизводят то, что видят в своем обучающем наборе на основе зрения, как это делает любая модель генерации изображений или видео.
Обезьяна видит, что другая обезьяна не может пройти сквозь стену, обезьяна даже не пытается пройти сквозь стену. 
smokel 1 час назад | родитель | следующий [–] Я думаю, вы неправильно понимаете терминологию.
Конечно, эти модели не понимают физику так, как это делают физики или математики. Но они формируют модель мира, которую можно использовать для прогнозирования и рассуждений, возможно, не сильно отличаясь от того, как действуют люди и другие животные при взаимодействии с физическим миром. 
сейдор 15 минут назад | родитель | предыдущий | следующий [–] физика феноменологична. модель видит явления
rayboy1995 2 часа назад | родитель | предыдущий | следующий [–] > Обезьяна видит, что другая обезьяна не может пройти сквозь стену, обезьяна даже не пытайся пройти сквозь стену.
Я имею в виду… мы же просто обезьяны. Разве мы не учились этому, когда были моложе? 
RollingRo11 2 часа назад | корень | родитель | следующий [–] Согласен! Совсем маленький ребенок понятия не имеет о “физике”. Они учатся через опыт и наблюдение.
Эти модели/роботы ни в коем случае не являются сверхразумными, но принцип «Обезьяна видит, что другая обезьяна не может пройти сквозь стену, обезьяна даже не пытайся пройти сквозь стену» не так уж далек от того, как «учатся» некоторые животные/люди. 
момоджо 3 часа назад | предыдущая | следующая [–] Почему Meta инвестирует в это исследование? Какова потенциальная отдача?
сейдор 14 минут назад | родитель | следующий [–] физические роботы бесконечно спорят с физическими людьми
esafak 1 час назад | родитель | предыдущий | следующий [–] В сфере AGI замешаны огромные деньги, и у них есть ресурсы, и в частности данные, для достижения этой цели.
dyauspitr 3 часа назад | родитель | предыдущий | следующий [–] Физические роботы столь же впечатляющие, как и LLM?
DesiLurker 2 часа назад | родитель | предыдущий | следующий [–] возможно, с их инвестициями в AR/VR и игры они могут увидеть путь к созданию «физического интеллекта» и выйти на гораздо более крупный неиспользованный рынок. Я имею в виду, разве Robotaxi не является главной морковкой, которую Маск держит перед инвесторами Tesla уже около десятилетия. Физические роботы могут обеспечить более «постепенный отказоустойчивый» путь к применению ИИ.
aaroninsf 2 часа назад | родитель | предыдущий | следующий [–] Целью является большая феноменологическая модель.
Хорошим определением «реального AGI» может быть мультимодальная модель, которая понимает временные медиа, пространство и поведение объектов, а значит, и истинное агентство.
Феноменология — это философия «вещей такими, какими они кажутся», а не «знания (слов) о вещах». Кажутся нашим чувствам, а не постигаются посредством языка.
LLM, конечно же, торгует языковыми токенами.
Мы можем расширить их поведение с помощью интерфейсов, которые преобразуют другие типы медиа в такие токены.
Но мы можем добиться большего успеха с помощью мультимодальных моделей, которые обучаются непосредственно на других входных данных. Например, интегрируя классификаторы изображений с языковыми моделями архитектурно.
С их помощью можно понять медиа, основанные на времени, путем отбора проб потока и получения, например, расшифровок.
Но опять же, еще лучше построить мультимодальные модели на основе времени, которые напрямую поглощают медиаданные на основе времени, а не выполняют выборку. (По моему скромному мнению, для этого потребуются другие архитектуры, нежели трансформаторы…)
Продолжается бутстрэппинг. Эта работа посвящена обучению моделей понимать мир и свойства объектов путем введения агентства.
Важное примечание: модели, обученные взаимодействовать с миром, неявно обязательно имеют «модель себя», которая взаимодействует с «моделью мира». Предположительно, они обучены сохранять свое дорогостоящее «я». Хм-м-м…
Когда у нас есть модель, которая знает о вещах не только как об узлах в языковом графе, но и то, как эти вещи выглядят, звучат, движутся и «ощущаются» (какую массу они имеют, как они движутся и т. д.)…
…ну, это почти неотличимо от одного из нас, по крайней мере, в отношении воплощения и деятельности. 
ldjkfkdsjnv 4 часа назад | предыдущая [–] Лидерство в метаигре теряет мяч с этими побочными заданиями модели ИИ, не относящимися к LLM
jadbox 4 часа назад | родитель | следующий [–] LLM когда-то были побочным квестом. Надеюсь, мета больше инвестирует в альтернативы, так как, возможно, мы найдем что-то лучшее. Если нет, то мета просто теряет часть бюджета на НИОКР. Они по-прежнему вкладывают большие средства в регулярную разработку LLM, так что это не похоже на то, что они меняют одно на другое.
linguistbreaker 4 часа назад | корень | родитель | следующий [–] Я полностью согласен. У FAANG есть деньги на проведение исследований. Магистры права далеки от интеллекта — для создания AGI потребуется ряд других достижений.
energy123 4 часа назад | родитель | предыдущий | следующий [–] Это саркастический комплимент? Разнообразие в исследовательских программах очень важно для продвижения вперед, даже если это нехорошо для компании, инвестирующей в высокорисковые исследования. Хорошая работа для токсичной компании.
rvz 3 часа назад | родитель | предыдущий [–] Исследования в области искусственного интеллекта — это не только степень магистра права.

Source: news.ycombinator.com