Универсальное предварительное обучение с помощью итерационного случайного вычисления ( arxiv.org )
Аннотация: «Мы исследуем использование случайно сгенерированных данных для предварительного обучения модели. Мы обосновываем этот подход теоретически с точки зрения алгоритмической сложности, основываясь на недавних исследованиях, которые показывают, что модели последовательностей можно обучить для приближения индукции Соломонова. Мы получаем похожие, но дополнительные теоретические результаты. Мы показываем эмпирически, что синтетически сгенерированные данные можно использовать для предварительного обучения модели до того, как данные будут видны. Мы повторяем более ранние результаты, согласно которым модели, обученные таким образом, показывают нулевое обучение в контексте на различных наборах данных, и что эта производительность улучшается с масштабированием. Мы распространяем более ранние результаты на реальные данные и показываем, что тонкая настройка модели после предварительного обучения обеспечивает более быструю сходимость и лучшее обобщение».
Source: news.ycombinator.com