Tensor Manipulation Unit (TMU): реконфигурируемый, почти память, высокопроизводительный ИИ ( arxiv.org )
Передовые и инновационные разработки в области аппаратного обеспечения искусственного интеллекта из Китая.
Похоже, американские санкции стимулируют новую волну инноваций в Китае.
«Эта работа устраняет этот пробел, представляя Tensor Manipulation Unit (TMU): реконфигурируемый, почти оперативный аппаратный блок, предназначенный для эффективного выполнения операторов с интенсивным перемещением данных (DMI). TMU манипулирует длинными потоками данных в режиме «память-память», используя модель выполнения, вдохновленную RISC, и унифицированную абстракцию адресации, что обеспечивает широкую поддержку как грубо-, так и мелкозернистых тензорных преобразований.
Предлагаемая архитектура объединяет TMU вместе с TPU в высокопроизводительной AI SoC, используя двойную буферизацию и пересылку выходных данных для улучшения использования конвейера. Изготовленный по технологии SMIC 40 нм, TMU занимает всего 0,019 мм2, поддерживая более 10 репрезентативных операторов TM. Сравнительный анализ показывает, что TMU в одиночку достигает снижения задержки на уровне оператора до 1413,43× и 8,54× по сравнению с ARM A72 и NVIDIA Jetson TX2 соответственно.
При интеграции с собственным TPU вся система достигает сокращения сквозной задержки вывода на 34,6%, демонстрируя эффективность и масштабируемость реконфигурируемой тензорной манипуляции в современных ИИ-системах на кристалле».
Source: news.ycombinator.com