Новый мощный российский нейропроцессор

Этот 21-ядерный чип был спроектирован в топологии 28 нм, реализован как вычислительный ускоритель для серверов, обладает пиковой производительностью в 512 ГФЛОПС. Он ориентирован на обработку больших потоков данных в реальном времени и позволяет, по заверению разработчиков, решать задачи самого широкого спектра — не только нейросетевые.

Процессор NM6408

Одна из наиболее перспективных областей применения новинки — обработка нейросетевыми приложениями больших массивов видеоданных, например, с камер с высоким разрешением. Потенциальные заказчики — транспортная индустрия (авто и железнодорожная), предприятия сферы безопасности, энергетические компании и т. д. «Кроме того, поскольку наши чипы обладают расширенными техническими характеристиками (например, широкий температурный режим), то можно говорить об устройствах, работающих в тяжелых погодных условиях, например, на Крайнем Севере», — отмечают в компании.

Процессоры NM6408 выпускаются на Тайване. «Как только в России появятся фабрики 28 нм, перенесем производство в нашу страну», —  обещают разработчики.

В «Модуле» уверены, что на данный момент в России у новинки прямых конкурентов нет, потому что полностью готовыми нейропроцессорами ни один другой отечественный разработчик не располагает. «
Это нейропроцессор с самой высокой производительностью на российском рынке (все остальные процессоры тоже у нас, они менее производительные) и по своим характеристикам может соревноваться с мировыми лидерами»

На базе нового процессора уже разработан высокопроизводительный вычислительный модуль МС127.04 — для работы в составе встраиваемой вычислительной техники и специализированных высокопроизводительных систем, а также для построения систем цифровой обработки сигналов и машинного зрения.

Стоимость разработки

Разработка нейропроцессора происходила в рамках исполнения госконтракта с Минпромторгом на выполнение соответствующих опытно-конструкторских работ (ОКР). Он был подписан сторонами в марте 2014 г. за 480 млн руб. со сроком исполнения до 26 декабря 2017 г.

«ОКР был сдан вовремя, — утверждают разработчики. —  В течение 2018 г. шло освоение серийного производства: разрабатывалась инструментальная плата, проводилось тестирование, писался соответствующий софт для работы на процессоре и т. д.».

На все разработки, которые финансируются Минпромторгом, у «Модуля» с министерством заключены лицензионные соглашения, которые предоставляют право производить и реализовывать устройства.

Как показали испытания, российская разработка в разы эффективнее аналогичных устройств, а по цене –
на 30% дешевле. Розничная стоимость серийного NM6408 названа в районе 4700 рублей.

Технические подробности

Типовая потребляемая мощность чипа — 20 Вт, максимальная — 35 Вт. Температурный диапазон, в рамках которого может функционировать процессор, — от -60°C до +85°C.

Ряд российских источников уже окрестил разработку как мощнейший российский процессор и конкурент NVIDIA. На самом деле имеет место манипуляция фактами, хотя среди российских разработок чего-то близкого действительно нет. Пиковая производительность SoC NM6408 достигает 512 гигафлопс на операциях FP32. В пояснительной записке представители центра действительно ссылаются на гетерогенную архитектуру SoC NVIDIA Xavier и архитектуру Volta, но лишь с целью проиллюстрировать пример смешанных архитектур.
По факту 512 гигафлопс —  это уровень графики GPU Maxwell в составе SoC NVIDIA Tegra X1 пятилетней давности.

Упрощенная общая структурная схема СнК NM6408

Как и в случае NVIDIA Xavier, SoC NM6408 состоит из ядер компании ARM, но вместо ядер CUDA использует фирменные векторные ядра NeuroMatrix НТЦ «Модуль». В общем случае решение состоит из пяти ядер ARM Cortex-A5 и 16 векторных ядер NeuroMatrix (NMC4). Сборка разбита на четыре кластера, каждый из которых управляется своим ядром ARM Cortex-A5 на частоте 800 МГц. В состав каждого кластера входит по 4 векторных ядра NMC4 на частоте 1 ГГц. Производительность 512 гигафлопс — это вычисления с одинарной точностью (FP32). Разрядность выполнения векторных операций может меняться (уменьшаться), что приведёт к росту производительности в случае FP16, FP8 и FP4. Операции с двойной точностью также доступны для обработки, но тогда скорость работы для FP64 будет снижена до 128 гигафлопс.

Четыре ядра ARM Cortex-A5 из кластеров имеют кеш-память команд и данных по 32 Кбайт, а пятое ядро, осуществляющее общее управление, дополнительно располагает кеш-памятью L2 объёмом 512 Кбайт.
Кроме этого ядра располагают внутренней иерархической памятью общим объёмом 9,25 Мбайт (74 Мбит). Для обращения к системной памяти предусмотрено пять интерфейсов DDR3 с пропускной способностью
6,4 Гбит/с каждый. В организации многопроцессорных конфигураций помогут четыре  дуплексных  высокоскоростных  коммуникационных  порта  с  пропускной  способностью 2  Гбит/с в каждом направлении. В наличии интерфейсы PCIe2.0 x4, порты Ethernet 10/100, SPI и GPIO.

Топология иерархического блока РС (слева) и полная топология СнК NM6408 (справа)

Решение выпускается с использованием 28-нм техпроцесса (скорее всего —  на линиях TSMC, но официального подтверждения этому нет). Площадь кристалла 83 мм2. Число транзисторов — 1,05 млрд. Корпус — BGA 1444, шаг выводов 1 мм, 40 × 40 мм FlipСhip. Максимальная потребляемая мощность не более 35 Вт. Сборка ориентирована на первичную обработку сигналов и работу с многослойными нейронными сетями. Это машинное обучение и элементы искусственного интеллекта.

Источник

Интересное по теме