Представлен новый процессор Rockchip RK3668 с 10-ю ядрами ARM Cortex-A730/Cortex-A530 и NPU на 16 TOPS

Компания Rockchip, в Фучжоу(Fuzhou), Китай, на конференции разработчиков Rockchip Developer Conference 2025 (RKDC!2025) представила несколько интересных анонсов. Среди которых, новый 10-ти ядерный процессор Rockchip RK3668 на базе ядер Arm Cortex-A730/A530. В новый процессор входит дополнительный сопроцессор RK182X, построенный на архитектуре RISC-V, с NPU на 16 TOPS поддерживающий до 7 миллиардов параметров LLM (Large Language Model) или VLM (Vision Language Model).

Конференция Rockchip Developer Conference 2025 (RKDC!2025)
Конференция Rockchip Developer Conference 2025 (RKDC!2025)

Предварительные характеристики Rockchip RK3668:

  • Процессор: SoC — Rockchip RK3668 10-ядерный big.LITTLE с 4-ядрами Cortex-A730, 6-ядрами Cortex-A530 Armv9.3, суммарная производительность около 200 тыс. DMIPS, литография 5~6 nm с:
    • GPU ARM Magni производительностью до 1-1.5 TFLOPS
    • NPU 16 TOPS RKNN-P3
    • VPU 8K 60 FPS video decoder
  • Оперативная память: LPDDR5/5x/6 с пропускной способностью до 100 GB/s
  • Пользовательская память: UFS 4.0
  • Видео:
    • HDMI 2.1 с поддержкой разрешения до 8K@60 FPS
    • MIPI DSI
  • Камера: с поддержкой обработки с помощью ИИ, до 8K@30 FPS
  • ПериферияPCIe, UCIe

Серия Rockchip RK36XX представлена двумя моделями:

  • RK3668: 10-ядерный, с 4-ядрами Cortex-A730, 6-ядрами Cortex-A530 Armv9.3;
  • RK3688: 12-ядерный, с 8-ядрами Cortex-A730, 4-ядрами Cortex-A530 Armv9.3.

Спецификация Rockchip RK3688
Спецификация Rockchip RK3688

В RK3688 входит NPU на 32 TOPS (RK3668 — 16 TOPS), пропускная способность памяти LPDDR6 до 200GB/s, видеодекодер с поддержкой разрешения до 16Kp30, и видеокодер — 8Kp60.

Сравнение RK3688 и RK3668:

Rockchip RK3688 Rockchip RK3668
CPU 8 x ARM Cortex-A730
4 x ARM Cortex-A530
4 x ARM Cortex-A730
6 x ARM Cortex-A530
GPU ARM Magni
2 TFLOPS
ARM Magni
1 до 1.5 TFLOPS
NPU RKNN-P3
32 TOPS
RKNN-P3
16 TOPS
Memory LPDDR5/6
200 GB/s bandwidth
LPDDR5/6
100 GB/s bandwidth
Компания Radxa планирует выпустить одноплатный компьютер ROCK 6 на основе нового RK3688.

Ускоритель Rockchip RK182X LLM/VLM

Ускоритель состоит из многоядерных процессоров RISC-V с «сверхвысокой» пропускной способностью 2.5 ГБ или 5 ГБ DRAM, содержит контроллеры PCIe 2.0, USB 3.0 и Ethernet для подключения к хост-процессору.

Сопроцессор RK182X LLM/VLM
Сопроцессор RK182X LLM/VLM

Компания заявляет, что модели параметров INT4/FP4 7B могут полностью поместиться в 3.5 ГБ RAM. Эти модели были еще разработаны для SoC Rockchip RK3576/RK3588 с NPU в 6 TOPS.

NPU-блок в RK182X
NPU-блок в RK182X

RKNN3 Toolkit для NPU
RKNN3 Toolkit для NPU

Для запуска LLM/VLM на процессорах Rockchip используется RKNN3 Toolkit с поддержкой фреймворков PyTorch, ONNX, и TensorFlow, а так же HuggingFace GGUF (унифицированный формат, созданный GPT).

Производительность моделей Qwen2.5 и DeepSeek R1, для RK182X
Производительность моделей Qwen2.5 и DeepSeek R1, для RK182X

Компания Rockchip показала слайды с показателями производительности для популярных моделей, таких как Qwen2.5 и DeepSeek R1. Запуск модели DeepSeek-R1-Distill-Qwen-1.5B на RK3588 с 6 TOPS NPU показал производительность решения простого математического уравнения в 188.53 токена/с для предзаполнения и 14.93 токена/с для генерации.

Представленные показатели модели Qwen2.5-1.5B нельзя напрямую сравнить, но он всё же они дают представление о производительности ускорителя RK182X в более 2000 токенов/с для предзаполнения и около 120 токенов/с для декодирования. Таким образом, это примерно в 8-10 раз быстрее, по сравнению с RK3588.

Сопроцессор RK1828 LLM/VLM
Сопроцессор RK1828 LLM/VLM

Необходимо отметить, что ускоритель RK182X включает в себя чип RAM для размещения LLM модели, т.е. общая память не используется. Этим достигается максимальная скорость обмена т.е. NPU напрямую связан с выделенной RAM. Ускоритель RK1820 содержит 2.5 GB RAM для запуска LLM моделей размером 3B, RK1828 содержит уже 5GB RAM, что в двое больше, чем у RK1820. Возможен запуск LLM моделей размером в 7B.

Термины:

  • LLM, или большая языковая модель (от англ. Large Language Model), это продвинутый алгоритм искусственного интеллекта, который обучен на огромных объемах данных для понимания и генерации человеческого языка. Популярные популярные LLM это ChatGPT, Claude, Gemini, и китайская DeepSeek.
  • VLM — это усовершенствованные модели искусственного интеллекта, которые сочетают в себе способности зрительных и языковых моделей для работы как с изображениями, так и с текстом. Эти модели воспринимают изображения вместе с их текстовыми описаниями и учатся связывать их между собой. Зрительная часть модели улавливает детали изображений, а языковая часть понимает текст. Такая совместная работа позволяет VLM понимать и анализировать как изображения, так и текст.

Сравнение с RK3588

На сегодняшний день, модель RK3588 является самой производительной из всех процессоров Rockchip. На базе RK3588 построен одноплатный компьютер Orange PI 5 Plus, обзор которого был на Хабре
Может ли Orange PI 5 Plus с 32 ГБ памяти заменить домашний/офисный ПК? С точки зрения производительности, компьютер Orange PI 5 Plus способен заменить офисный ПК начального уровня. Единственная проблема, это недописанные драйвера, не дающие полностью раскрыть потенция платформы.

Если сравнивать процессоры по показателю DMIPS (Dhrystone MIPS, показатель производительности процессора, полученный путем запуска бенчмарка Dhrystone), то получим следующие результаты:

  • RK3588 – 93K DMIPS (некоторые утверждают 130K DMIPS);
  • RK3668 – 200K DMIPS, быстрее RK3588 в 2.15x;
  • RK3688 – 300K+ DMIPS, быстрее RK3588 в 3.22x.

Топовый процессор RK3688, быстрее существующего RK3588 в 3.22x, это впечатляющий результат. В сочетание с NPU на 32 TOPS, позволяет записать этот процессор уже в средний сегмент по производительности офисных/домашних ПК, т.е. на данном процессоре уже можно комфортно работать.

Видео

Видео с конференции:

Литература

Вам также может понравиться

About the Author: Anton

Programistik