
Компания Rockchip, в Фучжоу(Fuzhou), Китай, на конференции разработчиков Rockchip Developer Conference 2025 (RKDC!2025) представила несколько интересных анонсов. Среди которых, новый 10-ти ядерный процессор Rockchip RK3668 на базе ядер Arm Cortex-A730/A530. В новый процессор входит дополнительный сопроцессор RK182X, построенный на архитектуре RISC-V, с NPU на 16 TOPS поддерживающий до 7 миллиардов параметров LLM (Large Language Model) или VLM (Vision Language Model).
Конференция Rockchip Developer Conference 2025 (RKDC!2025)
Предварительные характеристики Rockchip RK3668:
Процессор: SoC — Rockchip RK3668 10-ядерный big.LITTLE с 4-ядрами Cortex-A730, 6-ядрами Cortex-A530 Armv9.3, суммарная производительность около 200 тыс. DMIPS, литография 5~6 nm с:
- GPU ARM Magni производительностью до 1-1.5 TFLOPS
- NPU 16 TOPS RKNN-P3
- VPU 8K 60 FPS video decoder
Оперативная память: LPDDR5/5x/6 с пропускной способностью до 100 GB/s
Пользовательская память: UFS 4.0
Видео:
- HDMI 2.1 с поддержкой разрешения до 8K@60 FPS
- MIPI DSI
Камера: с поддержкой обработки с помощью ИИ, до 8K@30 FPS
Периферия: PCIe, UCIe
Серия Rockchip RK36XX представлена двумя моделями:
- RK3668: 10-ядерный, с 4-ядрами Cortex-A730, 6-ядрами Cortex-A530 Armv9.3;
- RK3688: 12-ядерный, с 8-ядрами Cortex-A730, 4-ядрами Cortex-A530 Armv9.3.
В RK3688 входит NPU на 32 TOPS (RK3668 — 16 TOPS), пропускная способность памяти LPDDR6 до 200GB/s, видеодекодер с поддержкой разрешения до 16Kp30, и видеокодер — 8Kp60.
Сравнение RK3688 и RK3668:
Rockchip RK3688 | Rockchip RK3668 | |
CPU | 8 x ARM Cortex-A730 4 x ARM Cortex-A530 |
4 x ARM Cortex-A730 6 x ARM Cortex-A530 |
GPU | ARM Magni 2 TFLOPS |
ARM Magni 1 до 1.5 TFLOPS |
NPU | RKNN-P3 32 TOPS |
RKNN-P3 16 TOPS |
Memory | LPDDR5/6 200 GB/s bandwidth |
LPDDR5/6 100 GB/s bandwidth |
Ускоритель Rockchip RK182X LLM/VLM
Ускоритель состоит из многоядерных процессоров RISC-V с «сверхвысокой» пропускной способностью 2.5 ГБ или 5 ГБ DRAM, содержит контроллеры PCIe 2.0, USB 3.0 и Ethernet для подключения к хост-процессору.
Компания заявляет, что модели параметров INT4/FP4 7B могут полностью поместиться в 3.5 ГБ RAM. Эти модели были еще разработаны для SoC Rockchip RK3576/RK3588 с NPU в 6 TOPS.
Для запуска LLM/VLM на процессорах Rockchip используется RKNN3 Toolkit с поддержкой фреймворков PyTorch, ONNX, и TensorFlow, а так же HuggingFace GGUF (унифицированный формат, созданный GPT).
Производительность моделей Qwen2.5 и DeepSeek R1, для RK182X
Компания Rockchip показала слайды с показателями производительности для популярных моделей, таких как Qwen2.5 и DeepSeek R1. Запуск модели DeepSeek-R1-Distill-Qwen-1.5B на RK3588 с 6 TOPS NPU показал производительность решения простого математического уравнения в 188.53 токена/с для предзаполнения и 14.93 токена/с для генерации.
Представленные показатели модели Qwen2.5-1.5B нельзя напрямую сравнить, но он всё же они дают представление о производительности ускорителя RK182X в более 2000 токенов/с для предзаполнения и около 120 токенов/с для декодирования. Таким образом, это примерно в 8-10 раз быстрее, по сравнению с RK3588.
Необходимо отметить, что ускоритель RK182X включает в себя чип RAM для размещения LLM модели, т.е. общая память не используется. Этим достигается максимальная скорость обмена т.е. NPU напрямую связан с выделенной RAM. Ускоритель RK1820 содержит 2.5 GB RAM для запуска LLM моделей размером 3B, RK1828 содержит уже 5GB RAM, что в двое больше, чем у RK1820. Возможен запуск LLM моделей размером в 7B.
Термины:
- LLM, или большая языковая модель (от англ. Large Language Model), это продвинутый алгоритм искусственного интеллекта, который обучен на огромных объемах данных для понимания и генерации человеческого языка. Популярные популярные LLM это ChatGPT, Claude, Gemini, и китайская DeepSeek.
- VLM — это усовершенствованные модели искусственного интеллекта, которые сочетают в себе способности зрительных и языковых моделей для работы как с изображениями, так и с текстом. Эти модели воспринимают изображения вместе с их текстовыми описаниями и учатся связывать их между собой. Зрительная часть модели улавливает детали изображений, а языковая часть понимает текст. Такая совместная работа позволяет VLM понимать и анализировать как изображения, так и текст.
Сравнение с RK3588
На сегодняшний день, модель RK3588 является самой производительной из всех процессоров Rockchip. На базе RK3588 построен одноплатный компьютер Orange PI 5 Plus, обзор которого был на Хабре
Может ли Orange PI 5 Plus с 32 ГБ памяти заменить домашний/офисный ПК? С точки зрения производительности, компьютер Orange PI 5 Plus способен заменить офисный ПК начального уровня. Единственная проблема, это недописанные драйвера, не дающие полностью раскрыть потенция платформы.
Если сравнивать процессоры по показателю DMIPS (Dhrystone MIPS, показатель производительности процессора, полученный путем запуска бенчмарка Dhrystone), то получим следующие результаты:
- RK3588 – 93K DMIPS (некоторые утверждают 130K DMIPS);
- RK3668 – 200K DMIPS, быстрее RK3588 в 2.15x;
- RK3688 – 300K+ DMIPS, быстрее RK3588 в 3.22x.
Топовый процессор RK3688, быстрее существующего RK3588 в 3.22x, это впечатляющий результат. В сочетание с NPU на 32 TOPS, позволяет записать этот процессор уже в средний сегмент по производительности офисных/домашних ПК, т.е. на данном процессоре уже можно комфортно работать.
Видео
Видео с конференции: