Робоча станція з чотирма відеокартами Intel Arc Pro B70 32GB дозволяє компанії локально запускати корпоративний чатбот, RAG-пошук по документах, підготовку відповідей клієнтам, класифікацію звернень і пакетний аналіз текстів. Ця конфігурація розрахована на паралельну роботу кількох спеціалістів та запуск великих моделей, яким уже недостатньо однієї відеокарти на 32 ГБ. Така робоча станція дозволяє самостійно керувати доступом до моделей, не передавати корпоративні документи зовнішнім AI-сервісам і прогнозувати витрати при постійному потоці запитів.

Купити сервер з Intel Arc Pro B70

Для тестування конфігурації була зібрана робоча станція з 4×Intel Arc Pro B70, процесором Intel Xeon 658X на 24 ядра і 48 потоків та 128 ГБ DDR5. Мовні моделі запускалися у FP16 через Intel LLM Scaler для vLLM. Продуктивність вимірювалася з одним, чотирма та вісьмома одночасними користувачами.

Ми розібралися, які LLM запускаються на одній і чотирьох Intel Arc Pro B70, як змінюється швидкість під паралельним навантаженням, що потрібно врахувати у програмному стеку та за яких умов локальний AI виправдовує інвестиції.

Що дають чотири Intel Arc Pro B70

Чотири Intel Arc Pro B70 32 GB GDDR6 дають 128 ГБ сумарної відеопам’яті. Цього вже вистачає для запуску моделей 27B–35B у FP16 та обслуговування кількох паралельних сесій.

У режимі тензорного паралелізуму (tensor parallelism) ваги мовної моделі розподіляються між усіма відеокартами. Завдяки цьому робоча станція завантажує Qwen 27B або Qwen 35B-A3B, які займають приблизно 54–70 ГБ і не поміщаються на одній B70.

Для бізнесу ця конфігурація дає:

  • Роботу з великими моделями корпоративного AI. Компанія може використовувати LLM класу 27B–35B для аналізу технічної документації, підготовки коду чи обробки договорів. 
  • Паралельний доступ для кількох працівників. Практика показує, що multi-GPU Intel Arc Pro B70 конфігурація може обслуговувати до восьми робочих місць одночасно. 
  • Запуск FP16-моделей без обов’язкового стиснення до 4 біт. Це спрощує розгортання перевірених ваг і виключає зміну якості через агресивну квантизацію.
  • Використання ECC-пам’яті для захисту від одиничних помилок. Така функція корисна для тривалого інференсу, обробки великих масивів документів і щоденної експлуатації AI-сервісу.

Але важливо пам’ятати, що сумарні 128 ГБ не перетворюються на один фізичний буфер для будь-якої програми. Розподіл пам’яті працює в середовищах, які підтримують тензорний паралелізм або інший спосіб підтримання продуктивності кількох GPU. 

Про характеристики та результати тестування відеокарти ви можете прочитати в нашому огляді Intel Arc Pro B70 32 GB.

Які LLM поміщаються у 32 і 128 ГБ VRAM

Одна Intel Arc Pro B70 для AI запускає FP16-моделі класу 3B–8B, а чотири карти розширюють доступний діапазон до 27B–35B. Докладніше — у таблиці:

Модель Архітектура Обсяг ваг у FP16 1× B70, 32 ГБ 4× B70, 128 ГБ
Qwen 2.5 3B Instruct Dense, 3B ≈6 ГБ Поміщається Поміщається
Qwen 3 8B Dense, 8,2B ≈16 ГБ Поміщається Поміщається
Llama 3.1 8B Instruct Dense, 8B ≈16 ГБ Поміщається Поміщається
DeepSeek R1 Distill 8B Dense, 8B ≈16 ГБ Поміщається Поміщається
Qwen 3.6 27B Dense, 27B ≈54 ГБ Потрібно кілька GPU Поміщається
Qwen 3.6 35B-A3B MoE, 35B / 3B активних ≈70 ГБ Потрібно кілька GPU Поміщається
Gemma 2 9B Dense, 9B ≈18 ГБ Поміщається, але потрібна підтримка BF16** Поміщається, але потрібна підтримка BF16
Gemma 4 31B Dense, 31B ≈62 ГБ Потрібно кілька GPU Поміщається, але потрібна підтримка BF16
Llama 4 Scout MoE, 109B ≈218 ГБ Потрібна інша конфігурація* Потрібна інша конфігурація
DeepSeek V4 Flash MoE, 284B ≈568 ГБ Потрібна інша конфігурація Потрібна інша конфігурація

* Великі мовні моделі обсягом понад 128 ГБ потребують квантизації або більшої GPU-системи. Наприклад, Llama 4 Scout займає близько 218 ГБ у FP16, тому чотирьох B70 для повнорозмірних ваг недостатньо.

** Gemma залежить від підтримки BF16 у програмному середовищі. Arc Pro B70 виконує такі обчислення апаратно, але для їх практичної реалізації потрібен відповідний програмний стек. 

Як масштабується швидкість на 1 і 4 GPU

Чотири Intel Arc Pro B70 майже вдвічі прискорюють Llama 3.1 8B і DeepSeek R1 Distill 8B для одного користувача, а при восьми паралельних сесіях підвищують сумарну продуктивність до 472–905 токенів за секунду. Далі — результати тестування відеокарт для штучного інтелекту:

Модель 1× B70, 1 користувач 4× B70, 1 користувач 4× B70, 8 користувачів Середня затримка при 8 користувачах
Qwen 2.5 3B 72,9 токена/с 62,6 токена/с 410 токенів/с 6,4 с
Llama 3.1 8B 35,4 токена/с 70,3 токена/с 472 токени/с 5,6 с
DeepSeek R1 Distill 8B 66,9 токена/с 136 токенів/с 905 токенів/с 7,5 с
Qwen 3.6 27B Не поміщається 13,1 токена/с 95,9 токена/с 41,1 с
Qwen 3.6 35B-A3B Не поміщається 16,3 токена/с 122 токени/с 32,8 с

Ключові висновки:

  • Llama 3.1 8B прискорилася з 35,4 до 70,3 токена за секунду. Середня тривалість тестової відповіді зменшилася з 9,9 до 4,2 секунди. При восьми користувачах вона зросла лише до 5,6 секунди, тому модель підходить для внутрішнього чатбота з кількома одночасними діалогами.

  • DeepSeek R1 Distill 8B досягла 136 токенів за секунду на чотирьох картах. У режимі восьми паралельних сесій сумарний показник піднявся до 905 токенів за секунду, а середня затримка становила 7,5 секунди. Така швидкість підходить для пакетної генерації, аналізу звернень і командного AI-асистента.

  • Qwen 3.6 27B обробляла вісім сесій зі швидкістю 95,9 токена за секунду. Середня тривалість відповіді зросла з 38,2 секунди при одному користувачі до 41,1 секунди при восьми. Система майже не збільшила час виконання окремого запиту, хоча одночасно обслуговувала у вісім разів більше сесій.

  • Qwen 3.6 35B-A3B показала 122 токени за секунду при восьми користувачах. Модель має 35 млрд загальних параметрів, але на кожному етапі активує приблизно 3 млрд. Така MoE-архітектура дала вищу швидкість і менше енергоспоживання, ніж у dense-моделі на 27B.

  • DeepSeek генерувала близько 840 вихідних токенів на запит проти приблизно 300 у звичайних 8B-моделей. Її довші відповіді підвищили загальну продуктивність. При тому затримка між токенами залишалася на рівні 7–9 мс, що підтверджує високу швидкість моделі в нашій multi-GPU конфігурації. 

Коли чотири відеокарти працюють повільніше за одну

Одна Intel Arc Pro B70 швидше обробляє компактну Qwen 2.5 3B для одного користувача, оскільки така модель повністю поміщається у 32 ГБ і не отримує користі від розподілу між чотирма GPU.

На одній карті Qwen 2.5 3B показала 72,9 токена за секунду. Після розподілу на чотири GPU швидкість знизилася до 62,6 токена за секунду, тобто приблизно на 14%. Передавання даних і синхронізація зайняли більше часу, ніж вдалося зекономити на паралельних обчисленнях.

Тому для одного працівника з моделлю 3B–8B практичніша робоча станція з однією Intel Arc Pro B70. Вона дешевша, простіша в охолодженні та не витрачає електроенергію на три незадіяні карти.

Хоча компанія з чотирма компактними AI-сервісами може знайти інший сценарій паралельних обчислень на GPU:

  • Перша карта запускає корпоративного чатбота.

  • Друга обчислює embeddings і reranking для RAG.

  • Третя обробляє зображення або документи.

  • Четверта обслуговує окрему модель для розробників чи аналітиків.

Ця схема не використовує тензорний паралелізм, зате усуває витрати на синхронізацію між картами. Кожен процес отримує власні 32 ГБ відеопам’яті та працює незалежно від інших.

Програмні обмеження Intel Arc Pro B70 у локальному AI

Intel Arc Pro B70 стабільно працює з FP16-моделями Llama, Qwen і DeepSeek через Intel LLM Scaler для vLLM. Перед побудовою системи зверніть увагу на такі нюанси:

  • BF16. Gemma 2 може не запускатися через обмеження XPU-бекенду vLLM, хоча сама карта підтримує bfloat16.

  • CUDA-залежні інструменти. AWQ/GPTQ Marlin, плагіни й окремі бібліотеки потребують XPU- або SYCL-сумісних аналогів.

  • Multi-GPU. Платформа повинна мати достатньо PCIe-ліній для кількох відеокарт Intel Arc Pro B70.

Систему варто підбирати під конкретну модель, формат ваг, довжину контексту, кількість користувачів і набір бібліотек. 

Скільки коштуватиме локальний інференс в Україні

За розрахункового тарифу 11 грн/кВт·год інференс штучного інтелекту на чотирьох Intel Arc Pro B70 коштує 135–194 грн за мільйон вихідних токенів. Для моделей 3B–8B на одній активній карті витрати становлять 18–40 грн. Докладніший розрахунок:

Модель Конфігурація Потужність системи Вартість 1 млн токенів
Qwen 2.5 3B 1× B70 ≈438 Вт 18 грн
DeepSeek R1 8B 1× B70 ≈460 Вт 21 грн
Qwen 3 8B 1× B70 ≈403 Вт 35 грн
Llama 3.1 8B 1× B70 ≈460 Вт 40 грн
Qwen 3.6 35B-A3B 4× B70 ≈720 Вт 135 грн
Qwen 3.6 27B 4× B70 ≈832 Вт 194 грн

При 8 паралельних сесіях з моделями 3B–8B одна карта витрачає приблизно 3–6 грн на мільйон токенів. Тому локальний AI inference найвигідніший для постійно завантаженого корпоративного сервісу, а не для кількох запитів одного працівника.

Робота Qwen 27B коштуватиме близько 1600 грн на місяць у режимі 8 годин на день або 6600 грн при навантаженні 24/7. Для Qwen 35B-A3B — приблизно 1400 та 5700 грн відповідно.

Розрахункова вартість тестової станції становить близько 800 тис. грн. Якщо локальна Qwen 27B повністю замінює хмарну модель за тарифом $12 за мільйон вихідних токенів, різниця у вартості компенсує закупівлю обладнання після обробки приблизно 2,35 млрд токенів. За продуктивності 95,9 токена/с цей обсяг потребує близько 294 днів безперервного навантаження 24/7 або приблизно 851 восьмигодинного робочого дня.

Яку конфігурацію вибрати для вашого бізнесу

Однієї професійної відеокарти Intel Arc Pro достатньо для моделей 3B–8B локального асистента одного відділу та помірної кількості паралельних запитів. Чотири відеокарти Intel для AI доцільні для FP16-моделей 27B–35B, восьми паралельних сесій або кількох незалежних AI-сервісів.

Ось практичні сценарії збірки робочих станцій та GPU-серверів для AI:

  • 1×Intel Arc Pro B70 — корпоративний чатбот, невелика RAG-система, класифікація звернень, підготовка відповідей і локальний асистент одного відділу. Моделі 3B–8B повністю поміщаються у 32 ГБ VRAM, тому розподіляти їх між чотирма GPU для однієї сесії невигідно.

  • 4×Intel Arc Pro B70 — Qwen 27B, Qwen 35B-A3B та інші FP16-моделі обсягом понад 32 ГБ. Така конфігурація підходить для аналізу договорів і технічної документації, генерації коду, корпоративного RAG та AI-асистента з 4–8 одночасними користувачами.

  • 4×Intel Arc Pro B70 як незалежні прискорювачі — кілька компактних сервісів на одному обладнанні. Одна карта може обслуговувати LLM, друга — embeddings і reranking, третя — обробку документів, четверта — тестове середовище для розробників. Кожен процес отримує власні 32 GB відеопам’яті без витрат на синхронізацію.

  • GPU-сервер з Intel Arc Pro B70 — централізований доступ, навантаження 24/7, віддалені користувачі та кілька виробничих AI-сервісів. Серверний формат додає резервоване живлення, віддалене керування, щільніше розміщення GPU та простіше масштабування інфраструктури.

Фінансово система з чотирма B70 виправдана при стабільному потоці запитів і високому завантаженні протягом усього дня. Для Qwen 27B електроенергія коштує близько 194 грн за мільйон токенів, а розрахункова вартість тестової станції становить близько 800 тис. грн.

Якщо локальна модель замінює хмарний сервіс за тарифом $12 за мільйон токенів, вартість обладнання компенсується після обробки приблизно 2,35 млрд токенів. За виміряної швидкості 95,9 токена/с це близько 294 доби роботи 24/7 або 851 восьмигодинний робочий день. При обсязі 4 млн токенів на день потрібно близько 588 днів, а при 1 млн — близько 2350 днів.

Отже, чотири Intel Arc Pro B70 варто купувати для завантаженого корпоративного AI, яким щодня користується команда. Для нерегулярних запитів одного спеціаліста економнішими залишаються одна B70 або хмарний API.

Якщо ви шукаєте оптимальну конфігурацію для локального запуску LLM, напишіть нам і вкажіть параметри своєї AI-моделі. Спеціалісти Alfa Server запропонують вам оптимальне рішення під конкретний сценарій — робочу станцію з однією відеокартою, multi-GPU конфігурацію чи потужний сервер для обслуговування кількох паралельних процесів.