На конференції hot chips 33 компанія samsung повідомила про плани вбудовувати прискорювачі обчислень в усі типи оперативної пам’яті від смартфонів до комп’ютерів, відеокарт і серверів. Це дозволить збільшити продуктивність платформ і знизити їх енергоспоживання. Найприємніше, що чіпи пам’яті з прискорювачами можна використовувати замість звичайної пам’яті, а програмна підтримка досить проста, що вже зацікавило розробників cpu і gpu.

Модуль axdimm ddr4. Джерело зображення: samsung

Пам’ять pim (processing-in-memory, обчислення в пам’яті) стосовно чіпів hbm2 компанія samsung показала в лютому цього року. Кожен чіп hbm2 озброювався програмованим ші-прискорювачем продуктивністю 1,2 терафлопс (fp16) і міг обробляти зберігаються в пам’яті дані безпосередньо, не переганяючи їх в центральний процесор і назад. Сьогодні компанія повідомила, що працює над озброєнням прискорювачами розрахунків всіх основних типів оперативної пам’яті, що обіцяє появу pim-блоків в підсистемах ноутбуків, відеокарт і так далі.

Чіп пам’яті hbm-pim. Джерело зображення: samsung

Слід сказати, що сьогодні pim-прискорювач забирає під себе приблизно половину площі кристала пам’яті, що не дуже приємно з точки зору нарощування обсягів. У майбутньому samsung обіцяє зменшити прискорювач, представляючи все більш і більш щільні мікросхеми озу всіх типів. Зокрема, для чіпів hbm третього покоління компанія обіцяє ту ж ємність для pim-hbm3, що і для звичайних мікросхем hbm3. Можна припустити, що це можливо завдяки стековій структурі цієї пам’яті.

Шари hbm-pim (тепер це бренд samsung aquabolt-xl) вставляються безпосередньо в стек hbm2 на ту ж саму підкладку-контролер, що і раніше. Тим самим стеки hbm2 простіше простого підмінити стеками з включенням hbm-pim, замінивши одні на інші. Такі гібридні стеки були випробувані компанією xilinx разом з продуктами alveo без будь-яких модифікацій процесорів і адаптерів (монтажної плати або інтерпозера). За повідомленням партнерів, продуктивність підскочила в 2,5 рази з одночасним зниженням споживання енергії на 62 %. Таку ж операцію, запевняють в samsung, можна провести з gpu і cpu з подібною компонуванням і розробники цих рішень вже зацікавилися пропозицією компанії.

Шари hbm-pim можуть бути вбудовані в стандартний стек hbm і процесору про це навіть не потрібно знати. Джерело зображення: samsung

Для найбільш нетерплячих samsung пропонує готове рішення у вигляді модулів axdimm ddr4 (acceleration dimm). Модулі мають буфер, який допомагає обробляти дані в пам’яті, одночасно працюючи з усіма рангами dram на планці. Такий модуль встановлюється в звичайний сервер в стандартний слот пам’яті. Всю роботу-обробку даних в пам’яті з точністю fp16 із застосуванням стандартних процедур tensorflow і python — модуль забезпечує самостійно, а samsung робить все можливе, щоб забезпечити підтримку інших програмних інструментів.

Компанія заявляє, що її тести (проведені на робочому навантаженні facebook ai) показали збільшення продуктивності в 1,8 рази і зниження енергоспоживання на 42,6% з 2-ранговим комплектом. Все це повторимо, без доопрацювань в стандартному сервері, що, безумовно, вражає.

Модуль axdimm значно прискорює обробку іі-орієнтованих даних. Джерело зображення: samsung

В мобільних платформах, якщо говорити про застосування pim з чіпами lpddr5 і подібної, використання обчислень в пам’яті принесе такий же ряд нових можливостей. Поки компанія лише моделює такі процеси, але з часом вони обіцяють з’явитися в ноутбуках і навіть смартфонах. Наприклад, для пам’яті lpddr5x-6400 заявлено підвищення продуктивності в 2,3 рази при робочих навантаженнях з розпізнавання мови, в 1,8 рази при перетворенні перекладу і в 2,4 рази при генерації тексту gpt-2. Ці поліпшення продуктивності супроводжуються зниженням споживання в 3,85, 2,17 і 4,35 рази відповідно. Інше питання, коли це вийде на ринок? адже ця технологія поки не стала стандартом, затвердженим jedec.