전통적으로 컴퓨터의 뇌는 CPU가 맡아왔다. 고전적인 CPU는 한 가지 명령을 순차적으로 처리하는 직렬 구조인데 계산능력 향상을 위해 여러기능을 동시에 수행하는 능력을 갖추게 되었다. 그런데 인공지능 기술을 개발하고 사용하려면 엄청난 양의 데이터를 짧은 시간 안에 처리해야 하므로 CPU만으로는 역부족이었다. 그래서 도입한 것이 GPU이다. GPU는 원래 게임산업에서 3차원 그래픽을 표현하고자 개발되었다. 2차원 화면에서 3차원을 표현하려면 좌표, 조명, 재질 등 여러 변수를 동시에 고려하여 조합해야 한다. 즉 GPU는 각 변수를 병렬로 놓고 계산한다. 한편 인공지능에서 문제가 되는 것이 많은 데이터를 처리할 때 데이터가 순간적으로 쏠리는 병목현상이다. 이를 방지하기 위해 여러 코어로 데이터를 분산시켜주는 프로세서도 있는데, 그것이 바로 DPU다. DPU는 데이터의 저장 및 출력, 압축 및 해제 등 CPU가 하는 일 중 일부를 대신하여 CPU의 처리 속도를 높인다. 또한 TPU라는 칩도 있다. 구글이 만든 반도체로, 병렬처리 속도가 획기적으로 높아 인공지는 딥러닝 계산에 특화되어 있다. 즉 인공지능 연산의 기본은 GPU이며, 엄청난 양의 계산을 적은 에너지로 빠르게 할 때는 TPU를 사용한다.
추론 서비스에서 가장 중요한 점은 속도, 즉 서비스에 지연이 없는 것이고 그 다음은 전력 소비량이 낮은 것이다. 또한 인공지능 추론 서비스는 주로 무선 모바일 환경에서 제공되는데 배터리의 한계를 감안하면 저력 소비가 최소화되어야 한다. 발열 문제도 함께 관리되어야 한다. 한편 추론 서비스가 활발해지면 그만큼 데이터센터에는 부하가 걸린다. 또한 데이터센터와 추론 서비스를 제공하는 자율주행차나 로봇 등 단말기 사이에서 데이터 통신량이 많아지면 병목현상이 생길 수 있고 이런 문제들로 인해 추론 서비스가 지연되면 심각한 부작용이 초래될 수 있다. 이를 해결할 수 있는 종합 솔류션을 갖고 있는 업체로는 엔비디아, 브로드컴, AMD, 마블 테크놀로지 등 데이터센터 하드웨어 관련 업체들과 데이터센터 생태계를 구성하는 소프트웨어 개발 업체 오라클을 들 수 있다.