AI 서비스 돌리려면 하드웨어가 필요합니다. 요즘 선택지가 두 개예요. 엔비디아 GPU 쓰거나, 구글 TPU 쓰거나.
관찰자 입장에서 정리해봤습니다.
시장 상황부터 보면
엔비디아가 깔고 있습니다. 데이터센터용 AI 칩 시장 거의 다 먹고 있어요. AWS, Azure, Oracle 같은 클라우드 들어가보면 기본값이 GPU입니다. 연구실이든 스타트업이든 대부분 CUDA 환경에서 개발하니까, 자연스럽게 “AI 하려면 엔비디아”라는 공식이 굳어졌죠.
구글 TPU는 원래 내부용이었습니다. 검색, 유튜브, 번역 서비스 돌리려고 만든 건데, 이제 Google Cloud 통해서 외부에도 풀고 있어요. 점유율은 아직 작습니다. 다만 앤트로픽 같은 데서 “엔비디아만 쓰기 불안하다”면서 TPU 도입하기 시작했고, 이런 움직임이 조금씩 늘고 있습니다.
지금 기준으로 1순위는 GPU고, TPU는 대안 정도입니다.
왜 갈아타기가 어려운가
GPU 쓰는 이유가 성능 때문만은 아닙니다. 진짜 문제는 CUDA예요.
엔비디아가 CUDA, cuDNN, TensorRT 이런 소프트웨어를 20년 가까이 쌓아왔거든요. PyTorch 튜토리얼 찾아보세요. 거의 다 CUDA 기준입니다. 새로 뽑은 개발자한테 “TPU 써본 적 있어요?” 물어보면 대부분 없다고 합니다. 교육 자료도, 커뮤니티도, 레퍼런스 코드도 전부 CUDA 중심이에요.
한번 이렇게 시스템 구축하면 바꾸기가 정말 힘듭니다. MLOps 파이프라인, 배포 스크립트, 모니터링 도구 전부 엔비디아에 맞춰져 있는데 이걸 갈아엎으려면 비용이 장난 아니에요.
구글도 이거 알고 있습니다. 그래서 PyTorch/XLA 지원 늘리고, JAX 생태계 키우고 있는데, 솔직히 아직 멀었어요. “그냥 GPU 대신 꽂으면 끝”이 아니라, 코드도 손봐야 하고 배포 과정도 다시 짜야 합니다.
비즈니스 전략도 다릅니다. 엔비디아는 클라우드든 온프레미스든 엣지든 어디든 GPU 팝니다. 구글은 TPU를 Google Cloud랑 묶어서만 제공해요. 클라우드 고객 잡으려는 전략인데, 선택지가 좁아지는 건 단점이죠.
효율이랑 성능 얘기
TPU는 전력 효율이 좋습니다. 딥러닝 핵심 연산에만 특화된 칩이라 그래요. 쓸데없는 회로가 없으니까 같은 일 하는데 전기를 덜 먹습니다. TPU v4가 A100이랑 비슷하거나 더 빠르면서 전력은 확 적게 쓴다는 데이터가 있어요.
GPU는 철학이 달라요. 전력 아끼는 것보다 성능 뽑는 게 우선입니다. H100 같은 최신 GPU는 수백 와트씩 잡아먹으면서 연산량을 극대화하는 방향으로 설계됐습니다.
학습 성능 보면, 벤치마크에서 TPU v4가 A100보다 1.2~1.6배 빠른 경우가 있습니다. 칩 수천 개로 확장해도 TPU Pod가 GPU 클러스터랑 비슷하게 따라옵니다. 근데 최신 GPU(H100, Blackwell)는 단일 칩 성능이 워낙 괴물이라, “가장 빠른 칩”이 필요하면 아직 GPU입니다.
추론은 좀 다릅니다. TPU v5e가 가성비를 많이 끌어올렸어요. 대규모로 요청 처리해야 하는 서비스라면 TPU가 예산 면에서 유리할 수 있습니다. 반대로 소규모 배치나 온프레미스 환경에서는 GPU 한 장이 더 편하고요.
“GPU가 무조건 빠르다”, “TPU가 무조건 싸다” 이런 건 없습니다. 모델 크기, 트래픽 규모, 예산 구조 따라 다 달라요.
그래서 뭘 고르냐
팀이 CUDA에 익숙하면 굳이 바꿀 이유 없습니다. 리스크만 커져요.
처음부터 Google Cloud 쓸 거면 TPU 기본으로 깔고 가는 것도 괜찮습니다.
전력비가 크게 신경 쓰이는 대규모 서비스라면 TPU 효율을 숫자로 따져보세요. 연구나 프로토타입 단계에서 이것저것 빨리 테스트해야 하면 CUDA 쪽이 도구가 많아서 편합니다.
시장 흐름은 독점에서 하이브리드로 가고 있습니다. 엔비디아 하나에 올인하기보다 작업별로 섞어 쓰는 쪽이 나중에 유연합니다.
승자 가리자는 글이 아닙니다. 상황 따라 맞는 게 다르니까, 비교 기준 잡을 때 참고하시면 됩니다.