구글 TPU, 애플이 엔비디아 대신 쓴 이유에 대한 6가지 이야기!

요즘 AI 하드웨어 얘기하면 대부분 “엔비디아, H100, CUDA” 이런 단어들만 떠오르잖아요. 근데 2024년에 꽤 충격적인 뉴스가 하나 터졌습니다. 애플이 자사 AI 시스템인 Apple Intelligence의 기반 모델을 학습시키는 데 엔비디아 GPU가 아니라 구글 TPU를 썼다는 거예요. 세계 최고의 자금력을 가진 회사가 굳이? 오늘은 이 TPU가 뭔지, 왜 이런 선택이 나오는 건지 제대로 파헤쳐 보겠습니다.


TPU가 뭔데?

TPU는 Tensor Processing Unit의 약자입니다. 구글이 2015년부터 자체 데이터센터에서 쓰기 시작한 AI 전용 칩이에요. 핵심은 딱 하나입니다. 딥러닝 연산에만 특화된 주문형 반도체(ASIC)라는 점.

CPU는 뭐든 다 할 수 있는 만능 선수고, GPU는 그래픽 처리하다가 AI 쪽으로 전향한 케이스죠. 반면 TPU는 태생부터 신경망의 행렬 곱셈만 미친 듯이 빠르게 하려고 만들어졌습니다. 다른 기능? 과감하게 다 쳐냈어요.

구글이 왜 이런 결정을 했냐면요. 2010년대 초반에 내부 계산을 해봤더니, 사용자들이 하루 3분씩만 음성 인식을 쓴다고 가정해도 전 세계 데이터센터를 두 배로 늘려야 감당이 되더랍니다. 데이터센터 두 배요. 현실적으로 불가능한 얘기죠. 그래서 “하드웨어 자체를 바꿔야겠다”고 판단한 겁니다.


왜 그렇게 빠른 거야?

TPU의 비밀 무기는 시스톨릭 배열(Systolic Array)이라는 구조입니다. 이름이 좀 거창한데, 개념은 의외로 직관적이에요.

일반적인 CPU나 GPU는 연산할 때마다 메모리에서 데이터를 꺼내오고, 계산 끝나면 다시 메모리에 저장합니다. 행렬 곱셈처럼 수천 번 반복되는 연산에서 이 “왔다 갔다”가 엄청난 병목이 돼요. 시간도 잡아먹고 전력도 낭비되고.

TPU는 발상을 바꿨습니다. 수만 개의 연산 유닛을 격자 형태로 배치하고, 데이터가 한 유닛에서 계산되면 결과를 메모리로 안 보내고 바로 옆 유닛으로 넘깁니다. 마치 컨베이어 벨트처럼요. 첫 번째 재료 투입할 때랑 마지막 완성품 나올 때만 메모리를 건드리고, 중간 과정은 칩 내부에서 물 흐르듯 처리되는 거죠.

결과적으로 TPU v1은 같은 시대 CPU 대비 83배, GPU 대비 29배 뛰어난 전력 효율을 기록했습니다. 알파고가 이세돌 9단을 이길 때도 이 칩이 뒤에서 일했어요.


세대별로 어떻게 발전했나

간단하게 훑어보면:

  • v1 (2015): 추론 전용. 구글 검색, 번역, 포토 등에 투입
  • v2~v3 (2017~2018): 학습까지 가능해짐. 액체 냉각 도입으로 성능 대폭 향상
  • v4 (2021): 광 회로 스위치로 4,096개 칩 연결. LLM 시대 본격 대비
  • v5 (2023): 성능형(v5p)과 효율형(v5e)으로 라인업 분화
  • v6 Trillium (2024): 전작 대비 4.7배 성능, 에너지 효율 67% 개선
  • v7 Ironwood (2025): 추론 특화. 9,216개 칩으로 42.5 엑사플롭스

특히 최신 Ironwood는 “추론의 시대”를 겨냥한 제품입니다. 모델 학습보다 실제 서비스 운영(추론) 비용이 훨씬 큰 게 현실이거든요. 여기서 비용을 확 낮추겠다는 전략이에요.


실제로 누가 쓰고 있나?

앞서 말한 애플 사례가 가장 충격적이었죠. 8,192개의 TPU v4로 서버용 거대 모델을, 2,048개의 v5p로 온디바이스 경량 모델을 학습시켰습니다.

미드저니도 주목할 만합니다. 이미지 생성 추론 인프라를 GPU에서 TPU로 대거 전환한 뒤 비용을 65% 절감했다고 해요. 월간 수백만 달러 아끼는 수준입니다.

스냅(Snap)은 추천 시스템에 TPU를 적용해서 GPU 대비 처리 비용 74% 절감, 처리량 250% 향상이라는 결과를 냈고요.


그래서 엔비디아보다 나은 건가?

단순 비교는 어렵습니다. 칩 하나의 원시 성능만 보면 H100이나 B200 같은 엔비디아 제품이 앞서는 경우가 많아요. 특히 메모리 용량이나 대역폭에서요.

근데 TPU의 강점은 시스템 레벨에서 나옵니다. 칩 내부에 고속 인터커넥트가 내장되어 있어서 비싼 외부 스위치 없이도 수천 개 칩을 연결할 수 있거든요. 클러스터 구축 비용이 확 줄어듭니다.

그리고 결정적으로 가격이죠. 엔비디아 GPU는 품귀 현상에 프리미엄까지 붙어서 구하기가 하늘의 별 따기입니다. 구글 TPU는 클라우드에서 바로 빌려 쓸 수 있고, 공급이 안정적이에요.

물론 단점도 있습니다. TPU는 구글 클라우드에서만 쓸 수 있다는 제약이 있고, 소프트웨어 생태계가 CUDA만큼 방대하진 않아요. 다만 JAX, PyTorch/XLA 지원이 강화되면서 이 부분은 빠르게 개선되는 중입니다.


앞으로 어떻게 될까

AI 모델이 커질수록 전력 소비 문제가 심각해지고 있습니다. 구글은 2030년까지 데이터센터를 무탄소 에너지로 운영하겠다는 목표를 세웠는데, TPU의 높은 에너지 효율이 이 전략의 핵심 축이에요.

엔비디아 독주 체제에 균열이 생기고 있다는 신호들이 보입니다. 메타도 구글 TPU를 수십억 달러 규모로 도입하는 방안을 논의 중이라는 소식이 있고요.

결국 선택은 “무조건 최고 성능” vs “가성비와 효율”의 문제입니다. 모든 기업이 엔비디아만 고집할 이유가 없어진 거죠. TPU가 그 틈을 파고들고 있습니다.