구글 Whisk: 이미지로 프롬프트하는 AI의 5가지 알아야 할 것!

생성형 AI로 이미지 만들어보신 분들 계실 겁니다. 해보면 아시겠지만, 텍스트 프롬프트 쓰는 게 은근히 스트레스예요. 머릿속에 분명히 그림이 있는데 그걸 글로 풀어쓰려니까 막막하고, 영어로 써야 결과가 좋다고 하니까 번역기 돌리고… 뭔가 본말이 전도된 느낌이 들 때가 있죠.

구글 랩스에서 나온 Whisk는 이 문제를 좀 다르게 풀어봤습니다. 핵심 아이디어가 뭐냐면, “그냥 이미지로 보여줘”입니다. 설명하지 말고요.

세 장의 이미지로 새 이미지를 만든다

구조 자체는 별거 없어요. 슬롯이 세 개 있습니다.

Subject에는 주인공 넣고, Scene에는 배경 넣고, Style에는 원하는 화풍 넣으면 됩니다. 그러면 이 세 개를 섞어서 새로운 이미지가 나옵니다. 예를 들어 우리 집 고양이 사진을 Subject에 넣고, 연못 사진을 Scene에, 반짝이는 일러스트 이미지를 Style에 넣으면 “연못가에 앉아있는 반짝반짝한 일러스트 고양이”가 튀어나오는 식이에요.

솔직히 처음 들으면 “그게 된다고?” 싶은데, 실제로 해보면 꽤 잘 됩니다. 물론 100% 내 머릿속 이미지가 나오진 않아요. 근데 텍스트로 끙끙대면서 프롬프트 쓰는 것보다는 훨씬 직관적이에요. 레퍼런스 이미지 몇 장 던져놓으면 “아, 대충 이런 느낌 원하는구나” 하고 알아서 뽑아주니까요.

뒤에서 뭐가 돌아가길래

겉으로 보기엔 단순한데, 안에서는 여러 모델이 릴레이하듯이 돌아갑니다.

일단 이미지를 올리면 Gemini가 먼저 분석을 해요. “이 사진에 뭐가 있지, 색감은 어떻고, 분위기는 어떻고” 이런 걸 텍스트로 정리합니다. 그러니까 사용자가 프롬프트를 안 썼어도, Gemini가 이미지 보고 대신 프롬프트를 만들어주는 거예요. 그 다음에 Imagen이라는 모델이 그 프롬프트를 받아서 실제 그림을 그립니다.

여기서 재밌는 게 Nano Banana라는 이름의 모델도 같이 쓰인다는 건데요. 구글 내부 코드명이에요. 빠른 미리보기용 경량 버전이랑 고품질 최종본용 버전이 따로 있어서, 여러 시안 돌릴 때는 가벼운 걸로 빠르게 뽑고, 최종 결과물은 무거운 걸로 뽑는 구조입니다. 그래서 이것저것 실험해보기에 부담이 덜해요.

그래서 이걸로 뭘 하냐

가장 잘 어울리는 건 아이디어 스케치 단계입니다.

굿즈 디자인할 때를 예로 들면, 캐릭터 이미지를 Subject에 고정해두고 Style만 스티커, 에나멜 핀, 봉제인형 이런 식으로 바꿔가면서 돌리면 금방 여러 버전이 나와요. 예전 같으면 “스티커 스타일로 만들어줘, 귀엽게, 테두리 있게, 광택감 있게…” 이렇게 주절주절 써야 했는데, 그냥 스티커 사진 한 장 던지면 끝입니다.

마케팅 시안 만들 때도 괜찮아요. 제품 사진 하나 고정해두고 배경만 시즌별로 바꿔가면서 뽑으면 SNS용 이미지 후보가 쭉 나오니까요. 무드보드 만들 때 레퍼런스 찾아 헤매는 시간도 줄일 수 있고요.

Animate라는 기능도 있는데, 만든 이미지를 짧은 영상 클립으로 바꿔줍니다. 카메라가 살짝 줌인되거나 배경이 흔들리는 정도의 간단한 움직임이에요. 숏폼 썸네일이나 인스타 스토리 같은 데 쓰기 딱 좋은 수준입니다.

한계는 분명히 있다

좋은 점만 있으면 좋겠는데, 당연히 한계도 있어요.

일단 정밀한 제어는 안 됩니다. “눈을 조금만 크게 해줘”, “손가락 각도만 살짝 바꿔줘” 이런 건 못해요. 그런 작업은 포토샵이나 Stable Diffusion 쪽이 훨씬 낫습니다. Whisk는 세밀하게 다듬는 도구가 아니라 방향을 잡는 도구에 가까워요.

그리고 입력 이미지를 “해석”해서 새로 그리는 방식이다 보니, 인물 얼굴이 좀 달라지거나 기대랑 다른 결과가 나올 때도 있습니다. 특히 사람 얼굴은 미묘하게 바뀌는 경우가 꽤 있어서, 정확한 인물 재현이 필요한 작업에는 적합하지 않아요.

경쟁 도구들이랑 비교하면, Midjourney는 결과물 퀄리티가 높은 대신 디스코드 기반이라 진입장벽이 있고요. Stable Diffusion은 제어력이 최강인 대신 설치랑 세팅이 번거롭죠. Whisk는 그런 복잡함 없이 브라우저에서 바로 이미지 몇 장으로 시작할 수 있다는 게 포지션입니다. 대신 세밀한 건 포기한 거고요.

저작권이랑 안전 정책 얘기

실무에서 쓰려면 이 부분도 알아둬야 합니다.

폭력이나 성인물 같은 건 안전 필터가 막아버리고, 유명인 얼굴 생성도 제한됩니다. 그리고 모든 결과물에 SynthID라는 보이지 않는 워터마크가 들어가요. 나중에 이게 AI가 만든 건지 확인할 수 있게 해주는 장치입니다.

블로그나 마케팅에 AI 이미지 쓸 때는 솔직하게 AI로 만들었다고 밝혀두는 게 여러모로 안전합니다.

정리하면

Whisk는 “프롬프트 쓰기 싫은 사람을 위한 이미지 생성기”라고 보면 됩니다. 텍스트 대신 이미지로 의사소통하는 방식이에요.

완성도 높은 최종 결과물을 뽑는 도구라기보다는, 아이디어 단계에서 “이런 느낌이면 어떨까?” 하고 이것저것 던져보는 샌드박스에 가깝습니다. 정밀 작업은 다른 도구로 넘기더라도, 방향 잡는 데는 확실히 시간을 아껴줘요.

프롬프트 엔지니어링이 부담스러웠던 분들이라면 한번 써보시길 권합니다. 머릿속 이미지를 글이 아니라 그림으로 설명하는 경험이 생각보다 편하거든요.