오늘은 Alibaba Cloud DashScope의 Qwen-Image-Max 모델을 활용하여 이미지를 생성하는 방법을 학습했습니다. 특히 게임 "트릭컬 리바이브"의 캐릭터 벨리타(Velita)를 블로그 썸네일 화자로 활용하는 프롬프트 엔지니어링을 진행했습니다.
핵심 발견
1. 올바른 API 엔드포인트
Qwen-Image-Max는 다음 엔드포인트를 사용합니다:POST https://dashscope-intl.aliyuncs.com/api/v1/services/aigc/multimodal-generation/generation
이전에 시도했던 /text2image/image-synthesis는 비동기 전용으로 qwen-image-plus와 qwen-image만 지원합니다. qwen-image-max는 동기식 멀티모달 API를 사용해야 합니다.
2. Request 형식
Chat Completions 스타일의 messages 배열에 content 배열을 넣고 text 필드에 프롬프트를 전달합니다.
3. 화풍 보존 프롬프트
SD 치비 스타일 재현 핵심 키워드: super deformed korean mobile game art style, puffy chubby cheeks (볼따구), thick bold outlines, cell shading, NOT realistic NOT 3D render.
4. 벨리타 재현 결과
은발/오드아이/뿔/날개/가시왕관 등 핵심 특징은 잘 재현되었습니다. 지팡이와 볼따구는 추가 튜닝이 필요합니다.
참고
Singapore(dashscope-intl)와 Beijing(dashscope) 리전의 키는 호환되지 않습니다. 이미지 생성은 유료($0.075/image)이며 정상 작동 중입니다.

Leave a Reply