Skip to main content

moai-media — 이미지 프롬프트 빌더 + 음성 생성

moai-media

AI 미디어 작업의 프롬프트 산출과 음성 합성 전담 플러그인. 이미지 프롬프트 빌더 3종(GPT-image-2·Gemini 3 Pro Image·Midjourney v8.1)과 음성 생성 1종(audio-gen)으로 구성된 4개 스킬 묶음입니다.

무엇을 하는 플러그인인가

moai-media는 두 가지 작업에 집중합니다.

  1. 이미지 프롬프트 텍스트 작성 — 모델별 공식 가이드(OpenAI Cookbook·Google AI Developers·Midjourney Parameter List)를 그대로 적용해 ChatGPT·Google AI Studio·Discord /imagine에서 바로 복붙할 수 있는 프롬프트를 출력합니다.
  2. 음성 합성 — ElevenLabs MCP로 TTS·보이스 클로닝·다국어 더빙·효과음을 생성합니다.

이미지·영상의 실제 렌더링은 본 플러그인 책임이 아닙니다. 시네마틱 영상·캐릭터·말하는머리 등은 Higgsfield MCP(별도 설치)가 처리하고, 이미지 렌더링은 사용자가 외부 도구에서 직접 실행합니다. 본 플러그인은 그 앞단의 프롬프트 작성과 음성 합성을 담당하는 컴패니언입니다.

flowchart TD
    subgraph Prompt["이미지 프롬프트 빌더 (3)"]
        A["gpt-image-2-prompt
OpenAI 6-Block"] B["gemini-3-image-prompt
Google 5-component"] C["midjourney-v8-prompt
키워드+--파라미터"] end subgraph Audio["음성 생성 (1)"] D["audio-gen
ElevenLabs MCP"] end A --> E[/ChatGPT·OpenAI API/] B --> F[/Google AI Studio·Gemini API/] C --> G[/Discord /imagine·alpha.midjourney.com/] D --> H[(MP3·WAV·OGG 파일)] style A fill:#dceee9,stroke:#2a8a8c,color:#09110f style B fill:#dceee9,stroke:#2a8a8c,color:#09110f style C fill:#dceee9,stroke:#2a8a8c,color:#09110f style D fill:#fbf0dc,stroke:#c47b2a,color:#09110f

설치

  1. moai-core 설치 후 moai-media 옆의 + 버튼을 눌러 설치합니다.
  2. audio-gen을 쓰려면 ELEVENLABS_API_KEY.moai/credentials.env에 등록합니다.
  3. 이미지 프롬프트 빌더 3종은 API 키 불필요 (텍스트 프롬프트만 생성).
GitHub 저장소를 클론한 뒤 ~/.claude/plugins/에 배치합니다.

핵심 스킬 (4개)

이미지 프롬프트 빌더 3종

자연어 한 줄 + AskUserQuestion 프리셋(제품샷·인물·일러스트·풍경)으로 컨텍스트를 수집하고, 각 모델의 공식 가이드에 정렬된 프롬프트 텍스트를 출력합니다. 책임 경계: 프롬프트 텍스트 산출 전용 — 실제 이미지 생성은 사용자가 외부 도구에서 직접 실행합니다.

스킬공식 가이드핵심 특징
gpt-image-2-promptOpenAI CookbookSubject·Action·Scene·Composition·Lighting·Style&Text 6-Block. 편집 시 Change/Preserve/Constraints 2열. 텍스트 verbatim·ALL CAPS·다국어(한·일·중·힌·벵골)
gemini-3-image-promptGoogle AI Developers영문 문장형 5-component, Creative Director 어조. 카메라 하드웨어(Fujifilm·GoPro·iPhone). Reference image 14 슬롯. Search Grounding. Thinking vs Fast 모드. SynthID 워터마크
midjourney-v8-promptMidjourney Parameter List키워드+--파라미터. --sref/--oref/--cw/--p 3대 reference deep dive. 6대 비용 함정 자동 검사 (--hd --q 4 16x cost, --cw 100 상속, --cref deprecation 교체)

음성 생성

스킬백엔드산출물
audio-genElevenLabs MCPTTS, 보이스 클로닝, 다국어 더빙(영·일·중·스 등), 효과음(SFX) — MP3·WAV·OGG

MCP 통합 (책임 분리)

moai-media는 ElevenLabs MCP 1개만 번들합니다. 이미지·영상 렌더링은 별도 MCP에 위임합니다.

영역담당비고
이미지 프롬프트 텍스트 작성moai-media 빌더 3종API 키 불필요, 텍스트만 출력
음성·TTS·더빙·효과음 합성moai-media:audio-gen (ElevenLabs MCP)ELEVENLABS_API_KEY 1개 필요
이미지 실제 렌더링사용자가 ChatGPT·Google AI Studio·Discord에서 실행본 플러그인 외부
시네마틱 영상·캐릭터·립싱크Higgsfield MCP (별도 설치)Soul·DOP·말하는머리

API 키 (1개)

Warning
이미지 프롬프트 빌더 3종은 API 키 불필요입니다. audio-gen만 ElevenLabs 키 1개를 요구합니다.
# .moai/credentials.env
ELEVENLABS_API_KEY=sk_...     # audio-gen 전용
변수용도발급처
ELEVENLABS_API_KEYaudio-gen (TTS·보이스 클로닝·더빙·효과음)elevenlabs.io/app/settings/api-keys

Free 티어: 월 10,000자 TTS · Starter $5/월: 30,000자 + 음성 복제 10개 · Creator $22/월: 100,000자 + 더빙 30분.

빠른 사용 예 (한 줄 요청 + 시스템 자동 인터뷰)

모델·스타일·비율은 시스템이 인터뷰로 수집합니다. (사용 패턴 가이드 참조)

claude — cowork
> 비건 스킨케어 제품샷 GPT 프롬프트 만들어줘

→ 시스템 인터뷰: 프리셋(제품샷)·조명·구도 → gpt-image-2-prompt 출력 → 사용자가 ChatGPT에 복붙

claude — cowork
> 한국어 타이포 카드뉴스 5장 Gemini 프롬프트 만들어줘

→ 시스템 인터뷰: 카메라·레퍼런스·텍스트 verbatim → gemini-3-image-prompt 출력 → 사용자가 Google AI Studio에 복붙

claude — cowork
> 사이버펑크 도시 일러스트 Midjourney 프롬프트 만들어줘

→ 시스템 인터뷰: 스타일·--sref 레퍼런스·비율 → midjourney-v8-prompt 출력 → 사용자가 Discord /imagine에 복붙

claude — cowork
> 30초 한국어 내레이션 음성 만들어줘 — 차분한 여성 목소리

→ 시스템 인터뷰: 목소리·속도·감정 → audio-gen이 ElevenLabs MCP 호출 → MP3 산출

claude — cowork
> 이 영어 영상을 한국어로 더빙해줘

audio-gen — 원본 음성 분석 → 한국어 더빙 트랙 생성 (다국어 더빙은 한 번에 여러 언어 동시 산출 가능)

대표 체인

이미지 제작 (외부 도구 연결)

moai-content:copywriting → gpt-image-2-prompt
                          (사용자가 ChatGPT에서 실행)

나노바나나(Gemini 3 Image)로 한국어 타이포 카드뉴스

moai-content:card-news → gemini-3-image-prompt
                        (사용자가 Google AI Studio에서 실행)

유튜브 내레이션

moai-content:blog → audio-gen (한국어 TTS) → 영상 편집기 import

다국어 더빙

audio-gen (원본 업로드 → 영·일·중 동시 산출)

다음 단계


Sources