본문으로 건너뛰기
← 블로그로 돌아가기
개발 2026년 4월 5일

SaaS에서 로컬 AI vs 클라우드 AI 티어링 전략

무료 사용자에게 로컬 Qwen, 유료 사용자에게 Gemini. SaaS AI 비용을 줄이면서 품질을 유지하는 방법.

AI Qwen Gemini API SaaS 비용 최적화

문제: AI API 비용

AI SaaS의 가장 큰 비용은 API 호출이다. Repasta 초기에는 모든 사용자에게 Gemini API를 사용했다. 무료 사용자가 늘수록 비용이 선형으로 증가했다. 수익 없이 비용만 늘어나는 구조였다.

해결책: 무료 사용자는 로컬 AI, 유료 사용자는 클라우드 AI.

모델 선택

티어모델실행 위치비용
FreeQwen 3.5로컬 서버전기세만
Lite (₩4,900/월)Qwen 3.5로컬 서버전기세만
Pro (₩9,900/월)Gemini 2.5 FlashGoogle API~$0.01/요청

Qwen 3.5를 선택한 이유:

  • 한국어 품질이 오픈소스 모델 중 상위
  • OpenAI 호환 API를 제공해서 코드 변경 최소화
  • 7B 모델 기준 GPU 없이도 CPU에서 실행 가능 (느리지만 동작)

구현: 통합 인터페이스

로컬 AI와 클라우드 AI를 같은 인터페이스로 사용하는 게 핵심이다. 호출하는 쪽에서 어떤 모델인지 신경 쓰지 않아야 한다.

interface AIProvider {
  generate(prompt: string, options?: GenerateOptions): Promise<string>;
}

const getProvider = (userTier: string): AIProvider => {
  if (userTier === 'pro') {
    return new GeminiProvider(process.env.GEMINI_API_KEY!);
  }
  return new LocalAIProvider(process.env.LOCAL_AI_URL!);
};

LocalAIProvider는 OpenAI 호환 엔드포인트를 호출한다. Qwen이 이 형식을 지원하기 때문에 별도 SDK 없이 fetch만으로 동작한다.

class LocalAIProvider implements AIProvider {
  async generate(prompt: string): Promise<string> {
    const res = await fetch(`${this.baseUrl}/v1/chat/completions`, {
      method: 'POST',
      headers: { 'Content-Type': 'application/json' },
      body: JSON.stringify({
        model: 'qwen-3.5',
        messages: [{ role: 'user', content: prompt }],
        temperature: 0.7,
      }),
    });
    const data = await res.json();
    return data.choices[0].message.content;
  }
}

품질 차이 관리

솔직히 Qwen 3.5와 Gemini 2.5 Flash 사이에는 품질 차이가 있다. 특히 긴 글 변환에서 구조화 능력 차이가 나타난다. 이걸 숨기지 않고 투명하게 보여준다.

  • Free/Lite 결과물에 “AI: Qwen 3.5” 표시
  • Pro 결과물에 “AI: Gemini 2.5 Flash” 표시
  • 변환 결과 하단에 “Pro로 업그레이드하면 더 정교한 결과를 받을 수 있습니다” CTA

품질 차이 자체가 업그레이드 동기가 된다. 무료로 기능을 경험하고, 더 나은 품질이 필요하면 결제한다.

비용 결과

도입 전후 비교 (월 기준):

  • API 비용: $120 → $35 (70% 감소)
  • 무료 사용자 비용: $0.01/요청 → $0
  • Pro 사용자 비용: 변동 없음 (구독료로 커버)

로컬 서버 유지 비용이 있지만, API 비용 절감분이 훨씬 크다.

주의점

  • 로컬 AI 서버 장애 대비: 헬스체크 + 클라우드 폴백 (비용 알림 포함)
  • 모델 업데이트: Qwen 새 버전 나올 때마다 품질 테스트 후 교체
  • 응답 시간: 로컬 AI가 더 느릴 수 있음. 로딩 UX로 체감 시간 줄이기
  • 프롬프트 호환: 모델마다 프롬프트 반응이 다르므로 모델별 프롬프트 튜닝 필요

정리

AI SaaS에서 “모든 사용자에게 최고 모델”은 지속 불가능하다. 티어링은 비용 문제이면서 동시에 비즈니스 모델이다. 무료 사용자에게 충분히 좋은 경험을 주면서, 유료 전환 동기를 자연스럽게 만드는 구조가 핵심이다.