Qwen3-TTS 제품군이 오픈 소스로 공개

Qwen3-TTS 는 Qwen에서 개발한 강력한 음성 생성 기능 시리즈로, 음성 복제, 음성 디자인, 초고품질의 사람 목소리와 유사한 음성 생성, 자연어 기반 음성 제어 등 포괄적인 기능을 제공합니다. 개발자와 사용자에게 가장 광범위한 음성 생성 기능을 제공하며, 혁신적인 Qwen3-TTS-Tokenizer-12Hz 멀티 코드북 음성 인코더를 통해 효율적인 압축과 견고한 음성 신호 표현을 구현합니다. 이를 통해 비언어적 정보와 음향 환경적 특징을 완벽하게 보존할 뿐만 아니라, 경량의 비-DiT 아키텍처를 통해 고속, 고음질 음성 복원을 가능하게 합니다. 듀얼 트랙 모델링을 활용하여 Qwen3-TTS는 단 하나의 문자만 처리한 후 첫 번째 오디오 패킷을 전송하는 매우 빠른 양방향 스트리밍 생성 속도를 달성합니다. Qwen3-TTS 멀티 코드북 모델 시리즈 전체는 1.7B와 0.6B 두 가지 크기로 오픈 소스로 제공됩니다. 1.7B 모델은 최고의 성능과 강력한 제어 기능을 제공하며, 0.6B 모델은 성능과 효율성 사이의 이상적인 균형을 제공합니다. 두 모델 모두 중국어, 영어, 일본어, 한국어, 독일어, 프랑스어, 러시아어, 포르투갈어, 스페인어, 이탈리아어 등 10개 주요 언어와 다양한 방언을 지원하여 전 세계 애플리케이션 요구 사항을 충족합니다. 또한, 두 모델은 뛰어난 문맥 이해 능력을 바탕으로 지침과 텍스트 의미에 따라 어조, 리듬, 감정 표현을 조정할 수 있으며, 입력 텍스트 노이즈에 대한 내성을 크게 향상시켰습니다. 현재 GitHub에서 오픈 소스로 공개되어 있으며 Qwen API를 통해 이용할 수 있습니다 .

https://qwen.ai/blog?id=qwen3tts-0115

포럼 댓글