COMMENTS (0)
댓글은 익명으로 작성되며, 삭제 비밀번호를 설정하면 본인만 삭제할 수 있습니다. 비밀번호를 설정하지 않은 댓글은 누구나 삭제할 수 있습니다.
3초 음성이면 가족 목소리를 복제할 수 있다. 한국 보이스피싱 피해액 1조 원을 돌파한 AI 음성 복제 기술의 원리와 다크웹 가격표.
댓글은 익명으로 작성되며, 삭제 비밀번호를 설정하면 본인만 삭제할 수 있습니다. 비밀번호를 설정하지 않은 댓글은 누구나 삭제할 수 있습니다.
화상회의가 시작됐다.
화면에는 CFO가 있었다. 옆에는 다른 임원들도 보였다. 얼굴도, 목소리도 익숙했다. 평소처럼 회의가 진행됐고, CFO가 말했다.
"긴급한 거래가 있습니다. 기밀이니 외부에 말하지 마세요."
재무팀 직원은 지시를 따랐다. 하루 동안 15건의 송금을 실행했다.
HK$2억. 한화 약 330억원.
회의가 끝나고 뒤늦게 확인했을 때, CFO는 그날 회의에 참석한 적이 없었다. 화면 속 임원들도 마찬가지였다. 화상회의에 진짜 사람은 단 한 명뿐이었다. 나머지는 전부 AI가 만든 딥페이크였다.
영국 엔지니어링 기업 Arup. 이 사건은 2024년 5월 CNN 보도로 세상에 알려졌다.
공격자들이 딥페이크를 만드는 데 사용한 재료는 회사 공개 회의 영상과 컨퍼런스 발표 자료뿐이었다.
Arup 사건은 먼 나라 이야기가 아니다.
한국은 세계에서 보이스피싱 피해가 가장 심각한 나라 중 하나다. 그리고 그 피해는 지금 급격히 악화되고 있다.
| 연도 | 피해액 |
|---|---|
| 2023 | 4,616억원 |
| 2024 | 8,545억원 (전년 대비 1.85배) |
| 2025 | 약 1조원 (사상 최초 돌파) |
2025년 1분기만 3,116억원. 전년 동기 대비 2.2배. 50대 이상 피해자 비율이 53%로 절반을 넘었다(금융감독원 통계 기준).
무엇이 변했을까?
2023년까지 보이스피싱의 핵심 도구는 사람이었다. 중국 푸젠성이나 캄보디아 시아누크빌의 콜센터에서 한국어를 구사하는 상담원들이 직접 전화를 걸었다. 검찰을 사칭하고, 대출을 미끼로 던졌다.
2024년부터 핵심 도구가 바뀌기 시작했다. AI다.
3초짜리 음성 샘플 하나면, 당신 가족의 목소리를 복제할 수 있다. 아들이 "엄마, 나야"라고 말하면 — 그 목소리가 진짜인지 가짜인지 구별할 수 있을까?
한국인의 45% 가(한국갤럽 조사 기준) "AI 기술을 활용한 사기를 구별하지 못한다"고 응답했다.
AI 음성 복제의 원리는 직관과 다르다. 3초가 충분한 이유는 AI가 3초 안에 목소리의 모든 것을 배우기 때문이 아니다. AI가 이미 수만 시간의 음성 데이터로 인간 목소리의 전체 지도를 학습해뒀기 때문이다.
3초는 그 지도 위에서 "이 사람의 목소리는 여기쯤"이라고 위치를 찍는 데 필요한 최소 시간이다.
기술적으로 설명하면 이렇다.
1단계 — 화자 임베딩 추출: 사전 학습된 화자 인코더가 3초 음성에서 고정 크기 벡터를 추출한다. 이 벡터에는 기본 주파수(F0), 포먼트 패턴(F1-F3), 스펙트럼 기울기 같은 음성 특성이 압축되어 있다.
2단계 — 조건부 생성: TTS 모델이 텍스트 입력과 화자 임베딩을 동시에 받아서, "이 사람의 목소리로 이 문장을 말하면 이렇게 들린다"를 생성한다.
연구에 따르면, 화자 검증용 임베딩은 약 3초 이후 코사인 유사도가 수렴한다. 추가 오디오는 수확체감이다.
2026년 현재, 음성 복제 도구는 오픈소스로 누구나 접근할 수 있다.
| 도구 | 특징 |
|---|---|
| RVC v2 | 실시간 음성 변환 특화. 지연 90-150ms. WebUI 제공으로 비전문가도 사용 가능 |
| GPT-SoVITS | 5초 음성으로 제로샷 복제. 중국어/영어/일본어 네이티브 지원. 커뮤니티가 한국어 확장 |
| XTTS v2 | 한국어 포함 17개 언어 지원. 3-15초 참조 오디오. Coqui AI가 만들고 오픈소스로 공개 |
| OpenVoice v2 | MIT 라이선스. 음색과 스타일을 분리 제어 가능 |
| Fish Speech | Apache 2.0. CJK 언어에 강점. 10초 참조 오디오 |
2022년에 설득력 있는 음성 복제를 만들려면 ML 전문 지식, 수 시간의 타깃 오디오, 고가의 GPU가 필요했다.
2026년에는 WebUI를 다운로드하고, 5-10초 오디오를 넣고, "학습" 버튼을 누르면 된다. ML 지식은 필요 없다.
이 변화가 보이스피싱 피해액을 1조원으로 끌어올린 구조적 원인이다.
가장 위협적인 시나리오는 실시간 음성 변환으로 직접 전화 통화를 하는 것이다.
공격자가 자기 목소리로 말하면, AI가 실시간으로 타깃의 목소리로 변환한다. 피해자는 AI가 아닌 가족/상사와 통화하고 있다고 믿는다.
마이크 → 노이즈 게이트 → RVC 변환 → VoIP → 발신번호 위조 → 피해자 전화
| 단계 | 지연 시간 |
|---|---|
| 오디오 캡처 버퍼 | ~10ms |
| RVC 추론 (GPU) | ~80-150ms |
| 후처리 | ~10ms |
| VoIP 인코딩/전송 | ~50-100ms |
| 전화망 지연 | ~50-150ms |
| 총 체감 지연 | ~200-420ms |
인간은 약 400-500ms까지의 통화 지연을 자연스럽게 느낀다. 이 파이프라인은 그 범위 안에 들어온다. 공격자가 약간 느리게 말하면 탐지는 더 어려워진다.
한국어 음성 복제에는 고유한 난관이 있다.
그런데 전화 통화의 음질 자체가 이 문제를 상쇄한다. 전화 코덱(G.711)은 8kHz 샘플링으로 4kHz 이상 주파수를 잘라낸다. AI 합성의 아티팩트가 주로 나타나는 고주파 영역이 바로 그곳이다.
전화 품질이 나쁠수록, 음성 복제의 품질이 좋아 보인다. 공격자에게 유리한 구조다.
이 글에서 가장 중요한 부분이다.
공격자는 정밀한 음성 복제가 필요 없다. 피해자가 의심하지 않을 정도로 "충분히 좋으면" 된다.
그리고 실제 공격 상황에서 "충분히 좋은" 기준은 놀라울 만큼 낮다.
"엄마, 나 사고 났어. 빨리 돈 보내줘."
이 전화를 받은 순간, 부모의 뇌는 음성 품질 분석 모드가 아니라 공포 반응 모드로 전환된다. 코르티솔이 분비되고, 비판적 사고 능력이 저하된다. AI 음성의 미세한 부자연스러움을 감지할 인지 자원이 남아있지 않다.
"통화 상태가 안 좋아" — 이 한마디가 모든 아티팩트의 변명이 된다. 실제로 전화 통화에서는 자연스러운 잡음, 끊김, 음질 저하가 일상적이다.
"나야, 급해, 돈 좀" — 이 정도 길이의 발화에서 인간이 음성 진위를 판별하는 것은 사실상 불가능하다. 음성 감정가조차 최소 10-15초의 연속 발화가 필요하다.
McAfee의 2024년 조사에 따르면, 성인 4명 중 1명이 AI 음성 사기를 경험했으며, 10명 중 1명이 직접 피해를 당했다. 대부분이 속았다는 사실을 뒤늦게 깨달았다.
음성 복제 기술의 민주화는 범죄 시장에도 반영됐다.
Recorded Future, Intel471 등 위협 인텔리전스 기업들이 문서화한 다크웹/텔레그램 가격표다.
| 서비스 | 가격 |
|---|---|
| 음성 클론 1개 (텔레그램 봇) | $5-$50 |
| 비싱 완성형 키트 (도구+스크립트+VoIP) | $100-$500 |
| 실시간 음성 변환 API | $0.50-$2/분 |
| 사전 학습된 공인 음성 모델 | 무료-$25 |
완성형 키트에는 음성 복제 소프트웨어, 발신번호 위조 서비스, 사회공학 스크립트(한국어 포함), 타깃 조사 템플릿, 자금 세탁 가이드까지 포함된다.
이 가격은 계속 하락하고 있다. 오픈소스 도구가 좋아질수록, 유료 서비스의 존재 이유가 사라지기 때문이다.
한국 대상 보이스피싱은 주로 중국-동남아 기반 조직이 운영한다.
| 역할 | 기능 |
|---|---|
| 총책 | 전체 운영 관리, 수익 분배 |
| 콜센터 관리자 | 일일 운영, 품질 관리 (중국/캄보디아/미얀마) |
| 1차-3차 발신자 | 초기 접촉 → 권위 사칭 → 송금 유도 |
| 인출책 | 대포통장에서 현금 인출 (국내) |
| 기술팀 | VoIP 설정, 발신번호 위조, AI 도구 운용 |
기존에는 1차-3차 발신자에 한국어 네이티브가 필요했다. AI 음성 변환은 이 인력 제약을 제거한다. 한국어를 못하는 상담원도 AI 변환을 거치면 자연스러운 한국어 음성을 출력할 수 있다.
UN은 미얀마에만 약 10만 명 이상의 인신매매 피해자가 보이스피싱 콜센터에서 강제 노동하고 있다고 추정한다.
AI 보이스피싱을 MITRE ATT&CK 프레임워크로 매핑하면, 전통적 사이버 공격과 근본적으로 다른 구조가 드러난다.
정찰 → 자원 개발 → 초기 접근 → 영향
| ATT&CK 전술 | 기법 ID | AI 보이스피싱에서의 적용 |
|---|---|---|
| 정찰 | T1593.001 | SNS/유튜브에서 타깃 음성 샘플 수집 |
| 자원 개발 | T1587 | 수집한 음성으로 AI 클론 모델 학습 |
| 초기 접근 | T1566.004 | 복제된 음성으로 스피어피싱 전화 |
| 방어 회피 | T1656 | AI 음성으로 신뢰 인물 사칭 |
| 영향 | T1657 | 금전 탈취 |
기존 APT 공격은 초기 접근 → 실행 → 지속성 → 권한 상승 → 횡적 이동 → 수집 → 탈취라는 긴 체인을 따른다. AI 보이스피싱의 체인은 극도로 짧다. 정찰에서 금전 탈취까지 단 한 통의 전화로 끝난다.
체류 시간(dwell time)은 수개월이 아니라 수 분이다. 이것이 탐지를 어렵게 만드는 핵심 이유다.
MITRE가 음성 피싱을 독립 서브 기법으로 분류한 것 자체가 이 위협의 심각성을 보여준다. 기존에는 BazarCall/BazaCall 같은 콜백 피싱이 주요 사례였지만, AI 음성 복제가 더해지면서 이 기법의 성공률이 근본적으로 달라졌다.
CrowdStrike는 2024년 상반기 대비 하반기에 비싱 공격이 442% 증가했다고 보고했다. CURLY SPIDER, CHATTY SPIDER 같은 eCrime 그룹이 사회공학 기법으로 자격증명을 탈취하고 원격 세션을 확보하는 데 비싱을 핵심 수단으로 사용했다.
이들이 초기 접근에 성공한 후 다음 목표는 자격증명 탈취다. LAPSUS$ 그룹이 사회공학으로 초기 접근 후 DCSync 공격으로 Microsoft, NVIDIA의 도메인 전체를 장악한 것이 대표적 사례다.
AI로 만든 음성을 AI로 탐지한다 — 직관적으로 합리적인 접근이다. 실제로 Pindrop, Nuance, Resemble AI 같은 기업이 딥페이크 음성 탐지 솔루션을 제공하고 있다.
Pindrop의 2025 보고서에 따르면 금융권에서 딥페이크 사기가 +1,300% 급증했고, 콜센터의 사기 노출 규모가 $445억에 달한다.
실험실에서는 EER(등오류율) 1% 미만의(학술 연구 기준) 탐지 정확도가 가능하다. 그런데 실제 전화 통화에서는?
ASVspoof 2021 챌린지 보고서에 따르면, 전화 코덱을 통과한 오디오에 대한 탐지 EER은 15%까지 치솟았다(ASVspoof 2021 챌린지 공식 결과). 실험실 대비 10~15배 성능 저하다. 전화 코덱이 탐지에 필요한 고주파 아티팩트를 제거하기 때문이다.
한국 통신 3사는 2025년부터 AI 보이스피싱 탐지 서비스를 본격 도입했다.
| 통신사 | 서비스 | 핵심 |
|---|---|---|
| KT | AI 보이스피싱 탐지 2.0 | 국내 최초 화자인식 + 딥보이스 탐지. 국과수 범죄자 음성 DB 연동. 정확도 92.5%(KT 발표 기준) |
| SKT | A.dot Phone AI 전화 | 온디바이스 AI로 통화 내용 실시간 분석. 보이스피싱 의심 패턴 경고 |
| LGU+ | Anti-Deep Voice | 세계 최초 온디바이스 딥보이스 탐지 상용화 |
KT의 탐지 서비스는 2025년 한 해 동안 약 1,300억원의 피해를 예방했다. 의미 있는 성과다.
하지만 구조적 한계가 있다. 이 서비스들은 주로 통화 스크립트 패턴을 분석한다("검찰입니다", "계좌가 범죄에 연루됐습니다" 같은 키워드). 음성 자체의 AI 합성 여부를 실시간으로 판별하는 기능은 아직 초기 단계다.
한국어 딥페이크 음성 탐지 연구 자체가 부족하다. 글로벌 연구는 영어 중심이고, 한국어의 음운 특성(연음, 경음화, 비음화)을 반영한 탐지 모델은 아직 충분하지 않다.
기술적 탐지의 한계를 인정한다면, 남은 방어 수단은 절차다.
1. 콜백 검증: 수신 전화로 절대 행동하지 마라. 끊고, 직접 아는 번호로 다시 전화하라. AI 음성 복제를 완전히 무력화하는 유일한 방법이다. 공격자는 타깃의 실제 전화번호로 수신 전화를 받을 수 없다.
2. 가족 암호: 긴급 상황용 사전 약속 단어를 정하라. "지금 급해, 돈 좀 보내줘"에 대한 답은 "암호가 뭐야?"다. AI 음성 복제 시스템은 음성은 복제하지만 개인적 기억은 복제하지 못한다.
3. 이중 승인: 조직에서 금전 거래는 반드시 2인 이상 확인을 거치게 하라. Arup 사건에서 재무팀 직원이 동료에게 한 번만 확인했어도 $25.6M을 지킬 수 있었다.
FBI는 2025년 5월 AI 음성 복제로 미국 고위 공직자를 사칭하는 캠페인을 경고하며, "10초면 어떤 목소리든 복제할 수 있다"고 밝혔다.
구글은 "2026년 AI를 사용하는 사이버 공격이 새로운 표준이 된다"고 경고했다.
이미 그렇게 되고 있다.
한국 정부는 2026년 1월 AI 기본법을 시행하며 AI 생성물 표시 의무를 도입했다. 하지만 범죄자가 자신의 딥페이크에 "AI 생성" 라벨을 붙일 리 없다. 규제는 합법적 사용자를 대상으로 하고, 범죄자는 규제 밖에 있다.
음성은 더 이상 신원 확인의 수단이 아니다. SK텔레콤 유심 정보 유출로 2,324만 명의 전화번호가 유출된 것처럼, 전화번호도 신뢰할 수 없다. AI가 1주 만에 88,000줄 악성코드를 만든 것처럼, AI는 공격의 모든 단계를 가속화하고 있다.
"전화로 온 요청은 믿지 마라. 직접 확인하라."
단순하지만, 이것이 2026년에 AI 보이스피싱으로부터 자신을 지키는 가장 확실한 방법이다.