COMMENTS (0)
댓글은 익명으로 작성되며, 삭제 비밀번호를 설정하면 본인만 삭제할 수 있습니다. 비밀번호를 설정하지 않은 댓글은 누구나 삭제할 수 있습니다.
HackerOne 기준 프롬프트 인젝션이 540% 급증했다. OpenAI, Anthropic, Google이 테스트한 12개 방어 기법이 모두 뚫린 이유.
댓글은 익명으로 작성되며, 삭제 비밀번호를 설정하면 본인만 삭제할 수 있습니다. 비밀번호를 설정하지 않은 댓글은 누구나 삭제할 수 있습니다.
SQL Injection에는 해결책이 있다. 파라미터화된 쿼리를 쓰면 코드와 데이터의 경계가 생긴다. 문제는 20년이 지난 지금도 안 쓰는 개발자가 많다는 것이지, 해결책 자체는 명확하다. AI 시대에 같은 구조의 취약점이 돌아왔다. 이번에는 해결책 자체가 없다.
2026년 3월, HackerOne는 플랫폼에 접수된 프롬프트 인젝션 취약점 보고가 전년 대비 540% 증가했다고 발표했다. AI 취약점 전체로는 210% 증가했지만, 프롬프트 인젝션만 따로 보면 증가폭이 2.5배 이상 크다. OWASP는 2023년에 이어 2025년에도 프롬프트 인젝션을 LLM 보안 위협 1위로 유지했다.
SQL Injection의 해결은 단순했다. 쿼리와 데이터를 물리적으로 분리하면 된다. 데이터베이스 엔진이 문법과 데이터를 구별하는 규칙이 있기 때문이다.
LLM에는 이 규칙이 없다. 시스템 프롬프트, 사용자 입력, 외부 문서 모두 하나의 토큰 스트림으로 처리된다. 모델이 "이것은 명령이고 저것은 데이터"라고 구분할 수 있는 하드웨어 수준의 경계가 존재하지 않는다.
| SQL | LLM | |
|---|---|---|
| 명령 | 쿼리 (코드 영역) | 시스템 프롬프트 |
| 데이터 | 파라미터 (데이터 영역) | 사용자 입력 + 외부 문서 |
| 경계 | 파라미터화로 분리됨 | 경계 없음 (같은 토큰 스트림) |
영국 NCSC는 2025년 12월, "프롬프트 인젝션은 영원히 완전 해결되지 않을 수 있다"고 경고했다. SQL Injection과 비교하는 것 자체가 위험하다고 덧붙였다. 같은 구조의 해결책이 존재한다는 착각을 만들기 때문이다.
2025년 10월, OpenAI, Anthropic, Google DeepMind가 공동 연구를 발표했다. 제목은 "The Attacker Moves Second." 발표된 12개 방어 기법을 적응형 공격으로 테스트한 결과, 모든 방어 기법이 90% 이상의 확률로 우회됐다.
| 방어 접근법 | 한계 |
|---|---|
| 입력 필터링 | 변형 시도를 충분히 반복하면 우회 가능 |
| 명령 계층 학습 | 정교한 공격에 확률적으로 실패 |
| NeMo Guardrails | 적응형 공격 시 72.5% 우회율 |
| 출력 검증 | 필터를 통과하면서 목표를 달성하는 출력 생성 가능 |
Google DeepMind의 CaMeL 아키텍처는 가장 유망한 접근이다. 신뢰 데이터와 비신뢰 데이터를 별도의 LLM으로 처리하고, 데이터 흐름을 추적해 비신뢰 데이터가 제어 흐름에 영향을 주지 못하게 한다. 하지만 보안을 위해 작업 성공률이 84%에서 77%로 떨어진다. 실무에서 7%의 성능 손실을 감수할 조직이 얼마나 될까.
이론이 아니다. 2025년 6월, 연구자들은 Microsoft 365 Copilot에서 제로클릭 프롬프트 인젝션 취약점을 공개했다. , CVSS 9.3(심각).
공격자가 이메일 한 통을 보내면 끝이다. 수신자가 Copilot으로 이메일을 요약하는 순간, 이메일에 숨겨진 명령이 실행된다. Copilot은 OneDrive, SharePoint, Teams에 접근해 데이터를 공격자에게 전송한다. 수신자가 클릭하거나 승인하는 과정은 없다.
2024년 8월에는 Slack AI에서 비슷한 사건이 발생했다. 공격자가 공개 채널에 숨겨진 텍스트를 게시하면, Slack AI가 이를 읽고 비공개 채널의 API 키를 공격자 서버로 전송했다. Slack은 처음에 "의도된 동작"이라고 해명했다.
챗봇의 프롬프트 인젝션은 텍스트 출력을 조작하는 데 그친다. AI 에이전트는 다르다. 파일을 읽고, 코드를 실행하고, 이메일을 보내고, 결제를 승인한다. 프롬프트 인젝션 하나가 실제 시스템에 물리적 영향을 준다.
| 구분 | 챗봇 | AI 에이전트 |
|---|---|---|
| 행동 범위 | 텍스트 출력 | 파일, 코드, API, 결제 |
| 세션 | 대화 종료 시 리셋 | 메모리 지속 |
| 인젝션 영향 | 1회성 | 메모리 오염으로 장기 지속 |
| 피해 규모 | 정보 노출 | 시스템 장악 |
OWASP는 2025년 12월, AI 에이전트 전용 위협 목록 "Agentic AI Top 10"을 발표했다. 1위는 Agent Goal Hijack(에이전트 목표 탈취), 6위는 Memory & Context Poisoning(메모리 오염)이다. 메모리 오염은 세션이 끝나도 사라지지 않는다. 공격자가 문서에 심은 명령이 에이전트의 장기 기억에 저장되면, 몇 주 뒤에 활성화되는 "슬리퍼 에이전트"가 된다.
한국 기업의 83%가 지난 1년간 AI 관련 보안 사고를 경험했다. 하지만 직원의 30%만이 AI 기반 위협을 제대로 이해하고 있다.
2026년 2월, Naver, Kakao, 당근마켓은 AI 에이전트 도구 OpenClaw의 사내 사용을 금지했다. (CVSS 8.8)으로 원클릭 원격 코드 실행이 가능했고, 전 세계 21,639개 인스턴스가 노출됐다. MCP 마켓플레이스에서 1,184개의 악성 "스킬"이 유통됐다.
KISA는 2025년 12월 AI 보안 가이드를 발표해 113개 보안 요건을 제시했다. 하지만 가이드라인은 권고 사항이다. AI 기본법은 2026년 1월 시행됐지만, 국방 AI는 명시적으로 제외돼 있다.
프롬프트 인젝션을 "해결"하려 하면 실패한다. 피해를 줄이는 데 집중해야 한다.
최소 권한 원칙을 AI에도 적용한다. AI 에이전트에 상시 권한을 부여하면 안 된다. 작업별로 필요한 권한만 일시적으로 부여하고 즉시 회수한다. Teleport의 2026년 조사에 따르면, 과도한 권한을 부여받은 AI 시스템은 보안 사고가 4.5배 더 많다.
되돌릴 수 없는 행동에는 사람이 승인한다. 이메일 발송, 결제 승인, 파일 삭제가 대표적이다. 이런 비가역적 행동은 AI가 단독으로 실행하면 안 된다. "Rule of Two" 원칙이 부상하고 있다. 비가역적 행동에는 반드시 2차 확인이 필요하다는 것이다.
외부 데이터는 모두 적대적이라고 가정한다. 이메일, 웹페이지, 문서, API 응답 모두 프롬프트 인젝션이 포함될 수 있다. Zero Trust 원칙을 AI 에이전트에 적용해야 한다.
프롬프트 인젝션은 SQL Injection의 재림이 아니다. SQL Injection은 "코드와 데이터를 분리하라"는 한 줄의 원칙으로 끝났다. 프롬프트 인젝션은 LLM이 입력을 이해하는 방식 자체가 취약점이다. 모델이 언어를 읽는 한, 공격자도 같은 언어로 명령을 내릴 수 있다.