LEVELIT 유니티와 OpenAI API로 만드는 인공지능 NPC

책 이미지

eBook 미리보기

책 정보

· 제목 : LEVELIT 유니티와 OpenAI API로 만드는 인공지능 NPC (ChatGPT, Whisper, TTS, DALL-E로 구현하는 대화형 게임 캐릭터 실전 가이드)
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791194587903
· 쪽수 : 440쪽
· 출판일 : 2026-01-14

책 소개

유니티에 ChatGPT, Whisper, DALL-E, TTS를 결합해 말하면 반응하는 NPC를 구현하는 과정을 담았다. 실제 게임 안에서 대화와 음성, 이미지 생성이 이어지는 흐름을 단계별로 익힐 수 있다.

이 책은 단순히 OpenAI API를 유니티에 연동하는 법을 소개하는 기술서가 아니라, 게임 속 캐릭터를 플레이어와 대화하고, 기억하고, 반응하는 하나의 존재로 구현하는 과정을 안내하는 실전 가이드예요.

이 책만의 특별한 점
주요 AI API의 특징과 비용을 비교하는 단계부터 시작해 어떤 기술을 어떤 상황에 활용해야 하는지 감을 잡도록 돕고, 이후 GPT 기반 텍스트 생성, Whisper 음성 인식, TTS 음성 출력, 이미지 생성까지 이어지는 흐름을 하나의 맥락으로 학습할 수 있도록 구성되어 있어요. 포션을 모으고 퀘스트를 완료하면 금세 살아 있는 NPC를 만날 수 있을 거예요!
NPC의 텍스트 대화부터 음성, 이미지, 표정 애니메이션까지 하나의 흐름으로 학습
대화형 NPC 구현을 시작으로 음성 인식과 음성 출력, 립싱크와 얼굴 애니메이션까지 자연스럽게 연결해요. 각 기술을 따로 익히는 것이 아니라 실제 게임 속 캐릭터를 완성해가는 과정으로 학습하기 때문에 왜 필요한지와 어떻게 활용되는지를 직관적으로 이해할 수 있어요.
실제 프로젝트에 바로 적용 가능한 유니티 중심 실습 구성 Unity 6 환경에서 OpenAI API를 연동해 대화형 NPC를 만들고, 코드와 예제를 단계적으로 쌓아 실제 프로젝트에 그대로 활용할 수 있도록 정리되어 있어요. 기능 구현에 그치지 않고 게임 흐름과 UX 관점에서 어떻게 연결되는지도 함께 다뤄요.
NPC를 상호작용하는 존재로 만드는 설계 방법 제시 립싱크 기술을 활용한 입 모양과 얼굴 애니메이션, 감정과 음성 볼륨에 따라 달라지는 표정 연출을 통해 NPC를 단순한 모델이 아닌 살아 있는 캐릭터처럼 표현하는 방법을 설명해요. 또한 프롬프트 엔지니어링과 프롬프트 캐싱을 활용해 플레이어의 행동과 대화를 기억하고 상황에 맞게 반응하는 NPC 설계 기법도 다뤄요.

이 책은 누가 읽으면 좋을까요?
유니티에서 살아 있는 NPC를 만들고 싶은 개발자
LLM과 음성 인식, TTS, 이미지 생성을 게임에 자연스럽게 녹이고 싶은 기획자와 디자이너
AI 기반 게임이나 인터랙티브 콘텐츠를 기획하고 구현하려는 독자

이 책에서 다루는 내용은 무엇인가요?
OpenAI의 Text generation API를 유니티에 연동하고 챗봇 구현하기
Whisper API를 활용해 다국어 음성 인식 기능을 유니티에 구현하기
OpenAI의 TTS API와 Google TTS API를 이용해 유니티 환경에서 AI 음성 내레이션 구현하기
DALL-E API로 AI 이미지를 생성하고 이를 유니티에서 활용하기
Lipsync 기술을 활용해 AI 캐릭터가 실제 말하는 듯한 얼굴 애니메이션 구현하기
배운 기술을 통합하여 고도화된 인공지능 NPC 완성하기

추천사 ix
베타리더 후기 xiii
오프닝 xiv
튜토리얼 xvi
학습 가이드 xxii
로드맵 xxiv

LEVEL 1 대표 AI API 비교 분석 1
1.1 생산성 향상에 도움을 주는 AI 2
__1.1.1 생성형 AI 서비스 2
__1.1.2 이미지 생성 AI 8
__1.1.3 영상 생성 AI 9
__1.1.4 코딩 자동 생성 AI 11
1.2 AI API의 특징과 비용 15
__1.2.1 OpenAI API 15
__1.2.2 Google AI API 16
__1.2.3 Meta LLaMA API 17
__1.2.4 Claude API 18
__1.2.5 Naver Clova AI API 18

LEVEL 2 Text generation API를 사용하여 인공지능 대화형 NPC 구현하기 21
2.1 OpenAI API 알아보기 22
__2.1.1 GPT 모델 22
__2.1.2 OpenAI에서 제공하는 API 모델 23
2.2 OpenAI API 시작하기 25
__2.2.1 OpenAI 계정 만들기 25
__2.2.2 API 키 발급받기 26
__2.2.3 API Key 토큰 비용 충전하기 27
__2.2.4 개발 환경 준비 28
2.3 Unity 시작하기 29
__2.3.1 Unity 허브 설치하기 29
__2.3.2 Unity 계정 생성 및 라이선스 획득하기 30
__2.3.3 Unity 에디터 버전 설치하기 30
__2.3.4 Unity 3D 프로젝트 생성하기 31
__2.3.5 예제 리포지터리 사용하기 32
2.4 Unity에서 OpenAI API 텍스트 생성 예제 실행하기 34
__2.4.1 C# 스크립트 파일 생성 36
__2.4.2 네임스페이스 선언 36
__2.4.3 변수 선언 37
__2.4.4 요청 코루틴 정의 38
__2.4.5 JSON 메시지 구조 선언 38
__2.4.6 JSON 데이터 인코딩 39
__2.4.7 WebRequest 생성 39
__2.4.8 응답 처리 41
__2.4.9 결과 확인 43
__2.4.10 모델을 변경하는 방법 45
2.5 OpenAI API 사용하기 실전 예제 46
__2.5.1 스크립트 생성 46
__2.5.2 네임스페이스 수정 46
__2.5.3 웹 리퀘스트 형식 확인하기 48
__2.5.4 URL, apiKey 변수 만들기 51
__2.5.5 웹 리퀘스트 코루틴 만들기 51
__2.5.6 웹 리퀘스트 발송하기 54
__2.5.7 에러 핸들링 60
__2.5.8 응답 데이터에서 메시지 추출 62
__2.5.9 코루틴 함수 작성하기 66
__2.5.10 UI Manager 스크립트 작성 68
__2.5.11 UI에 적용하기 70
__2.5.12 캐릭터 애니메이션 연결하기 71

LEVEL 3 Whisper API 사용하기 77
3.1 Whisper API 소개 78
__3.1.1 Whisper API로 할 수 있는 것들 79
__3.1.2 Whisper 모델별 특징 79
3.2 Whisper API 사용해보기 82
__3.2.1 Transcriptions 엔드포인트 사용하기 82
__3.2.2 Translation 엔드포인트 사용하기 87
__3.2.3 타임스탬프 사용하기 89
__3.2.4 용량 제한하기 91
__3.2.5 Whisper 프롬프트 사용하기 93
__3.2.6 GPT 후처리 적용하기 96
3.3 Whisper API 사용하기 실전 예제 101
__3.3.1 Unity에서 Whisper API로 음성 인식해보기 101
__3.3.2 음성 인식을 활용하여 회의록을 자동 생성하는 예제 115
__3.3.3 Whisper API와 OpenAI API를 사용하여 번역기 만들기 125
3.4 음성 인식 기반 인공지능 NPC 상호작용 구현하기 133
__3.4.1 프로젝트 세팅하기 135
__3.4.2 AI 프롬프트 작성하기 141
__3.4.3 음성 인식 인공지능 NPC 실행하기 142
__3.4.4 확장 가능성 143

LEVEL 4 TTS API 사용하기 145
4.1 TTS 개요 146
__4.1.1 주요 TTS 서비스 146
__4.1.2 TTS의 작동 원리 147
4.2 OpenAI TTS 사용하기 149
__4.2.1 OpenAI TTS 가격 정책 149
__4.2.2 주요 엔드포인트 149
__4.2.3 입력과 출력 150
__4.2.4 OpenAI TTS 사용 제한사항 151
__4.2.5 샘플 음성 들어보기 151
__4.2.6 OpenAI API Text to speech 엔드포인트 사용하기 152
4.3 Google TTS API 사용하기 159
__4.3.1 Google Cloud 가입하기 159
__4.3.2 Google Cloud TTS API 예제 실행하기 169
4.4 TTS API 사용하기 실전 예제 178
__4.4.1 OpenAI TTS API 활용 예제 178
__4.4.2 Google TTS API 사용 예제 189
__4.4.3 TTS를 활용한 음성 녹음기 만들기 201
__4.4.4 음성 내레이션이 나오는 인공지능 NPC 구현하기 226

LEVEL 5 Image Generation API 사용하기 247
5.1 OpenAI DALL-E API 개요 248
__5.1.1 DALL-E API의 Generations 엔드포인트 사용하기 250
__5.1.2 DALL-E API의 Edits 엔드포인트 사용하기 259
5.2 Image Generation API 사용하기 실전 예제 267
__5.2.1 이미지 자판기 만들기 267
__5.2.2 그림 그려주는 인공지능 NPC 만들기 279

LEVEL 6 립싱크 기술로 구현하는 음성 기반 인공지능 NPC 얼굴 애니메이션 291
6.1 얼굴 애니메이션을 위한 립싱크 기술 292
6.2 음성 스펙트럼을 분석하여 발음에 따른 애니메이션을 만들어주는 예제 294
__6.2.1 퀘스트 295
__6.2.2 예제에 필요한 준비물 295
__6.2.3 스크립트 생성 297
__6.2.4 컴포넌트 적용하기 310
__6.2.5 실행하기 311
6.3 오디오 볼륨 감지를 활용한 간단한 립싱크 애니메이션 예제 313
__6.3.1 퀘스트 314
__6.3.2 예제에 필요한 준비물 314
__6.3.3 스크립트 생성 316
__6.3.4 인공지능 캐릭터 준비하기 319
__6.3.5 컴포넌트 연결하기 321
__6.3.6 실행하기 322

LEVEL 7 인터랙션 인공지능 캐릭터 만들기 325
7.1 인터랙션 인공지능 캐릭터 만들기 실전 예제 326
__7.1.1 OpenAIManager.cs 작성하기 327
__7.1.2 UIManager.cs 작성하기 331
__7.1.3 OpenAITTS.cs 작성하기 331
__7.1.4 SetMicrophone.cs 작성하기 332
__7.1.5 SaveWav.cs 작성하기 332
__7.1.6 WhisperManager.cs 작성하기 333
__7.1.7 NPCManager.cs 작성하기 334
__7.1.8 LipsyncSimpleController.cs 작성하기 335
__7.1.9 UI 및 리소스 연결하기 336
__7.1.10 인공지능 NPC 실행하기 337
7.2 인공지능 NPC 기능 구현하기 339
__7.2.1 OpenAIActionManager.cs 작성하기 339
__7.2.2 Manager 컴포넌트 등록 345
__7.2.3 실전 완성 코드 346
__7.2.4 실행하기 348
7.3 확장 가능성 349

LEVEL 8 프롬프트 엔지니어링 351
8.1 프롬프트 엔지니어링의 장점 352
8.2 프롬프트 엔지니어링 기법 354
__8.2.1 제로샷 프롬프팅 354
__8.2.2 퓨샷 프롬프팅 356
__8.2.3 사고의 사슬 프롬프팅 359
__8.2.4 생각의 나무 프롬프팅 361
__8.2.5 후카츠식 프롬프트 프레임워크 364
__8.2.6 프롬프트 캐싱 367
8.3 프롬프트 캐싱이 적용된 인공지능 NPC 만들기 실전 예제 373
__8.3.1 OpenAIPromptCachingManager.cs 스크립트 작성하기 375
__8.3.2 UI 및 리소스 연결하기 379
__8.3.3 실행하기 381

LEVEL 9 AI의 미래, 그리고 진화하는 NPC 385
9.1 생성형 AI의 현 주소와 전환점 386
__9.1.1 AI 에이전트의 등장 387
__9.1.2 낮아지는 AI 진입 장벽 393
__9.1.3 AI가 결합된 콘텐츠 산업의 재편 395
__9.1.4 산업에서 실현되는 AI NPC 사례 396
9.2 언어 모델 변경하기 399

엔딩 402
용어집 403
찾아보기 410

저자소개

박재환 (지은이) 정보 더보기

국민대학교 시각디자인과를 졸업하고 알티캐스트 GUI 디자이너로 근무했다. 라인, SNOW, 네이버제트에서 다양한 메타버스와 가상 세계를 제작하며 사람과 공간이 교감하는 디지털 경험을 만들어왔다. 이 과정에서 인공지능을 활용한 가상 캐릭터 개발에 관심을 가지게 되었고, AI를 통한 인간-환경 상호작용(HCI) 연구를 이어오고 있다. 유니티 1인 개발로《Seek the Difference》앱을 출시했으며, 2017년에는 《디자이너를 위한 프레이머》(에이콘출판사, 2017)를 출간해 비개발자도 손쉽게 코드를 통해 웹과 앱을 제작할수 있는 방법을 제시했다. 지금은 현대자동차에서 Connected Car Service 앱을 제작하고 있다. 또한 AR·VR 환경과 AI를 결합한 새로운 사용자 경험을 연구하고 있다.

펼치기

박재환의 다른 책 >

황유라 (지은이) 정보 더보기

어릴 때 게임과 창작의 세계에 매료되어 자연스럽게 게임 업계로 진로를 정했다. 성균관대학교 컴퓨터공학과를 졸업한 후, 넥슨과 디즈니 인터랙티브, 크래프톤, XLGAMES 등에서 게임 기획자로 활동하며 다양한 장르와 플랫폼의 게임을 개발했다. 게임 산업 전반의 경험을 바탕으로 프로젝트 관리와 시스템 설계 역량을 쌓았으며, 이후 코딩 교육 분야로 영역을 확장해 각종 프로그래밍 강의를 진행하거나 새로운 커리큘럼을 개발했다. 특히 정부 기관 및 학교에서 파이썬 AI 알고리즘 강의를 진행했다. 현재는 네이버제트의 테크 에반젤리스트로서 글로벌 메타버스 플랫폼 ‘제페토’의 크리에이터 생태계 구축을 이끌고 있다. 유니티 기반의 ZEPETO World SDK 개발을 담당하는 팀을 리드하며, 전 세계 창작자들이 쉽게 가상 공간을 제작하고 수익화할 수 있는 환경을 만드는 데 주력하고 있다. 또한 성균관대학교와 미국 인디애나 대학교 Kelley School of Business의 Executive MBA 과정에 재학 중이며, 기술과 경영을 융합한 리더십 역량을 강화하고 있다.

펼치기

책속에서

OpenAI API는 REST API를 통해 다양한 기능을 제공합니다. 이 중 Chat Completions 엔드포인트를 사용해 ChatGPT와 같은 대화형 AI 모델의 답변을 생성할 수 있습니다. OpenAI API를 사용하는 방법은 다음과 같습니다. / 가장 기본적인 방법은 HTTP 클라이언트를 사용하는 것으로, curl이나 Postman 같은 도구를 이용해 직접 API 요청을 보내고 응답을 확인할 수 있습니다. 이 방식은 API의 구조를 정확히 이해하고 있을 때 유용하며, 요청의 흐름을 눈으로 확인하거나 디버깅할 때 특히 도움이 됩니다. / 또 다른 방법으로는 OpenAI에서 제공하는 공식 SDK를 사용하는 것입니다. 현재 Python과 Node.js용 SDK가 제공되고 있으며, 이를 활용하면 훨씬 간단하고 직관적으로 코드를 작성할 수 있습니다. 복잡한 요청 구조를 직접 다룰 필요 없이 함수 호출만으로 필요한 결과를 받아볼 수 있기 때문에, 개발 생산성을 크게 높일 수 있습니다.

Whisper API 모델은 음성을 텍스트로 변환할 때 마침표, 쉼표, 물음표, 느낌표 등의 구두점(punctuation)을 누락하는 경우가 있습니다. 이때 구두점을 포함하도록 유도하는 프롬프트를 활용하면 더욱 자연스럽고 정확한 결과를 얻을 수 있습니다. / 여러 개의 파일로 분할된 음성 데이터를 처리할 때는 앞서 인식한 내용을 프롬프트로 제공하여, 모델이 이전 발화의 콘텍스트를 이해하고 좀 더 일관성 있는 텍스트를 생성할 수 있도록 도울 수 있습니다.