책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791143006691
· 쪽수 : 150쪽
· 출판일 : 2025-07-30
책 소개
목차
생성형 AI 중심의 경제가 다가오고 있다
01 생성형 AI: 개념과 분류
02 대규모 언어 모델
03 대규모 멀티모달 모델
04 T2I 모델
05 T2V 모델
06 프롬프트 엔지니어링
07 생성형 AI 품질 평가
08 생성형 AI를 활용한 가치 창출 전략
09 생성형 AI가 바꾼 BM 변화
10 생성형 AI 비즈니스의 미래
저자소개
책속에서
생성형 AI(Generative AI)는 기존 AI와 근본적으로 다른 목적을 지닌다. 전통적 AI가 데이터 분류·예측·최적화에 집중했다면, 생성형 AI는 “창조”를 핵심으로 한다. 예를 들어, GPT 시리즈는 인간과 유사한 글을 생성하고, 달리(DALL-E)나 미드저니(MidJourney)는 독창적인 이미지를 제작하며, 깃허브 코파일럿(GitHub Copilot)은 개발자용 코드를 작성한다. 이는 GAN(Generative Adversarial Network, 생성적 적대 신경망), 트랜스포머(Transformer), 확산 모델(Diffusion Model) 등의 기술적 혁신에 힘입어 가능해졌다. 그러나 일부 일반인들은 생성형 AI가 감정을 가지고 사고를 할 수 있다고 말한다. 하지만 개념을 정확히 인지해 생성형 AI가 논리와 확률에 기반한 것을 이해한다면 AI를 활용한 비즈니스를 풀어 나가는 데 좋은 초석이 될 것이다.
-01_“생성형 AI: 개념과 분류” 중에서
최근에는 3세대인 LMM의 확장 단계로 나아가면서, 여러 모달리티를 동시에 처리하고 분석할 수 있는 모델들이 새롭게 부상하고 있다. LMM은 기존 LLM의 우수한 텍스트 처리 능력을 유지하면서도 이미지, 오디오, 영상뿐만 아니라 센서 데이터, 생체 신호, 시뮬레이션 데이터 등 다양한 비텍스트 데이터를 통합적으로 분석할 수 있는 방향으로 발전하고 있다. 구체적으로는 텍스트, 이미지, 오디오, 센서 데이터 등 각 데이터 유형을 개별적으로 처리하는 인코더를 통해 특징을 추출하고, 이를 단일 표현 공간에서 융합해 멀티모달 간의 상호작용을 학습한 뒤, 디코더를 통해 텍스트, 이미지, 오디오, 센서 기반 예측 등의 다양한 출력을 생성한다. 이러한 구조를 통해 LMM은 각 모달리티가 지닌 정보를 종합적으로 활용함으로써 사람의 다양한 감각 정보뿐만 아니라 기계나 환경에서 수집되는 데이터를 통합적으로 처리하는 방식에 한층 더 가까워졌다.
-03_“대규모 멀티모달 모델” 중에서
제로샷이나 퓨샷 프롬프팅의 경우 복잡한 문제 해결에는 한계가 존재한다. 이를 해결하기 위해 논리적이고 단계적인 추론 과정을 통해 보다 나은 출력 결과를 도출하도록 하는 기술이 CoT(Chain-of-Thought) 프롬프팅이다. 우선 모델에 해결할 문제를 제시하고, 모델이 문제를 해결하기 위해 필요한 중간 단계의 질문을 추가해 최종 문제를 해결하는 데 도달할 수 있도록 하는 것이다. 예를 들어, 제로샷과 비교하면 제로샷의 경우에는 ‘5개의 사과 중 2개를 먹었다면 몇 개의 사과가 남는지 계산해 줘’라고 프롬프트를 작성한다면, CoT의 경우에는 우선 ‘처음에 몇 개의 사과가 있었나요?’, ‘몇 개의 사과를 먹었나요?’, ‘남은 사과는 몇 개인가요?’와 같이 단계적으로 질문을 통해 문제를 해결하도록 하는 것이다. 이는 모델이 문제 해결 과정을 보다 명확하게 이해하고, 논리적 사고를 통해 효과적인 결과를 도출할 수 있도록 하는 기법 중 하나다.
-06_“프롬프트 엔지니어링” 중에서



















