책 이미지
책 정보
· 분류 : 국내도서 > 컴퓨터/모바일 > 인공지능
· ISBN : 9791143010339
· 쪽수 : 178쪽
· 출판일 : 2025-09-24
책 소개
목차
AI 모델 성능 평가의 새로운 패러다임 시작
01 대규모 언어 모델의 성능 평가
02 비전 언어 모델의 성능 평가
03 생성 AI 모델의 성능 평가
04 파운데이션 모델의 성능 평가
05 산업별 LLM·VLM 성능 평가
06 로봇 일상화를 위한 CoT 성능 검증
07 AI 모델의 안전성과 윤리적 평가
08 AI 모델의 효율성과 지속 가능성 평가
09 미래 AI 모델 성능 평가 패러다임
10 AI 모델 성능 평가의 미래 전망
저자소개
책속에서
GPT-3의 출시와 함께 시작된 LLM 시대는 기존 평가 체계의 한계를 여실히 드러냈다. 1,750억 개의 파라미터를 가진 GPT-3는 퓨샷(Few-shot) 학습 능력을 통해 별도의 미세 조정(Fine-tuning) 없이도 다양한 태스크를 수행할 수 있었다. 이는 태스크별로 특화된 모델을 학습시키고 평가하던 기존 방식에 큰 변화를 요구했다.
기존 평가 방식의 첫 번째 한계는 태스크 특화성이었다. 버트(BERT)나 로버타(RoBERTa) 같은 모델들은 특정 다운스트림 태스크에 맞춰 미세 조정되어 평가되었다. 그러나 LLM은 프롬프트만으로 다양한 태스크를 수행할 수 있어, 하나의 모델을 여러 관점에서 종합적으로 평가해야 하는 필요성이 대두되었다. 단일 태스크 평가로는 모델의 진정한 능력을 파악하기 어려워졌다.
-01_“대규모 언어 모델의 성능 평가” 중에서
음성 생성 기술은 TTS(Text-to-Speech), 음성 변환, 음성 복원 등 다양한 응용 분야를 포함한다. 웨이브넷(Wave- Net) 이후 뉴럴 보코더(Neural Vocoder)의 발전, 타코트론(Tacotron)과 패스트스피치(FastSpeech) 같은 엔드투엔드(End-to-End) 모델, 그리고 최근 발리(VALL-E) 같은 대규모 언어 모델 기반 음성 생성까지 급속히 발전했다. 각 기술의 특성에 맞는 정교한 평가 체계가 필수적이다.
-03_“생성 AI 모델의 성능 평가” 중에서
로봇이 실제 환경에서 작동할 때 마주치는 가장 큰 도전은 예측 불가능한 상황에 대한 대응이다. 공장의 정형화된 환경과 달리, 일상 환경은 끊임없이 변화하고 예상치 못한 상황이 발생한다. CoT는 이러한 불확실성을 체계적으로 다룰 수 있게 해 준다.
투명성과 신뢰성 확보: CoT를 통해 로봇의 의사 결정 과정이 투명해진다. 사용자는 로봇이 왜 특정 행동을 선택했는지 이해할 수 있으며, 이는 인간?로봇 상호작용에서 신뢰 구축의 기반이 된다. 특히 의료나 돌봄 로봇처럼 안전이 중요한 분야에서는 이러한 설명 가능성이 필수적이다.
오류 진단과 개선: 작업 실패 시 CoT는 어느 단계에서 문제가 발생했는지 정확히 파악할 수 있게 해 준다. 이를 통해 시스템 개선이 용이해지고, 같은 실수를 반복하지 않도록 학습할 수 있다.
적응적 행동 생성: 새로운 상황에 직면했을 때, CoT는 기존 지식을 조합해 창의적인 해결책을 도출할 수 있게 한다. 예를 들어, 문이 잠겨 있을 때 다른 경로를 찾거나, 도구가 없을 때 대체 방법을 모색하는 등의 적응적 행동이 가능해진다.
-06_“로봇 일상화를 위한 CoT 성능 검증” 중에서



















