생성형 AI 평가 서비스 개요

Vertex AI의 생성형 AI 평가 서비스를 사용하면 생성형 모델 또는 애플리케이션을 평가하고 자체 평가 기준을 사용하여 자체 판단에 따라 평가 결과를 벤치마킹할 수 있습니다.

리더보드와 보고서는 전반적인 모델 실적에 대한 유용한 정보를 제공하지만 모델이 특정 요구사항을 처리하는 방��은 알려주지 않습니다. Gen AI 평가 서비스는 자체 평가 기준을 정의하여 생성형 AI 모델과 애플리케이션이 고유한 사용 사례에 얼마나 적합한지 명확하게 이해하는 데 도움이 됩니다.

평가는 모델 선택, 프롬프트 엔지니어링, 모델 맞춤설정을 비롯한 생성형 AI 개발 프로세스의 모든 단계에서 중요합니다. Vertex AI 내에서 Gen AI 평가가 통합되어 필요에 따라 평가를 실행하고 재사용할 수 있습니다.

생성형 AI 평가 서비스 기능

생성형 AI 평가 서비스는 다음 작업을 수행하는 데 도움이 됩니다.

  • 모델 선택: 벤치마크 결과와 특정 데이터에서의 성능을 바탕으로 작업에 가장 적합한 사전 학습된 모델을 선택합니다.

  • 생성 설정: 온도와 같은 모델 매개변수를 조정하여 필요에 맞게 출력을 최적화합니다.

  • 프롬프트 엔지니어링: 효과적인 프롬프트와 프롬프트 템플릿을 작성하여 모델이 원하는 행동과 응답을 하도록 안내합니다.

  • 미세 조정 개선 및 보호: 편향이나 바람직하지 않은 동작을 피하면서 사용 사례의 성능을 개선하도록 모델을 미세 조정합니다.

  • RAG 최적화: 가장 효과적인 검색 증강 생성 (RAG) 아키텍처를 선택하여 애플리케이션의 성능을 개선합니다.

  • 이전: 특정 사용 사례에 명확한 이점을 제공하는 최신 모델로 이전하여 AI 솔루션의 성능을 지속적으로 평가하고 개선합니다.

  • 번역 (미리보기): 모델의 번역 품질을 평가합니다.

평가 절차

Gen AI 평가 서비스를 사용하면 다음 단계에 따라 평가 기준에 따라 Gen AI 모델 또는 애플리케이션을 평가할 수 있습니다.

  1. 평가 측정항목 정의:

    • 모델 기반 측정항목을 비즈니스 기준에 맞게 조정하는 방법을 알아보세요.

    • 단일 모델을 평가 (점별)하거나 2개의 모델을 비교할 때 낙찰자를 결정합니다 (쌍별).

    • 계산 기반 측정항목을 포함하여 추가 통계를 확인합니다.

  2. 평가 데이터 세트를 준비합니다.

    • 특정 사용 사례를 반영하는 데이터 세트를 제공합니다.
  3. 평가 실행

    • 처음부터 시작하거나 템플릿을 사용하거나 기존 예시를 조정합니다.

    • 후보 모델을 정의하고 EvalTask를 만들어 Vertex AI를 통해 평가 로직을 재사용합니다.

  4. 평가 결과 보기 및 해석하기

평가 사용 사례용 노트북

다음 표에는 다양한 생성형 AI 평가 사용 사례를 위한 Python용 Vertex AI SDK 노트북이 나와 있습니다.

사용 사례 설명 노트북 링크
모델 평가 빠른 시작: 생성형 AI 평가 서비스 SDK 소개 생성형 AI 평가 서비스 SDK 시작하기
작업에 적합한 퍼스트 파티 (1P) 기반 모델을 평가하고 선택합니다. 작업에 적합한 퍼스트 파티 (1P) 기반 모델 평가 및 선택하기
생성형 AI 모델 설정 평가 및 선택:

요약 작업에서 Gemini 모델의 온도, 출력 토큰 한도, 안전 설정, 기타 모델 생성 구성을 조정하고 여러 측정항목에서 다양한 모델 설정의 평가 결과를 비교합니다.
Gemini의 다양한 모델 매개변수 설정 비교
Vertex AI Model Garden에서 서드 파티 (3P) 모델을 평가합니다.

이 노트북에서는 Gen AI 평가 서비스 SDK를 사용하여 Google의 Gemini 모델과 서드 파티 언어 모델을 모두 평가하는 방법을 종합적으로 안내합니다. 다양한 평가 측정항목과 기법을 사용하여 공개 및 비공개 모델, 모�� 엔드포인트, 서드 파티 클라이언트 라이브러리 등 다양한 소스의 모델을 평가하고 비교하는 방법을 알아봅니다. 다양한 작업에서 통제된 실험을 수행하고 모델 성능을 분석하는 실질적인 경험을 쌓을 수 있습니다.
Gen AI 평가 서비스 SDK를 사용하여 Vertex AI 스튜디오, Model Garden, Model Registry에서 모델 평가하기
Gen AI Evaluation Service SDK를 사용하여 PaLM에서 Gemini 모델로 이전합니다.

이 노트북에서는 여러 평가 측정항목을 사용하여 PaLM 및 Gemini 기반 모델을 평가하고 한 모델에서 다른 모델로 이전하는 것과 관련된 결정을 지원하는 방법을 안내합니다. Google에서는 이러한 측정항목을 시각화하여 각 모델의 강점과 약점을 파악하고 사용 사례의 구체적인 요구사항에 가장 적합한 모델을 정보에 입각하여 결정할 수 있도록 지원합니다.
PaLM과 Gemini 모델 비교 및 마이그레이션
번역 모델을 평가합니다.

이 노트북에서는 Gen AI 평가 서비스용 Vertex AI SDK를 사용하여 BLEU, MetricX, COMET를 사용하여 대규모 언어 모델 (LLM) 응답의 번역 품질을 측정하는 방법을 보여줍니다.
번역 모델 평가하기
프롬프트 템플릿 평가 Gen AI Evaluation Service SDK를 사용한 프롬프트 엔지니어링 및 프롬프트 평가 결과 개선을 위한 프롬프트 템플릿 설계 평가 및 최적화
생성형 AI 애플리케이션 평가 Gemini 모델 도구 사용 및 함수 호출 기능을 평가합니다. Gemini 모델 도구 사용 평가
Gen AI 평가 서비스 SDK를 사용하여 질의 응답 태스크의 검색 증강 생성 (RAG)에서 생성된 답변을 평가합니다. 검색 증강 생성 (RAG)에서 생성된 답변 평가
Vertex AI Gen AI 평가 서비스를 사용하여 LangChain 챗봇을 평가합니다.

이 노트북에서는 Vertex AI Gen AI 평가 서비스 SDK를 사용하여 LangChain 대화형 챗봇을 평가하는 방법을 보여줍니다. 데이터 준비, LangChain 체인 설정, 맞춤 평가 측정항목 만들기, 결과 분석을 다룹니다. 이 튜토리얼에서는 레시피 추천 챗봇을 예로 들고 프롬프트 디자인을 반복하여 성능을 개선하는 방법을 보여줍니다.
LangChain 평가
측정항목 맞춤설정 다음 기능을 사용하여 모델 기반 측정항목을 맞춤설정하고 특정 기준에 따라 생성형 AI 모델을 평가하세요.

  • 템플릿 맞춤설정: 사전 정의된 필드를 사용하여 포인트별 및 쌍별 모델 기반 측정항목을 정의할 수 있습니다.
  • 전체 맞춤설정: 점별 및 쌍별 모델 기반 측정항목의 설계를 완전히 제어할 수 있습니다.
생성형 AI 모델을 평가하기 위한 모델 기반 측정항목 맞춤설정
로컬에서 정의된 맞춤 측정항목으로 생성형 AI 모델을 평가하고 자체 판단 모델을 가져와 모델 기반 측정항목 평가를 실행합니다. 커스텀 측정항목을 사용한 Bring-Your-Own-Autorater
자체 계산 기반 맞춤 측정항목 함수를 정의하고 Gen AI 평가 서비스 SDK를 통한 평가에 사용합니다. 자체 계산 기반 맞춤 측정항목 가져오기
기타 주제 Gen AI 평가 서비스 SDK 미리보기 버전에서 GA 버전으로의 이전 가이드.

이 튜토리얼에서는 Gen AI 평가 서비스용 Vertex AI SDK for Python의 미리보기 버전에서 최신 GA 버전으로 이전하는 프로세스를 안내합니다. 또한 이 가이드에서는 GA 버전 SDK를 사용하여 검색 증강 생성 (RAG)을 평가하고 쌍별 평가를 사용하여 두 모델을 비교하는 방법을 보여줍니다.
생성형 AI 평가 서비스 SDK 미리보기-GA 이전 가이드

지원되는 모델 및 언어

Vertex AI 생성형 AI 평가 서비스는 Google의 기반 모델, 서드 파티 모델, 공개 모델을 지원합니다. 사전 생성된 예측을 직접 제공하거나 다음과 같은 방법으로 후보 모델 응답을 자동으로 생성할 수 있습니다.

  • Google의 기반 모델 (예: Gemini 1.5 Pro) 및 Vertex AI Model Registry에 배포된 모든 모델에 대한 응답을 자동으로 생성합니다.

  • 다른 서드 파티 및 개방형 모델의 SDK 텍스트 생성 API와 통합합니다.

  • Vertex AI SDK를 사용하여 다른 제공업체의 모델 엔드포인트를 래핑합니다.

Gemini 모델 기반 측정항목의 경우 Gen AI 평가 서비스는 Gemini 1.5 Pro에서 지원되는 모든 입력 언어를 지원합니다. 하지만 영어가 아닌 입력의 평가 품질은 영어 입력의 품질만큼 높지 않을 수 있습니다.

Gen AI 평가 서비스는 모델 기반 번역 측정항목에 다음 언어를 지원합니다.

MetricX

MetricX에서 지원되는 언어: 아프리칸스어, 알������������, ����리어, ����어, 아���메니아어, 아제리어, 바스크어, 벨라루스어, 벵골어, 불가리아어, 버마어, 카탈란어, 세부아노어, 치체와어, 중국어, 코르시카어, 체코어, 덴마크어, 네덜란드어, 영어, 에스페란토, 에스토니아어, 필리핀어, 핀란드어, 프랑스어, 갈리시아어, 조지아어, 독일어, 그리스어, 구자라트어, 아이티 크리올어, 하우사어, 하와이어, 히브리어, 힌디어, 몽골어, 헝가리어, 아이슬란드어, 이그보어, 인도네시아어, 아일랜드어, 이탈리아어, 일본어, 자바어, 칸나다어, 카자흐어, 캄보디아어, 한국어, 쿠르드어, 키르기즈어, 라오어, 라틴어, 라트비아어, 리투아니아어, 룩셈부르크어, 마케도니아어, 마라가시어, 말레이어, 말라얄람어, 몰타어, 마오리어, 마라티어, 몽골어, 네팔어, 노르웨이어, 파슈토어, 페르시아어, 폴란드어, 포르투갈어, 펀자비어, 루마니아어, 러시아어, 사모아어, 스코틀랜드 게일어, 세르비아어, 쇼나어, 신디어, 신할라어, 슬로바키아어, 슬로베니아어, 소말리어, 소토어, 스페인어, 수단어, 스와힐리어, 스웨덴어, 타지키어, 타밀어, 텔루구어, 태국어, 튀르키예어, 우크라이나어, 우르두어, 우즈베키스탄어, 베트남어, 웨일스어, 서부 프라흐어, 츠와나어, 이디시어, 요루바어, 줄루어

COMET

COMET에서 지원되는 언어: 아프리칸스어, 알바니아어, 아마리어, 아랍어, 아르메니아어, 아삼어, 아제리어, 바스크어, 벨라루스어, 벵골어, 벵골어 로마자 표기, 보스니아어, 브르타뉴어, 불가리아어, 버마어, 카탈란어, 중국어 (간체), 중국어 (번체), 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스페란토, 에스토니아어, 필리핀어, 핀란드어, 프랑스어, 갈리시아어, 조지아어, 독일어, 그리스어, 구자라트어, 하우사어, 히브리어, 힌디어, 힌디어 로마자 표기, 헝가리어, 아이슬란드어, 인도네시아어, 아일랜드어, 이탈리아어, 일본어, 자바어, 칸나다어, 카자흐어, 캄보디아어, 한국어, 쿠르드어 (쿠르만지어), 키르기즈어, 라오어, 라틴어, 라트비아어, 리투아니아어, 마케도니아어, 마라가시어, 말레이어, 말라얄람어, 마라티어, 몽골어, 네팔어, 노르웨이어, 오리야어, 오로모어, 파슈토어, 페르시아어, 폴란드어, 포르투갈어, 펀자비어, 루마니아어, 러시아어, 산스크리트어, 스코틀랜드어, 게일어, 세르비아어, 신디어, 신할라어, 슬로바키아어, 슬로베니아어, 소말리어, 스페인어, 수단어, 스와힐리어, 스웨덴어, 타밀어, 타밀어 로마자 표기, 텔루구어, 텔루구어 로마자 표기, 태국어, 튀르키예어, 우크라이나어, 우르두어, 우르두어 로마자 표기, 위구르어, 우즈베키스탄어, 베트남어, 웨일스어, 서양, 프레이지어, 츠와나어, 이디시어

다음 단계