Vertex AI の生成 AI の概要

Vertex AI の生成 AI（別名: genAI）では、��くの大規模な生成 AI モデルにアクセスできるため、AI を活用したアプリケーションでモデルを使用するための評価、チューニング、デプロイを行うことができます。このページでは、Vertex AI での生成 AI ワークフローの概要、利用可能な機能とモデルについて説明し、使用を開始するためのリソースを紹介します。

生成 AI ワークフロー

次の図に生成 AI ワークフローの概要を示します。

生成 AI ワークフローの図

プロンプト

通常、生成 AI ワークフローは、プロンプトから始まります。プロンプトとは、レスポンスを引き出すために生成 AI モデルに送信されるリクエストのことです。モデルによっては、プロンプトにテキスト、画像、動画、音声、ドキュメントなどのモダリティだけでなく、複数のモダリティ（マルチモーダル）を含めることができます。

モデルから期待するレスポンスを引き出すためのプロンプトを記述する作業は、プロンプト設計と呼ばれています。プロンプト設計は試行錯誤のプロセスですが、プロンプト設計には原則と戦略があり、それを使用して期待通りの動作をするようにモデルを誘導します。Vertex AI Studio には、プロンプトを管理するためのプロンプト管理ツールが用意されています。

基盤モデル

プロンプトは、レスポンスを生成するために生成 AI モデルに送信されます。Vertex AI には、以下のようにさまざまな生成 AI 基盤モデルがあります。これらのモデルには、API を介してアクセスできます。

Gemini API: 高度な推論、マルチターンチャット、コード生成、マルチモーダルプロンプト。
Imagen API: 画像生成、画像編集、画像キャプション。
MedLM: 医学関連の質問応答と要約。（限定公開一般提供）

モデルのサイズ、モダリティ、費用はそれぞれ異なります。Google のモデル、オープンモデル、Google パートナーのモデルについては、Model Garden で調べることができます。

モデルのカスタマイズ

Google の基盤モデルのデフォルトの動作は、複雑なプロンプトを使わなくても常に期待する結果が生成されるようにカスタマイズできます。このカスタマイズプロセスをモデルチューニングと呼びます。モデルチューニングを行うと、プロンプトを簡素化できるため、リクエストの費用とレイテンシを削減する効果があります。

Vertex AI には、チューニングしたモデルのパフォーマンスの評価に役立つモデル評価ツールも用意されています。チューニングしたモデルを本番環境で使用できる状態にした後は、エンドポイントにデプロイして標準の MLOps ワークフローと同様にパフォーマンスをモニタリングできます。

リクエスト拡張

Vertex AI には、モデルが外部 API とリアルタイム情報にアクセスできるようにする複数のリクエスト拡張方法があります。

グラウンディング: モデルのレスポンスを、独自のデータやウェブ検索などの信頼できる情報源に接続し、ハルシネーションを減らします。
RAG: モデルを外部の情報源（ドキュメントやデータベースなど）に接続し、より正確で有益なレスポンスを生成します。
関数呼び出し: モデルが外部 API とやり取りして、リアルタイム情報を取得し、現実世界のタスクを実行できるようにします。

引用チェック

レスポンスが生成されると、Vertex AI は引用をレスポンスに含める必要があるかどうかチェックします。レスポンスにあるテキストの大半が特定の情報源に由来する場合は、その情報源がレスポンスの引用メタデータに追加されます。

責任ある AI と安全性

プロンプトとレスポンスが返される前に通過するチェックの最終レイヤは、安全フィルタです。Vertex AI では、プロンプトとレスポンスの両方について、プロンプトやレスポンスがどの程度安全カテゴリに属しているかを確認します。1 つ以上のカテゴリでしきい値を超えると、レスポンスはブロックされ、Vertex AI からフォールバックレスポンスが返されます。

レスポンス

プロンプトとレスポンスが安全フィルタのチェックに合格すると、レスポンスが返されます。通常、レスポンスは一度にすべてが返されます。ただし、ストリーミングを有効にして、レスポンスの生成に合わせて徐々に受け取ることもできます。

生成 AI API とモデル

Vertex AI で利用可能な生成 AI モデル（基盤モデル）は、そのモデルで生成するように設計されたコンテンツの種類によって分類されます。このコンテンツには、テキスト、チャット、画像、コード、動画、マルチモーダルデータ、エンベディングがあります。各モデルは、Google Cloud プロジェクト専用のパブリッシャーエンドポイントを通じて公開されます。そのため、特定のユースケース向けにチューニングする場合を除いて、基盤モデルをデプロイする必要はありません。

Gemini API サービス

Vertex AI Gemini API には、Google DeepMind が開発した Gemini モデルのパブリッシャーエンドポイントが含まれています。

Gemini 1.5 Pro（プレビュー）は、マルチモーダルプロンプトをサポートしています。プロンプトリクエストにテキスト、画像、音声、動画、PDF ファイルを含めて、テキストやコードのレスポンスを取得できます。Gemini 1.5 Pro（プレビュー）は、Gemini 1.0 Pro Vision よりも多くの画像や大きなテキストドキュメント、長い動画を処理できます。
Gemini 1.0 Pro: 自然言語タスク、マルチターンテキストとコードチャット、およびコード生成を処理するように設計されています。
Gemini 1.0 Pro Vision: マルチモーダルプロンプトをサポートします。プロンプトリクエストにテキスト、画像、動画、PDF を含めて、テキストまたはコードのレスポンスを取得できます。

次の表に、Gemini モデルの違いを示します。この表を参考にして、最適なモデルを選択してください。

Gemini モデル	モダリティ	コンテキスト期間
Gemini 1.0 Pro / Gemini 1.0 Pro Vision	テキスト、コード、PDF（Gemini 1.0 Pro Vision）最大 16 枚の画像最長 2 分の動画	8,192 個のトークン 2,048 個のトークン出力
Gemini 1.5 Pro（プレビュー）	テキスト、コード、画像、音声、動画、PDF。最大 3,000 枚の画像。最大 8.4 時間の音声。最大 1 時間の音声なし動画。最大 50 分の音声付き動画。	100 ��個のトークン 8,192 個のトークン出力

PaLM API サービス

Vertex AI PaLM API には、Google の Pathways Language Model 2（PaLM 2）のパブリッシャーエンドポイントが含まれています。PaLM 2 は、自然言語プロンプトに応じてテキストやコードを生成する大規模言語モデル（LLM）です。

PaLM API for Text は、分類、要約、エンティティ抽出などの言語タスク向けに微調整されています。
PaLM API for Chat はマルチターンチャット用に微調整されています。同モデルはチャット内の以前のメッセージを追跡し、それを新しいレスポンスを生成するためのコンテキストとして使用します。

その他の生成 AI サービス

テキストエンベディングは、入力テキストのベクトルエンベディングを生成します。エンベディングは、セマンティック検索、レコメンデーション、分類、外れ値検出などのタスクに使用できます。
マルチモーダルエンベディングは、画像とテキストの入力に基づいてベクトルエンベディングを生成します。これらのエンベディングは、画像分類やコンテンツのレコメンデーションなど、後続の他のタスクに使用できます。
Google の text-to-image 基盤モデルである Imagen を使用すると、スタジオ撮影並みの品質の画像を大規模に生成してカスタマイズできます。
パートナーモデルは、Google のパートナー企業が開発した生成 AI モデルの厳選されたリストです。これらの生成 AI モデルは、マネージド API として提供されます。たとえば、Anthropic は、Vertex AI で Claude モデルをサービスとして提供しています。
Llama などのオープンモデルは、Vertex AI や他のプラットフォームにデプロイできます。
MedLM は、医療業界向けにファインチューニングされた基盤モデルのファミリーです。

認証とセキュリティ管理

Vertex AI は、CMEK、VPC Service Controls、データ所在地、アクセスの透明性をサポートしています。生成 AI の機能にはいくつかの制限があります。詳細については、生成 AI のセキュリティ管理をご覧ください。

使ってみる

Vertex AI Studio または Vertex AI API を使用したクイックスタートチュートリアルを試す。
Model Garden でトレーニング済みモデルを確認する。
基盤モデルをチューニングする方法を学習します。
責任ある AI のベストプラクティスと Vertex AI の安全フィルタについて学習します。
割り当てと上限について学習します。
料金の詳細について学ぶ。