Vertex AI の最新のマルチモーダルモデルである Gemini 1.5 モデルを試して、最大 200 万トークンのコンテキストウィンドウで何を構築できるかご確認ください

マルチモーダル AI

ほとんどのコンテンツタイプからテキスト、コード、動画、音声、画像を生成する

マルチモーダルモデルは、テキスト、画像、音声などの幅広い入力をプロンプトとして処理し、それらのプロンプトをソースタイプだけでなくさまざまな出力に変換できます。

新規のお客様には、最大 $300 分の無料クレジットを差し上げます。これは、Vertex AI や他の Google Cloud プロダクトでマルチモーダルモデルをお試しいただけるものです。

概要

マルチモーダル AI の例にはどのようなものがありますか？

マルチモーダルモデルは、画像、動画、テキストなど、異なるモダリティからの情報を処理できる ML（機械学習）モデルです。たとえば、Google のマルチモーダルモデルである Gemini は、クッキーの置かれた皿の写真を��け取って、記述されたレシピをレスポンスとして生成します。その逆も同様です。

生成 AI とマルチモーダル AI の違いは何ですか？

生成 AI とは、ML モデルを使用して、テキスト、画像、音楽、音声、動画などの新しいコンテンツを通常は単一の種類のプロンプトから作成することの総称です。マルチモーダル AI は、これらの生成機能を拡張し、画像、動画、テキストなどの複数のモダリティからの情報を処理します。マルチモダリティは、AI に異なる感覚的モードを処理して理解する能力を与えるものと考えることができます。これは実質的に、ユーザーが 1 つの入力と 1 つの出力のタイプに制限されることなく、ほとんどの入力を備えるモデルに、ほとんどのコンテンツタイプの生成をプロンプトできることを意味します。

画像をプロンプトとして使用できる AI はどれですか？

Gemini は、Google DeepMind のチームのマルチモーダルモデルで、画像だけでなく、テキスト、コード、動画でもプロンプトできます。Gemini は最初から設計されており、テキスト、画像、動画、音声、コードにわたってシームレスに推論できます。Vertex AI の Genmini では、プロンプトを使用して画像からのテキスト抽出、画像テキストの JSON への変換、アップロードされた画像に関する回答の生成も行うことができます。

マルチモーダル AI の未来はどのようなもので、なぜ重要なのですか？

マルチモーダル AI とマルチモーダルモデルは、デベロッパーが次世代のアプリケーションで AI の機能を構築して拡張する方法の前進を示しています。たとえば、Gemini は Python、Java、C++、Go などの世界で最も普及しているプログラミング言語で高品質のコードを理解、説明、生成できるため、デベロッパーはより多くの機能を備えたアプリケーションの構築に取り組みたくなります。マルチモーダル AI の可能性は、スマートソフトウェアというよりも、専門家のヘルパーやアシスタントのような AI に世界を近づけます。

マルチモーダルモデルとマルチモーダル AI の利点は何ですか？

マルチモーダル AI の利点は、より高度な推論、問題解決、生成の機能を備えた AI をデベロッパーとユーザーに提供することです。これらの進歩は、次世代のアプリケーションが私たちの働き方と生活様式を変える可能性に無限の可能性をもたらします。構築を開始しようとしているデベロッパーに、Vertex AI Gemini API は、エンタープライズセキュリティ、データ所在地、パフォーマンス、テクニカルサポートなどの機能を提供します。Google Cloud の既存のお客様は、��すぐ Vertex AI において Gemini でプロンプトを開始できます。

仕組み