AI & 機械学習

Gemini のマルチモーダルビジュアル分析で飲食店業務を効率化

2024年12月12日

Sagar Kewalramani

Solutions Architect, Google

Alejandro Ballesta Rosen

Solutions Architect, Google

※この投稿は米国時間 2024 年 12 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。

あらゆる業界の企業が、業務をリアルタイムで明確に把握するために AI に目を向けています。多忙な工場、混雑した店舗、活気のある飲食店の厨房などにおいて、業務環境をモニタリングできる機能があれば、企業はより先を見越した対応が可能になり、最終的には業務効率の向上につなげることができます。

Gemini 1.5 Pro は、長いコンテキストウィンドウとマルチモーダル機能を備えており、在庫管理から安全性評価に至るまで、さまざまな作業を自動化することで業務効率を向上させることができます。デベロッパーにとっての強力なユースケースの一つとして、多忙な飲食店に向けた AI を活用した厨房分析が挙げられます。AI を活用した厨房分析は、多くの人に利益をもたらします。それは、レストランの収益向上に役立つだけでなく、従業員のトレーニングも効率化でき、安全性評価を向上させてより安全な職場環境を実現できます。

今回の投稿では、その仕組みと、皆様のビジネスに応用する方法をご紹介します。

マルチモーダル AI と長いコンテキストウィンドウについて

事例の紹介に入る前に、AI の世界における「マルチモーダル」と「長いコンテキストウィンドウ」の意味を説明しておきます。

マルチモーダル AI は、複数の種類のデータを処理し、理解できます。見て、聞いて、読んで、理解することを一度にできる AI システムだと考えてください。今回の例では、以下の形式を取ることができます。

テキスト: レシピ、注文、在庫リスト
画像: 料理の盛り付け、厨房のレイアウト
音声: 厨房での指示、顧客からのフィードバック
動画: リアルタイムの調理プロセス、スタッフの動き

これらのデータ表現をすべて合わせると GB 単位のサイズに達することもあります。そこで必要になるのが、Gemini の長いコンテキストウィンドウです。長いコンテキストウィンドウは、一度に数百万ものトークン（データポイント）を処理できるため、テキストから動画まで、上述のすべてのデータを入力して、コンテキストを失うことなく一貫した出力を生成することが可能になります。

市場規模が 2032 年までに 130 億ドルを超えると予測され、2024 年から 2032 年にかけて約 30% という驚異的な年平均成長率（CAGR）が見込まれるなか、マルチモーダルと長いコンテキストウィンドウ機能は成功の秘訣となるでしょう。

実際の例

飲食店の運営に関しては、在庫管理と安全検査の双方の担当者の役割を AI が兼ねることができます。次のテストでは、営業時間のピーク時に料理人が料理を準備している 5 分間の動画を Gemini にフィードしました。

https://storage.googleapis.com/gweb-cloudblog-publish/original_images/1_e79MC4t.gif

Gemini に簡単なプロンプトを与えて動画を分析させ、料理の準備の効率を分析するのに役立つ複数の値を返すように要求しました。まず、各工程にかかったタイムスタンプを返すように Gemini に求めました。

準備
調理
盛り付け
配膳

Prompt :

プロンプト:

厨房での調理の様子を収めた次の動画を見てください。調理する各食材についてタイムスタンプを分析し、以下の一般的な調理段階について開始時刻と終了時刻をそれぞれ提供してください。

準備: 食材を調理する前に行う作業すべてです。たとえば、食材を用意する、野菜を切る、ソースを混ぜる、予熱するなどが該当します。
調理: なんらかの方法で食品に熱を加えることです。たとえば、揚げる、焼く、グリルする、電子レンジを使うなどです。また、食材をひっくり返す、かき混ぜるなど、調理中の動作も含まれます。
盛り付け: 調理が終わった後に食材に対して行う動作を指します。たとえば、料理を皿に移したり、付け合わせを加えたり、ソースをかけたりすることです。
配膳: 料理人が客に料理を提供する動作です。

データは時系列順に JSON 配列とし、次の形式で出力してください: {"steps": [{"step": "Preparation", "start": "xx:xx", "end": "xx:xx"}, {"step": "Cooking", "start": "xx:xx", "end": "xx:xx"}]}

次に、ボトルネックを見つけてワークフローを最適化するために、以下の重要な場面を特定するように Gemini に指示しました。

良い部分
潜在的な安全上の問題
在庫数
改善に向けた提案

これらの値をグラフにまとめ、各作業の効率を分析し、改善の余地を特定しました。また、英語が母国語でない厨房スタッフのために、この内容を複数の言語に翻訳するように Gemini に指示しました。

Gemini の分析結果

Prompt :

プロンプト:

あなたは飲食店のマネージャーです。この動画の分析を行い、以下の項目について、理由を詳しく説明してください。

- 在庫: 厨房にある各機械の在庫数です。目視で確認できる数を概算（整数）で出力してください。

- 安全情報: 目視で確認できる、確実に安全が確保されている部分と潜在的に危険と思われる部分を特定してください。

- 問題: 料理を作る過程における問題やエラーを 2 つの値からなるリストとして作成してください。

次の JSON 形式で出力してください: {"inventory":[{"name":"ingredient here","qty":x}],"safety":[{"moment":"describe the moment here","type":"positive/negative"}],"issue":[{"issue":"describe the issue here"}],"languages":[{"english":"english json","japanese":"japanese json","spanish":"spanish json"}]}

1. 料理の準備とオブジェクトをリアルタイムでトラッキング

Gemini のオブジェクト検出機能が食材を識別し、調理過程をリアルタイムでモニタリングします。各調理の準備について開始時刻と終了時刻を抽出することで、調理の準備にかかる時間を正確に測定できます。

2. 在庫管理

「使いたい食材がない」といった状況はもう起こりません。Gemini が食材の使用状況を正確にトラッキングすることで在庫切れを防止し、在庫が切れる前に補充できるようになります。

3. 安全性評価

床が滑りやすいことや、誰もいないところで火が使われていることなど、Gemini は見逃しやすい細かい点も捉えます。これは人間の警戒心をおろそかにするものではなく、それを強化し、スタッフと客の両方にとってより安全な環境を作り出すものです。

4. 多言語機能

グローバルな料理業界では、言葉の壁が厄介な問題となることがあります。Gemini はこうした障壁を取り払い、中国語を話す料理人でも、スペイン語を話すウェイターでも、誰もが同じ情報を共有できるようにします。

Gemini による 5 分間の動画の分析は、飲食店業務の最適化、費用削減、カスタマーエクスペリエンスの向上に役立ちます。日常的なタスクを自動化および最適化することで、スタッフは美味しい料理を作り、優れたサービスを提供するという重要な作業に集中できます。また、在庫やリソースの管理を最適化することで、費用削減が改善され、ビジネスの財務収益に直接的に反映されます。

さらに、危険を事前に察知することで、事故を減らし、より安全な職場環境を実現できます。このことは、訴訟を回避できるだけでなく、思いやりのある企業文化を築くことにもつながります。

未来のサービス

Gemini のモデルは市場における先駆者であり、Google の研究と進歩が可能にしたユースケースを実現へと導きます。ただし、Gemini の影響は飲食業界にとどまりません。Gemini の長いコンテキストウィンドウにより、企業は膨大なデータを分析できるようになり、これまでは費用がかかりすぎて得られなかった分析情報を引き出せるようになります。

ご自身で行う場合:

動画と画像の分析について説明している Gemini マルチモーダル API ドキュメントを参照する
Google Cloud の無料トライアルを使用して構築を開始し、Gemini のマルチモーダル機能をテストする
包括的なガイドを使用して、マルチモーダルプロンプトを習得する

-Google、ソリューションアーキテクト Sagar Kewalramani

-Google、ソリューションアーキテクト Alejandro Ballesta Rosen

投稿先

https://storage.googleapis.com/gweb-cloudblog-publish/images/trillium.max-700x700.jpg

Compute

第 6 世代 TPU 「Trillium」の一般提供開始を発表

執筆者: Mark Lohmeyer • 所要時間: 5 分

AI & Machine Learning

Vertex AI のグラウンディング: モデルの信頼性の向上とハルシネーションの削減

執筆者: Vladimir Vuskovic • 所要時間: 9 分

https://storage.googleapis.com/gweb-cloudblog-publish/images/image1_DwlkZJU.max-700x700.png

Customers

より良い顧客体験を！ジョナサンが AI 接客で目指す未来

執筆者: Google Cloud Japan Team • 所要時間: 2 分

AI & Machine Learning

189 言語に対応する Google Cloud Translation AI の新たなアップデートを発表

執筆者: Sarah Weldon • 所要時間: 9 分