Gemini のマルチモーダル ビジュアル分析で飲食店業務を効率化
Sagar Kewalramani
Solutions Architect, Google
Alejandro Ballesta Rosen
Solutions Architect, Google
※この投稿は米国時間 2024 年 12 月 4 日に、Google Cloud blog に投稿されたものの抄訳です。
あらゆる業界の企業が、業務をリアルタイムで明確に把握するために AI に目を向けています。多忙な工場、混雑した店舗、活気のある飲食店の厨房などにおいて、業務環境をモニタリングできる機能があれば、企業はより先を見越した対応が可能になり、最終的には業務効率の向上につなげることができます。
Gemini 1.5 Pro は、長いコンテキスト ウィンドウとマルチモーダル機能を備えており、在庫管理から安全性評価に至るまで、さまざまな作業を自動化することで業務効率を向上させることができます。デベロッパーにとっての強力なユースケースの一つとして、多忙な飲食店に向けた AI を活用した厨房分析が挙げられます。AI を活用した厨房分析は、多くの人に利益をもたらします。それは、レストランの収益向上に役立つだけでなく、従業員のトレーニングも効率化でき、安全性評価を向上させてより安全な職場環境を実現できます。
今回の投稿では、その仕組みと、皆様のビジネスに応用する方法をご紹介します。
マルチモーダル AI と長いコンテキスト ウィンドウについて
事例の紹介に入る前に、AI の世界における「マルチモーダル」と「長いコンテキスト ウィンドウ」の意味を説明しておきます。
マルチモーダル AI は、複数の種類のデータを処理し、理解できます。見て、聞いて、読んで、理解することを一度にできる AI システムだと考えてください。今回の例では、以下の形式を取ることができます。
-
テキスト: レシピ、注文、在庫リスト
-
画像: 料理の盛り付け、厨房のレイアウト
-
音声: 厨房での指示、顧客からのフィードバック
-
動画: リアルタイムの調理プロセス、スタッフの動き
これらのデータ表現をすべて合わせると GB 単位のサイズに達することもあります。そこで必要になるのが、Gemini の長いコンテキスト ウィンドウです。長いコンテキスト ウィンドウは、一度に数百万ものトークン(データポイント)を処理できるため、テキストから動画まで、上述のすべてのデータを入力して、コンテキストを失うことなく一貫した出力を生成することが可能になります。
市場規模が 2032 年までに 130 億ドルを超えると予測され、2024 年から 2032 年にかけて約 30% という驚異的な年平均成長率(CAGR)が見込まれるなか、マルチモーダルと長いコンテキスト ウィンドウ機能は成功の秘訣となるでしょう。
実際の例
飲食店の運営に関しては、在庫管理と安全検査の双方の担当者の役割を AI が兼ねることができます。次のテストでは、営業時間のピーク時に料理人が料理を準備している 5 分間の動画を Gemini にフィードしました。
Gemini に簡単なプロンプトを与えて動画を分析させ、料理の準備の効率を分析するのに役立つ複数の値を返すように要求しました。まず、各工程にかかったタイムスタンプを返すように Gemini に求めました。
-
準備
-
調理
-
盛り付け
-
配膳
次に、ボトルネックを見つけてワークフローを最適化するために、以下の重要な場面を特定するように Gemini に指示しました。
-
良い部分
-
潜在的な安全上の問題
-
在庫数
-
改善に向けた提案
これらの値をグラフにまとめ、各作業の効率を分析し、改善の余地を特定しました。また、英語が母国語でない厨房スタッフのために、この内容を複数の言語に翻訳するように Gemini に指示しました。
Gemini の分析結果
1. 料理の準備とオブジェクトをリアルタイムでトラッキング
Gemini のオブジェクト検出機能が食材を識別し、調理過程をリアルタイムでモニタリングします。各調理の準備について開始時刻と終了時刻を抽出することで、調理の準備にかかる時間を正確に測定できます。
2. 在庫管理
「使いたい食材がない」といった状況はもう起こりません。Gemini が食材の使用状況を正確にトラッキングすることで在庫切れを防止し、在庫が切れる前に補充できるようになります。
3. 安全性評価
床が滑りやすいことや、誰もいないところで火が使われていることなど、Gemini は見逃しやすい細かい点も捉えます。これは人間の警戒心をおろそかにするものではなく、それを強化し、スタッフと客の両方にとってより安全な環境を作り出すものです。
4. 多言語機能
グローバルな料理業界では、言葉の壁が厄介な問題となることがあります。Gemini はこうした障壁を取り払い、中国語を話す料理人でも、スペイン語を話すウェイターでも、誰もが同じ情報を共有できるようにします。
Gemini による 5 分間の動画の分析は、飲食店業務の最適化、費用削減、カスタマー エクスペリエンスの向上に役立ちます。日常的なタスクを自動化および最適化することで、スタッフは美味しい料理を作り、優れたサービスを提供するという重要な作業に集中できます。また、在庫やリソースの管理を最適化することで、費用削減が改善され、ビジネスの財務収益に直接的に反映されます。
さらに、危険を事前に察知することで、事故を減らし、より安全な職場環境を実現できます。このことは、訴訟を回避できるだけでなく、思いやりのある企業文化を築くことにもつながります。
未来のサービス
Gemini のモデルは市場における先駆者であり、Google の研究と進歩が可能にしたユースケースを実現へと導きます。ただし、Gemini の影響は飲食業界にとどまりません。Gemini の長いコンテキスト ウィンドウにより、企業は膨大なデータを分析できるようになり、これまでは費用がかかりすぎて得られなかった分析情報を引き出せるようになります。
ご自身で行う場合:
-
動画と画像の分析について説明している Gemini マルチモーダル API ドキュメントを参照する
-
Google Cloud の無料トライアルを使用して構築を開始し、Gemini のマルチモーダル機能をテストする
-
包括的なガイドを使用して、マルチモーダル プロンプトを習得する
-Google、ソリューション アーキテクト Sagar Kewalramani
-Google、ソリューション アーキテクト Alejandro Ballesta Rosen