Sete exemplos de recursos multimodais do Gemini em ação

NOV 25, 2024
Anirudh Baddepudi Product Manager Gemini Vision, Google Deepmind
Logan Kilpatrick Senior Product Manager Gemini API and Google AI Studio

Uma análise detalhada da compreensão nativa de imagens e vídeos do Gemini com exemplos do mundo real

Os recursos multimodais e de contexto longo nativos do Gemini potencializam aplicativos como o NotebookLM, o Google Lens e muitos outros e já desbloquearam uma variedade de aplicativos inovadores para os desenvolvedores.

Este postagem de blog destaca alguns dos casos de uso com os quais estamos mais empolgados para a entrada de imagens e vídeos na API Gemini e que esperamos que gerem novas ideias para o que pode ser criado com os recursos de visão. Os exemplos apresentados usam o Gemini 1.5 Pro, nosso modelo com o melhor desempenho para aplicativos de compreensão de imagens e vídeos, mas recomendamos experimentar o 1.5 Flash e o 1.5 Flash-8B (e nossos modelos experimentais!), dependendo da complexidade da tarefa.


Nº 1. Descrições detalhadas de imagens

Os modelos Gemini são capazes de descrever, responder a perguntas e raciocinar sobre imagens. Os modelos ajustam o comprimento, o tom e o formato da descrição, dependendo do prompt, para que você possa ajustar o comportamento do modelo a cada caso de uso.

Nº 2. Compreensão de PDFs longos com visão nativa

O Gemini tem a capacidade de compreender e processar mais de 1.000 páginas de documentos em PDF. Com seus recursos de visão nativa, o Gemini pode transcrever tabelas com precisão, interpretar layouts complexos de várias colunas, compreender gráficos, esboços, diagramas e texto manuscrito dentro de documentos e usar esse texto e as informações visuais para realizar tarefas de ponta a ponta.

Segue um exemplo no qual o Gemini usa informações de uma série de PDFs para gerar saídas e códigos estruturados.

Alimentamos 15 divulgações de resultados da Alphabet, até o terceiro trimestre de 2024 (152 páginas no total) e pedimos ao Gemini que extraísse números de receita do Google desses documentos, criasse tabelas agregando esses dados e, em seguida, escrevesse um código usando o matplotlib para visualizar a receita e o crescimento trimestral.

Prompt (os prompts neste artigo são traduzidos das versões em inglês utilizadas, para compreensão):

Estes são os relatórios de ganhos dos últimos 15 trimestres.

  1. Gere uma tabela em redução da receita total para cada trimestre, do "Trimestre encerrado em 31 de março de 2021" até o "Trimestre encerrado em 30 de setembro de 2024". Devem ser 15, no total.

2. Gere uma tabela da receita total para cada produto/serviço do Google -- "Pesquisa Google", "Anúncios do Youtube", "Google Network", "assinaturas, plataformas e dispositivos do Google", "Google Cloud" e "Outras apostas" -- para cada um dos trimestres (15 no total). Mostre isso em várias tabelas (4 trimestres para cada tabela) em sua saída. Observe que as assinaturas, plataformas e dispositivos do Google foram chamados de "Google outros" no terceiro trimestre de 2023 e antes.


Resposta
:

Here are the tables you requested:
 
**1. Total Revenue by Quarter (in millions USD)**
 
| Quarter Ended       | Year | Total Revenue |
|-------------------|------|--------------|
| March 31          | 2021 | 55,314        |
| June 30           | 2021 | 61,880        |
| September 30      | 2021 | 65,118        |
| December 31       | 2021 | 75,325        |
| March 31          | 2022 | 68,011        |
| June 30           | 2022 | 69,685        |
| September 30      | 2022 | 69,092        |
| December 31       | 2022 | 76,048        |
| March 31          | 2023 | 69,787        |
| June 30           | 2023 | 74,604        |
| September 30      | 2023 | 76,693        |
| December 31       | 2023 | 86,310        |
| March 31          | 2024 | 80,539        |
| June 30           | 2024 | 84,742        |
| September 30      | 2024 | 88,268        |
 
 
 
**2. Revenue by Google Product/Service (in millions USD)**
 
**2021 Q1 - Q4**
 
| Quarter Ended  | Google Search | YouTube Ads | Google Network | Google Other | Google Cloud | Other Bets |
|----------------|--------------|------------|---------------|-------------|-------------|-----------|
| March 31, 2021 | 31,879       | 6,005      | 6,800        | 6,494       | 4,047       | 198       |
| June 30, 2021  | 35,845       | 7,002      | 7,597        | 6,623       | 4,628       | 192       |
| Sept 30, 2021 | 37,926       | 7,205      | 7,999        | 6,754       | 4,990       | 182       |
| Dec 31, 2021  | 43,301       | 8,633      | 9,305        | 8,161       | 5,541       | 181       |
 
**2022 Q1 - Q4**
 
| Quarter Ended  | Google Search | YouTube Ads | Google Network | Google Other | Google Cloud | Other Bets |
|----------------|--------------|------------|---------------|-------------|-------------|-----------|
| March 31, 2022 | 39,618       | 6,869      | 8,174        | 6,811       | 5,821       | 440       |
| June 30, 2022  | 40,689       | 7,340      | 8,259        | 6,553       | 6,276       | 193       |
| Sept 30, 2022 | 39,539       | 7,071      | 7,872        | 6,895       | 6,868       | 209       |
| Dec 31, 2022  | 42,604       | 7,963      | 8,475        | 8,796       | 7,315       | 226       |
 
 
**2023 Q1 - Q4**
 
| Quarter Ended  | Google Search | YouTube Ads | Google Network | Google Other | Google Cloud | Other Bets |
|----------------|--------------|------------|---------------|-------------|-------------|-----------|
| March 31, 2023 | 40,359       | 6,693      | 7,496        | 7,413       | 7,454       | 288       |
| June 30, 2023  | 42,628       | 7,665      | 7,850        | 8,142       | 8,031       | 285       |
| Sept 30, 2023 | 44,026       | 7,952      | 7,669        | 8,339       | 8,411       | 297       |
| Dec 31, 2023  | 48,020       | 9,200      | 8,297        | 10,794      | 9,192       | 657       |
 
**2024 Q1 - Q3**
 
| Quarter Ended  | Google Search | YouTube Ads | Google Network | Subscriptions, Platforms, & Devices | Google Cloud | Other Bets |
|----------------|--------------|------------|---------------|-----------------------------------|-------------|-----------|
| March 31, 2024 | 46,156       | 8,090       | 7,413        | 8,739      | 9,574       | 495       |
| June 30, 2024  | 48,509       | 8,663       | 7,444        | 9,312      | 10,347      | 365       |
| Sept 30, 2024 | 49,385       | 8,921       | 7,548        | 10,656     | 11,353      | 388       |

Prompt: Usando as tabelas geradas, escreva o código matplotlib para visualizar essas receitas, no formato de gráfico de barras. No eixo x, plote o tempo (cada um dos 15 trimestres em ordem cronológica). No eixo y, plote as receitas -- receita total e para cada produto e serviço em cada horizonte de tempo. Não deixe o código para o usuário preencher. Deixe de fora as Outras apostas e assegure que as barras tenham espaçamentos iguais.

Rendered chart using the model’s code output

Prompt: Incrível! Agora, você pode plotar um gráfico mostrando o crescimento da receita trimestre a trimestre para cada uma das áreas de produto? O eixo x deve ser o tempo (cada um dos 15 trimestres), o eixo y deve ser o crescimento percentual da receita e deve haver 6 linhas no gráfico. Inclua valores de variáveis no código, mesmo que tenham sido definidos anteriormente. Exclua Outras apostas.

O crescimento da receita trimestral é definido como ((receita do trimestre atual)-(receita do trimestre anterior))/(receita do trimestre anterior).

Nº 3. Lógica de documentos do "mundo real"

Você pode usar os modelos Gemini 1.5 para compreender e extrair informações de documentos do "mundo real", como recibos, etiquetas, cartazes, notas, esboços de quadros brancos, registros pessoais e muito mais. Este é um exemplo do Gemini extraindo valores para campos definidos pelo usuário a partir de uma imagem de recibo e retornando isso como um objeto JSON.

Prompt no Google AI Studio

Nº 4. Extração de dados de páginas da Web

Os modelos Gemini são capazes de extrair dados de capturas de tela de páginas da Web e retornar esses dados em formatos de saída estruturados, como JSON. Isso permite acessar o conteúdo da página em tempo real como um ser humano o veria, incluindo imagens e vídeos, habilitando aplicativos como APIs de dados da Web e agentes de navegação.

Segue um exemplo no qual o Gemini converte informações desta página da Web do Google Play em um formato de saída estruturado.

example of Gemini extracting contents

Prompt: Extraia cada um dos livros desta página da Web e retorne uma lista de objetos JSON, na qual cada um contenha:

  1. nome do livro
  2. autor
  3. número de estrelas
  4. preço

Inclua na saída apenas as informações visíveis na página da Web

[
    {
        "name": "Warriors: A Starless Clan #6",
        "author": "Erin Hunter",
        "stars": null,
        "price": "$14.95"
    },
    {
        "name": "In Too Deep: A Reacher Novel",
        "author": "Lee Child",
        "stars": 4.7,
        "price": "$16.95"
    },
    {
        "name": "The Waiting: A Ballard and Bosch Novel",
        "author": "Michael Connelly",
        "stars": 4.8,
        "price": "$16.95"
    },
    {
        "name": "The Fury of the Gods",
        "author": "John Gwynne",
        "stars": 5.0,
        "price": "$29.95"
    },
    {
        "name": "Raised by Wolves: Patterson's Greatest Small-Town Thriller",
        "author": "James Patterson",
        "stars": null,
        "price": "$14.95"
    },
    {
        "name": "Iron Flame (1 of 2)",
        "author": null,
        "stars": 4.6,
        "price": "$27.95"
    },
    {
        "name": "The Message",
        "author": "Ta-Nehisi Coates",
        "stars": 4.9,
        "price": "$14.95"
    },
    {
        "name": "Revenge of the Tipping Point: Overstories, Superspreaders",
        "author": "Malcolm Gladwell",
        "stars": 4.6,
        "price": "$14.95"
    },
    {
        "name": "Counting Miracles: A Novel",
        "author": "Nicholas Sparks",
        "stars": 4.3,
        "price": "$16.95"
    },
    {
        "name": "Nexus: A Brief History of Information Networks from...",
        "author": "Yuval Noah Harari",
        "stars": 4.2,
        "price": "$19.95"
    },
    {
        "name": "Wind and Truth: Book Five of...",
        "author": "Brandon Sanderson",
        "stars": null,
        "price": "$38.45"
    },
    {
        "name": "Passions in Death: An Eve...",
        "author": "J.D. Robb",
        "stars": 4.5,
        "price": "$14.95"
    },
    {
        "name": "Sunrise on the Reaping (A Hunger Games Novel)",
        "author": "Suzanne Collins",
        "stars": null,
        "price": "$19.95"
    },
    {
        "name": "Michael Vey 10: The Colony",
        "author": "Richard Paul Evans",
        "stars": null,
        "price": "$14.95"
    },
    {
        "name": "The Echo Machine: How Right-Wing Extremism...",
        "author": "David Pakman",
        "stars": null,
        "price": "$24.95"
    },
    {
        "name": "The Perfect Crime (A Jessie...",
        "author": null,
        "stars": null,
        "price": "$14.95"
    },
    {
        "name": "Peppermint Peril (A Penny...",
        "author": null,
        "stars": null,
        "price": "$4.99"
    },
    {
        "name": "Lethal Prey",
        "author": "John Sandford",
        "stars": null,
        "price": "$14.95"
    },
    {
        "name": "The Song of Achilles: A Novel",
        "author": "Madeline Miller",
        "stars": 4.7,
        "price": "$3.99"
    },
    {
        "name": "A People's History of the United States",
        "author": "Howard Zinn",
        "stars": 4.1,
        "price": "$4.99"
    },
    {
        "name": "Termination Shock: A Novel",
        "author": "Neal Stephenson",
        "stars": 4.3,
        "price": "$4.99"
    },
    {
        "name": "Mere Christianity",
        "author": "C.S. Lewis",
        "stars": 4.8,
        "price": "$4.99"
    },
        {
        "name": "Local Woman Missing",
        "author": "Mary Kubica",
        "stars": 4.6,
        "price": "$6.99"
    },
    {
        "name": "Murder on the Orient Express: A Hercule Poirot Mystery",
        "author": "Agatha Christie",
        "stars": 4.4,
        "price": "$4.99"
    },
        {
        "name": "The Mountains Sing",
        "author": "Nguyen Phan Que Mai",
        "stars": 1.5,
        "price": "$32.30"
    },
    {
        "name": "The Bands of Mourning",
        "author": "Brandon Sanderson",
        "stars": 4.9,
        "price": "$19.95"
    },
    {
        "name": "The Institute: A Novel",
        "author": "Stephen King",
        "stars": 4.7,
        "price": "$16.95"
    },
        {
        "name": "Tom Lake: A Novel",
        "author": "Ann Patchett",
        "stars": 4.4,
        "price": "$16.95"
    },
    {
        "name": "All the Sinners Bleed: A Novel",
        "author": "S.A. Cosby",
        "stars": 4.7,
        "price": "$14.95"
    },
    {
        "name": "The Black Prism",
        "author": "Brent Weeks",
        "stars": 4.9,
        "price": "$35.99"
    },
    {
        "name": "The Hundred Years' War on Palestine: A History of Settle...",
        "author": "Rashid Khalidi",
        "stars": 4.6,
        "price": "$14.95"
    },
    {
        "name": "War",
        "author": "Bob Woodward",
        "stars": 3.7,
        "price": "$14.95"
    },
    {
        "name": "A People's History of the United States",
        "author": "Howard Zinn",
        "stars": 4.1,
        "price": "$4.99"
    },
    {
        "name": "Confronting the Presidents: No Spin Assessments from...",
        "author": "Bill O'Reilly & Martin Dugard",
        "stars": 4.8,
        "price": "$19.95"
    },
        {
        "name": "Chaos: Charles Manson, the CIA, and the Secret History o...",
        "author": null,
        "stars": 4.8,
        "price": "$29.95"
    },
        {
        "name": "The Demon of Unrest: A Saga of Hubris, Heartbreak, and...",
        "author": "Erik Larson",
        "stars": 3.1,
        "price": "$19.95"
    },
        {
        "name": "A Hidden Secret: A Kate Burkholder Short Story",
        "author": "Linda Castillo",
        "stars": 4.8,
        "price": "$1.99"
    },
    {
        "name": "MrBallen Presents: Strange, Dark & Mysterious: The...",
        "author": null,
        "stars": 5.0,
        "price": "$13.95"
    },
{
        "name": "Angle of Investigation: Three Harry Bosch Stories",
        "author": "Michael Connelly",
        "stars": 4.4,
        "price": "$12.95"
    },
    {
        "name": "Cross Kill: An Alex Cross Story",
        "author": "James Patterson",
        "stars": 4.7,
        "price": "$14.95"
    },
{
        "name": "Detective Cross",
        "author": "James Patterson",
        "stars": 4.6,
        "price": "$14.95"
    },
    {
        "name": "Blood Brothers: A Short Story Exclusive",
        "author": "James Rollins",
        "stars": 5.0,
        "price": "$9.95"
    }
 
]

Prompt no Google AI Studio


Nº 5. Detecção de objetos

Você pode usar o Gemini para detectar objetos em uma imagem e gerar coordenadas de caixas delimitadoras para eles. Os recursos de detecção de objetos do Gemini são particularmente úteis para fixar visualmente a resposta do modelo novamente na imagem e fornecer valor agregado em comparação com modelos especializados, quando necessário, para raciocinar e localizar objetos com base em critérios definidos pelo usuário.

Segue um exemplo de detecção de objetos usando o Gemini 1.5 Pro:

O Gemini detecta cada um dos objetos na imagem e gera a saída das coordenadas de caixas delimitadoras em sua resposta. A imagem abaixo exibe as caixas delimitadoras (usando este bloco de notebook do Colab).

Nº 6. Resumo e transcrição de vídeos

O Gemini tem capacidade para processar vídeos com até 90 minutos de duração, incluindo frames visuais e áudio. Com o Gemini, você pode:

  1. Gerar transcrições e resumos de vídeos.
  2. Extrair dados estruturados de gravações de cenas cotidianas.
  3. Fazer perguntas sobre informações em vídeos.
  4. Identificar e recuperar momentos importantes de vídeos.

Segue um exemplo no qual usamos o Gemini para gerar um resumo de vídeo:

Prompt: Gere notas técnicas da palestra para este vídeo de uma maneira que seja compreensível para um aluno do ensino médio. Você deve seguir estas instruções:

  1. Use as informações mostradas em cada imagem de slide e o áudio para criar as anotações. Deixe claro quando você tiver usado as informações presentes em um slide e preste atenção nos diagramas fornecidos nos slides e descreva-os.
  2. Inclua capítulos claros para as seções da palestra.
  3. Cubra todo o conteúdo de todo o vídeo, do início ao fim, de maneira uniforme.

Resposta:

Here are the technical lecture notes you requested:
 
# **Achieving Rapid Response Times in Large Online Services**
Jeff Dean, Google
 
## **Introduction**
Rapid response times of web applications are important for making them more interactive, fluid, and easy to use for the user. It’s often challenging to keep web apps performing quickly when there’s a large fanout, or the number of servers that need to be contacted in order to fulfill the user’s request. This can be seen in Google Search, where the results page often requires information from thousands of servers to create. This is made even more challenging when Google services are run in a shared environment, or on a large cluster of servers where many different services can be performed. This allows for an array of network issues like traffic congestion, background activity, and spikes in foreground activity for other services being carried out on the same server cluster. 
 
When the latency of applications under these conditions is inspected, they exhibit what's referred to as long-tail latencies. Jeff used an amusing picture of himself on an African safari getting his shirt pulled by a cheetah to illustrate this concept. As he explained, long tail latency means that when you measure the latency of your application and find that it performs quickly on average, the 99th percentile latency could be very long. For example, if your server has a 10 ms average response time and a 99th percentile latency of 1 second, then if you have to get data from only one of those servers, 1% of requests will take more than a second. But when you have to get a response from 100 servers, 63% of your requests will take over a second, since at least one of the servers is likely to be experiencing this high latency.
 
## **Basic Latency Reduction Techniques**
 
Some common ways of dealing with these issues are:
 
* Differentiated service classes: Prioritizing interactive requests and their network traffic much higher than background requests, as this is less likely to affect the user experience if these requests lag.
* Reduce head-of-line blocking: Dividing large requests into many smaller requests to prevent lag for higher-priority requests waiting behind them. 
* Manage expensive background activities: Rate-limiting background activities or delaying them until there’s less traffic on the servers, as these are usually not directly associated with a user request.
 
## **Fault Tolerance vs. Tolerating Variability**
 
The speaker drew an analogy to fault tolerance, a common hardware technique where unreliable parts of the system, like hard drives or a computer's power supply, are used to create a whole reliable system. By analogy, he wants to use unpredictable components that vary greatly in performance to create a predictable and high-performing system. Jeff pointed out that while both fault tolerance and tolerating variability use extra resources, the difference between the two is in the timescale of their variability. The issues that fault tolerance measures are on a scale of tens or hundreds of events per day, while latency tolerance measures thousands of events per second.  
 
## **Latency Tolerating Techniques**
 
Here are two techniques that Jeff describes for minimizing variability in latency:
 
### Cross Request Adaptation
 
* Collect statistics on the system. This could include latency rates, performance of backends, etc.
* Take action to improve the latency of future requests, for example, by load balancing.
* Timescale for these kinds of actions are generally on the order of tens of seconds to minutes. 
 
### Within-Request Adaptation
 
* Within a single high-level request, cope with slow subsystems.
* Timescale for these kinds of actions are generally immediate, while the user is waiting for a request to be fulfilled. 
 
## **Fine-Grained Dynamic Partitioning**
 
One cross request adaption technique that Jeff discussed was fine-grained dynamic partitioning. Normally, if you have ‘n’ servers, you could simply divide the workload into ‘n’ equal pieces, and each server can deal with one piece each, assuming that there’s no shared environment where other things can happen. But once you have a shared environment, the load becomes unpredictable and can result in a server getting overloaded. In the case of a shared environment, it’s recommended to have a server dealing with 10–100 different pieces of work. This allows for very fine-grain load balancing, because if one server is overloaded, one of those pieces of work can be assigned to another server. Another reason for doing this is that it speeds up failure recovery, because when a server dies, whatever it was responsible for is distributed to other machines, and if the workload has been divided into ‘n’ smaller tasks, this recovery process can happen in ‘n’ separate ways simultaneously.
 
## **Selective Replication**
 
Another technique often used by Google is called selective replication, where heavily-used pieces of information in the system are copied to other server clusters. This can be static, where the number of copies is fixed, or dynamic, where the number of copies of a piece of information is increased or decreased depending on the amount of traffic there is in requests associated with that information.
 
## **Latency-Induced Probation**
 
A third technique that Jeff described for dealing with unpredictable latency and interference effects from shared services was what he calls latency-induced probation, or the concept of removing capacity under load to improve latency. The steps for this are:
 
* Recognize that a server is slow to respond, even if it is a high priority server.
* Make a copy of the data in question on another server.
* Send a “shadow stream” of requests to the slow server. These requests are similar to “canary requests” in that they serve as a check to make sure the server is functioning. 
* Once the latency of the slow server has gone down and the “canary” checks show it working, return it to service.
 
## **Backup Requests**
 
Another technique for minimizing latency variability is the use of backup requests, where a client sends a copy of the same request to two or more server clusters in order to improve latency. If one of the servers selected returns the data faster, the client sends a cancellation request for the duplicate request in the other server queue, if it’s possible to maintain information about where the original request was sent. However, the disadvantage of this is that it can double the processing required if two servers begin processing the request at about the same time. In the latter case, the client needs to check if the issue of simultaneous processing occurred, and if so, to send only one copy of the requested data. 
 
The speaker then measured the improvement in latency using two different systems. The first was a loaded server cluster where data was replicated in two in-memory servers, and 1000 requests were spread across 100 tablets. The speaker measured the time it took for all 1000 keys to be retrieved. The second measurement used an almost completely idle system, but with the same parameters: data was replicated in two in-memory servers, 1000 requests were sent across 100 tablets, and the total retrieval time for all 1000 keys was measured.  In both cases, backup requests reduced latency dramatically. The results for both loaded and idle servers, respectively, are shown in the tables below:
 
### Loaded cluster results:
 
| Policy        | Avg      | Std Dev | 95%ile | 99%ile | 99.9%ile |
| ------------- |:--------:|:-------:|:------:|:------:|:--------:|
| No backups    | 33 ms   | 1524 ms| 24 ms  | 52 ms  | 994 ms   |
| Backup after 10 ms | 14 ms   | 4 ms    | 20 ms  | 23 ms  | 50 ms    |
| Backup after 50 ms | 16 ms   | 12 ms   | 57 ms  | 63 ms  | 68 ms    |
 
### Idle cluster results:
 
| Policy        | 50%ile  | 90%ile | 99%ile | 99.9%ile |
| ------------- |:--------:|:-------:|:------:|:--------:|
| No backups    | 19 ms   | 38 ms  | 67 ms  | 98 ms    |
| Backup after 2 ms | 16 ms   | 28 ms  | 38 ms  | 51 ms    |
 
## Conclusion
 
These techniques can make online services more responsive and can dramatically cut down on processing time and costs.

Prompt no Google AI Studio


Nº 7. Extração de vídeos

O Gemini é capaz de extrair informações de vídeos e gerar a saída em formatos estruturados, como listas, tabelas e objetos JSON. Isso é especialmente útil para tarefas como catalogação, detecção de entidades em domínios como varejo, tráfego e segurança doméstica, extração de dados não estruturados de gravações de tela e muito mais.

Prompt no Google AI Studio
Observação: Devido à amostragem de 1 QPS, o modelo pode, ocasionalmente, perder alguns itens em vídeos. Estamos trabalhando para permitir uma amostragem maior de QPS para vídeos em breve. Portanto, por enquanto, recomendamos verificar as saídas para esses casos de uso, se necessário, mas queríamos mostrar alguns exemplos daquilo em que estamos trabalhando e de onde nossos modelos estarão nos próximos meses.


Referências

Para começar a criar com visão na API Gemini, acesse nosso guia para desenvolvedores para dar os primeiros passos. Você também pode participar de nosso fórum para desenvolvedores para conhecer outros criadores, discutir casos de uso e obter ajuda dos participantes da equipe da API Gemini.