Googles Gemini Pro 1.5 kan nu både høre og se

Gemini Pro 1.5

Google har opdateret deres ekstremt kraftige Gemini Pro 1.5 AI-model, så den nu også kan forstå indholdet i lyd- og videofiler.

Denne nyhed blev annonceret ved Google Next, hvor det blev bekræftet, at modellen kan analysere et uploadet klip og levere oplysninger, selv uden en tekstudskrift.

Dette åbner op for muligheden for at lave en video-præsentation til modellen og derefter spørge ind til specifikke detaljer vedrørende både lyd- og videosekvenserne i klippet.

Dette tiltag er en del af Googles strategi om at udvikle multimodale modeller, der kan fortolke forskellige typer af input, ikke kun tekst. Dette er gjort muligt gennom Gemini-familiens modeller, som trænes til at forstå lyd, video, tekst, og kode simultant.

Hvad er nyt i Gemini Pro 1.5?

Google introducerede Gemini Pro 1.5 tilbage i februar, udstyret med et kontekstvindue på op til 1 million tokens, hvilket, sammen med dens evne til at trække på multimodale træningsdata, gør det muligt for modellen at analysere videoer. Nu har teknologivirksomheden udvidet modelens kapaciteter til også at omfatte lydinput. Dette giver brugerne mulighed for at fremlægge en podcast for modellen, hvorefter den kan identificere og fokusere på nøglemomenter eller specifikke nævnelser. Denne funktionalitet gælder ligeledes for lyden i videofiler, samtidig med at modellen analyserer videoindholdet.

Den seneste opdatering er en udvikling inden for Gemini-modelserien, som præsenteres i tre udgaver: den kompakte Nano til brug direkte på enheder, Pro-versionen, der driver den gratis version af Gemini-chatbotten, og Ultra, som er kernen i Gemini Advanced.

Interessant nok har Google valgt kun at frigive 1.5-opdateringen til Gemini Pro og ikke til Ultra, hvilket placerer denne mellemniveaumodel foran den mere avancerede version i visse aspekter. Det er endnu uklart, om der kommer en 1.5-opdatering til Gemini Ultra, eller hvornår den eventuelt ville blive tilgængelig.

Det imponerende store kontekstvindue, der starter ved 250.000 tokens (på niveau med Claude 3 Opus) og kan øges til over en million for visse godkendte brugere, eliminerer behovet for at finjustere modellen på specifikke datasæt. Brugerne kan indlæse disse data ved starten af en chat og derefter stille spørgsmål direkte.

Opdateringen udvider også Geminis evner til at generere transskriptioner af videoklip, uanset deres længde, og til at identificere specifikke øjeblikke i både lyd- og videoindhold.

About Anders Buhl 969 Articles
Anders Buhl er manden bag Tech Til Alle. Anders har en baggrund i kommunikation og har derudover tidligere arbejdet med Apple-produkter. Han har en stor interesse inden for mange områder af teknologi og har skrevet om tech og forbrugerelektronik i mange år.

Be the first to comment

Leave a Reply

Din email adresse vil ikke blive vist offentligt.




This site uses Akismet to reduce spam. Learn how your comment data is processed.