Microsoft svela una serie di modelli Florence 2 specializzati nella visione

-

Microsoft sta facendo progressi nello sviluppo dell’intelligenza artificiale adattata ai compiti di visione. Lo scorso novembre, l’azienda ha presentato Florence-2, un modello di base della visione con una rappresentazione unificata basata su prompt per una varietà di attività di visione artificiale. Il modello è in grado di generare risultati sotto forma di testo e, più in particolare, sotto forma di sottotitoli, rilevamento di oggetti o segmentazione. Oggi l’azienda pubblica su Hugging Face una serie di modelli derivati ​​da questo modello fondamentale.

Troviamo così due modelli chiamati Florence-2-base e Florence-2-large pre-addestrati sul dataset FLD-5B creato da Microsoft e comprendente 5,4 miliardi di annotazioni per 126 milioni di immagini, per padroneggiare l’apprendimento multitasking. Inoltre, vengono pubblicate due versioni ottimizzate di questi modelli. Questi LLM hanno un’altra particolarità: sono abbastanza compatti, la versione base ha 230 milioni di parametri mentre la versione large ne ha 770 milioni.

Primi risultati promettenti

Microsoft ha effettuato un benchmark per fornire un primo assaggio delle capacità della sua famiglia di modelli Florence-2. Nei punteggi dei benchmark, notiamo che, per le sue dimensioni, è forte nei sottotitoli. Esistono però modelli più grandi che funzionano meglio. Ad esempio, sul set di dati COCO, le versioni 232M e 770M di Florence-2 hanno sovraperformato il modello di linguaggio visivo Flamingo da 80 miliardi di parametri di Deepmind con punteggi rispettivamente di 133 e 135,6. Il modello funziona bene anche nella risposta visiva alle domande. I modelli più grandi a volte funzionano meglio, ma certamente non sempre. Nel test di rilevamento di oggetti singoli è stato battuto da UNINEXT.

Questo esempio illustrativo mostra un’immagine e le annotazioni corrispondenti nel set di dati FLD-5B. Ogni immagine in FLD-5B è annotata con testo, coppie area-testo e triple area testo-frase dal motore di dati di Florence, che abbraccia più gerarchie spaziali, granularità progressiva da breve a dettagliato e un ampio spettro semantico, per una maggiore comprensione visiva completa.

Una strategia che dà i suoi frutti

L’azienda fa affidamento su una strategia iterativa di annotazione automatizzata delle immagini e messa a punto del modello per ottenere risultati conclusivi. “Abbiamo adottato una struttura sequenza per sequenza per addestrare Florence-2 a eseguire compiti di visione versatili e completi. Valutazioni approfondite su numerosi compiti hanno dimostrato che Florence-2 è un forte contendente come modello di visione di base, caratterizzato da zero-shot e precisione senza precedenti -capacità di ottimizzazione, aggiunge.

Tieni presente che il modello è disponibile sotto la licenza permissiva del MIT, che consente la distribuzione e la modifica illimitate per uso commerciale o privato.

Selezionato per te


-

NEXT OpenAI lancia GPT critico per correggere GPT-4