yt2doc – Per trascrivere i tuoi video in documenti Markdown | Fonte aperta

Sunday 24th November 2024 08:42 AM

Sei stanco di passare ore a trascrivere manualmente i tuoi video YouTube? O forse stai cercando un modo efficace per trasformare i tuoi podcast in post di blog? Bene, ho una buona notizia per te: yt2doc è qui per semplificare il tuo flusso di lavoro!

È uno strumento in grado di trasformare automaticamente qualsiasi video o podcast di YouTube in un documento Markdown perfettamente strutturato, con paragrafi, capitoli e persino titoli generati dall'intelligenza artificiale.

Sviluppato dal talentuoso Shun Liang, questo strumento open Source è un vero assistente virtuale per tutti i creatori di contenuti, giornalisti, studenti o semplicemente curiosi che desiderano sfruttare al meglio le risorse audio e video disponibili online. Inoltre, yt2doc è progettato per funzionare interamente a livello locale, senza fare affidamento su API esterne, il che garantisce la riservatezza dei tuoi dati.

yt2doc fa affidamento sul potere di Sussurroil modello di riconoscimento vocale sviluppato da OpenAI. Grazie ad esso, lo strumento è in grado di trascrivere il contenuto audio dei tuoi video o podcast con notevole precisione. Ma dove yt2doc Ciò che risalta davvero è la post-elaborazione di questa trascrizione grezza.

In effetti, la maggior parte degli strumenti di trascrizione esistenti sono principalmente orientati alla generazione di sottotitoli e spesso forniscono un blocco continuo di testo senza interruzioni di riga o segmentazione, rendendo difficile la lettura. Whisper, ad esempio, non genera interruzioni di riga nelle sue trascrizioni. Senza la post-elaborazione, ti ritroverai con un enorme blocco di testo indigeribile.

yt2docda parte sua, dà priorità alla leggibilità. Va oltre, strutturando in modo intelligente i contenuti per creare un documento di facile lettura. Per fare questo, usa Segmenta qualsiasi testo (SaT)una libreria specializzata nella segmentazione del testo. Grazie ad esso, la tua trascrizione viene automaticamente divisa in frasi e paragrafi logici, il che rende la lettura molto più piacevole e naturale. Inoltre, hai la possibilità di personalizzare il modello SaT utilizzato in base alle tue preferenze.

E se il tuo video non è già suddiviso in capitoli (come spesso accade, ad esempio, per i podcast), yt2doc può utilizzare un modello linguistico (LLM) per generare automaticamente titoli di capitoli pertinenti. È come avere un assistente al montaggio integrato! I modelli leggeri che funzionano bene includono: gemma2:9b, lama3.1:8b et qwen 2.5:7b.

Lo avrai capito, yt2doc non è un semplice strumento di trascrizione, ma una vera soluzione all-in-one per trasformare i tuoi contenuti audio e video in documenti strutturati e utilizzabili.

Prima di installarlo, assicurati di averlo ffmpeg installato sul tuo sistema. Questo è un prerequisito essenziale per yt2doc può funzionare correttamente. ffmpeg viene utilizzato per elaborare flussi audio e video. Se non lo hai già fatto, ecco i comandi per installarlo:

Su macOS:

brew install ffmpeg

Su Debian/Ubuntu:

sudo apt install ffmpeg

Quindi puoi installare yt2doc. Il metodo consigliato è quello di utilizzare pipxuno strumento utile per installare applicazioni Python in ambienti isolati:

pipx install yt2doc

Se preferisci usare uvun gestore di pacchetti Python superveloce, è anche possibile:

uv tool install yt2doc

Per ottenere assistenza sull'utilizzo dello strumento, puoi utilizzare il comando:

yt2doc --help

Ora quello yt2doc è installato, vediamo come usarlo. Il comando di base per trascrivere un video di YouTube è:

yt2doc --video

Ad esempio, se vuoi trascrivere un discorso TED, potresti usare:

yt2doc --video

Per impostazione predefinita, yt2doc visualizzerà la trascrizione direttamente nel tuo terminale. Ma puoi ovviamente salvare il risultato in un file Markdown per consultarlo successivamente:

yt2doc --video -o ma_transcription.md

E se volessi trascrivere un'intera playlist di YouTube? Nessun problema :

yt2doc --playlist -o dossier_de_sortie

Come ho detto nella mia introduzione, una delle caratteristiche più interessanti di yt2doc è la sua capacità di segmentare e dividere in capitoli automaticamente i video che non sono già suddivisi in capitoli. Per questo avrai bisognoEssereuno strumento che consente di eseguire modelli linguistici localmente. Una volta Essere installato e configurato, è possibile utilizzare il seguente comando:

yt2doc --video --segment-unchaptered --llm-model

Ad esempio, con il modello gemma2:9b :

yt2doc --video --segment-unchaptered --llm-model gemma2:9b

Questo comando non solo trascriverà il video, ma lo taglierà anche in capitoli logici con titoli generati dall'intelligenza artificiale. Ciò è particolarmente utile per video lunghi o podcast che non hanno capitoli predefiniti.

yt2doc non è limitato a YouTube. Puoi anche usarlo per trascrivere gli episodi dei podcast su Apple Podcast:

yt2doc --audio --segment-unchaptered --llm-model

Un altro aspetto interessante di yt2doc è la sua flessibilità in termini di configurazione. Per impostazione predefinita utilizza sussurro più veloce come backend di trascrizione, ma puoi regolare varie impostazioni per ottimizzare le prestazioni a seconda del tuo hardware:

bashyt2doc --video --whisper-model --whisper-device --whisper-compute-type

Le opzioni per --whisper-model, --whisper-device et --whisper-compute-type sono dettagliati nella documentazione di Faster-Whisper.

Se utilizzi un Mac con chip Apple Silicon, puoi sfruttare sussurro.cpp per prestazioni ancora migliori, poiché sfrutta la GPU integrata di Apple. Il supporto di sussurro.cpp è stato implementato in yt2doc :

yt2doc --video --whisper-backend whisper_cpp --whisper-cpp-executable --whisper-cpp-model

Come accennato in precedenza, yt2doc utilizzare Segmenta qualsiasi testo (SaT) segmentare la trascrizione in frasi e paragrafi. È inoltre possibile personalizzare il modello SaT utilizzato:

yt2doc --video --sat-model

L'elenco dei modelli SaT disponibili è accessibile qui.

Lo avrai capito, yt2doc è uno strumento estremamente potente e flessibile che può adattarsi a una moltitudine di casi d'uso. Ma come ogni strumento basato sull'intelligenza artificiale, yt2doc non è perfetto. La qualità della trascrizione dipenderà sempre dalla qualità audio della sorgente e i titoli generati automaticamente potrebbero talvolta richiedere alcune regolazioni manuali. Ebbene, rispetto al tempo che risparmi, questi piccoli inconvenienti sono davvero trascurabili!

Mille grazie a NiKo per le informazioni! Puoi seguirlo su Twitter @N1K0 per scoperte tecnologiche più entusiasmanti.

Fonte