una soluzione unificata e intelligente per l’ingegneria dei dati

una soluzione unificata e intelligente per l’ingegneria dei dati
una soluzione unificata e intelligente per l’ingegneria dei dati
-

Databricks, la società di dati e intelligenza artificiale, ha annunciato oggi il lancio di Databricks LakeFlow, una nuova soluzione che unifica e semplifica tutti gli aspetti dell’ingegneria dei dati, dall’immissione dei dati alla trasformazione e all’orchestrazione. Con LakeFlow, i data team possono ora importare in modo semplice ed efficiente dati su larga scala da database come MySQL, Postgres e Oracle e applicazioni aziendali come Salesforce, Dynamics, Sharepoint, Workday, NetSuite e Google Analytics. Databricks introduce inoltre la modalità Real Time per Apache SparkTM, che consente l’elaborazione dello streaming a latenza estremamente bassa.

LakeFlow automatizza la distribuzione, il funzionamento e il monitoraggio di pipeline su scala di produzione con supporto CI/CD integrato e flussi di lavoro avanzati che supportano l’attivazione, la ramificazione e l’esecuzione condizionale. I controlli sulla qualità dei dati e il monitoraggio dello stato sono integrati in sistemi di avviso come PagerDuty. LakeFlow rende semplice ed efficiente la creazione e il funzionamento di pipeline di dati di livello produttivo, affrontando i casi d’uso di ingegneria dei dati più complessi, consentendo ai team di dati più impegnati di soddisfare la crescita della domanda di dati affidabili e intelligenza artificiale.

Affronta le sfide legate alla creazione e alla gestione di pipeline di dati affidabili

L’ingegneria dei dati è essenziale per democratizzare i dati e l’intelligenza artificiale all’interno delle aziende, ma rimane un’area difficile e complessa. I data team devono acquisire dati da sistemi isolati e spesso proprietari, inclusi database e applicazioni aziendali, il che spesso richiede la creazione di connettori complessi e fragili. Inoltre, la preparazione dei dati implica il mantenimento di una logica complessa e gli errori e i picchi di latenza possono portare a interruzioni operative e clienti insoddisfatti. L’implementazione delle pipeline e il monitoraggio della qualità dei dati richiedono in genere strumenti aggiuntivi e disparati, complicando ulteriormente il processo. Le soluzioni esistenti sono frammentate e incomplete, il che porta a una bassa qualità dei dati, problemi di affidabilità, costi elevati e un crescente arretrato.

LakeFlow affronta queste sfide semplificando tutti gli aspetti dell’ingegneria dei dati attraverso un’unica esperienza unificata basata sulla piattaforma Databricks Data Intelligence con profonde integrazioni con Unity Catalog per la governance end-to-end e l’elaborazione serverless che consentono un’esecuzione altamente efficiente e scalabile.

Caratteristiche principali di LakeFlow

LakeFlow Connect: acquisizione di dati semplice e scalabile da qualsiasi origine dati. LakeFlow Connect offre un’ampia gamma di connettori nativi e scalabili per database come MySQL, Postgres, SQL Server e Oracle, nonché applicazioni aziendali come Salesforce, Dynamics, Sharepoint, Workday e NetSuite. Questi connettori sono completamente integrati con Unity Catalog, consentendo una forte governance dei dati. LakeFlow Connect incorpora le funzionalità a bassa latenza e ad alta efficienza di Arcion, acquisita da Databricks nel novembre 2023. LakeFlow Connect rende tutti i dati, indipendentemente dalla dimensione, dal formato o dalla posizione, disponibili per l’analisi batch e in tempo reale.

LakeFlow Pipelines: semplificazione e automazione delle pipeline di dati in tempo reale. Basato sulla tecnologia Delta Live Tables altamente scalabile di Databricks, LakeFlow Pipelines consente ai team di dati di implementare la trasformazione dei dati e l’ETL in SQL o Python. I clienti possono ora abilitare la modalità in tempo reale per lo streaming a bassa latenza senza alcuna modifica del codice. LakeFlow elimina la necessità di orchestrazione manuale e unifica l’elaborazione batch e flusso. Offre un’elaborazione dati incrementale per un rapporto prezzo/prestazioni ottimale. LakeFlow Pipelines semplifica la creazione e il funzionamento anche delle trasformazioni di dati in streaming e batch più complesse.

LakeFlow Jobs: orchestra i flussi di lavoro nella piattaforma Data Intelligence. LakeFlow Jobs fornisce orchestrazione, integrità e distribuzione dei dati automatizzati, dalla pianificazione di notebook e query SQL alla formazione ML e all’aggiornamento automatico del dashboard. Fornisce funzionalità avanzate del flusso di controllo e osservabilità completa per aiutare a rilevare, diagnosticare e mitigare i problemi dei dati per migliorare l’affidabilità della pipeline. LakeFlow Jobs automatizza la distribuzione, l’orchestrazione e il monitoraggio delle pipeline di dati in un unico posto, consentendo ai team di dati di mantenere più facilmente le promesse di consegna dei dati.

Disponibilità

Con LakeFlow, il futuro dell’ingegneria dei dati è unificato e intelligente. LakeFlow sarà presto disponibile in anteprima, a partire da LakeFlow Connect.

-

PREV La Germania punta sui negoziati UE-Cina per evitare la guerra commerciale – Euractiv FR
NEXT Wall Street: nessuna novità ma la locomotiva Nvidia crolla