Data integration

integrazione di dati eventualmente provenienti da sorgenti distinte ed eterogenee

La locuzione data integration si riferisce ai processi da attuare su dati provenienti da diverse sorgenti informative per fornire all'utente una visione unificata di quei dati.[1]

 
Figura 1: Semplice diagramma di un data warehouse. Il processo ETL estrae informazioni dai database sorgenti, le trasforma e le carica nel data warehouse.
 
Figura 2: Semplice diagramma di una soluzione di data-integration. Un progettista di sistema costruisce uno schema mediato attraverso cui gli utenti possono eseguire le query. Il database virtuale si interfaccia con i database sorgenti attraverso un wrapper, se necessario.

Problemi nella combinazione di fonti di dati eterogenee, spesso identificati come silos di informazioni, attraverso una singola interfaccia per query esistettero per diverso tempo.

Nei primi anni ottanta del XX secolo i tecnici informatici cominciarono a progettare sistemi per l'interoperabilità di basi di dati eterogenee.[2] Il primo sistema di integrazione dei dati guidato da metadati strutturati è stato progettato presso l'Università del Minnesota nel 1991 per Integrated Public Use Microdata Series (IPUMS). IPUMS impiegava un approccio in stile data warehouse che estrae, trasforma e carica i dati provenienti da sorgenti eterogenee in un'unica vista, affinché i dati diventino compatibili.[3] Rendendo interoperabili centinaia di basi di dati relative alla popolazione, IPUMS ha dimostrato la praticabilità di integrazione di dati su larga scala. L'approccio data warehouse offre un'architettura fortemente accoppiata, perché i dati sono già fisicamente riconciliati in un unico archivio interrogabile, in modo che di solito richieda poco tempo risolvere le query.[4]

L'approccio data warehouse è meno realizzabile per insiemi di dati aggiornati frequentemente: ciò richiede la continua esecuzione del processo extract, transform, load (ETL) per la sincronizzazione. Difficoltà nascono anche nella costruzione di data warehouse quando si ha un'interfaccia di interrogazione solo su dati sintetizzati e non si ha accesso alla loro totalità. Questo problema sorge frequentemente quando si integrano diversi servizi di interrogazione commerciale quali viaggi o applicazioni web con pubblicità classificata.

A partire dal 2009 l'andamento nella data integration ha l'accoppiamento tra dati fornendo un'interfaccia unificata per l'accesso ai dati in tempo reale attraverso uno schema intermedio, che consente alle informazioni di essere recuperate direttamente dalle basi di dati originali. Ciò è coerente con l'approccio Service Oriented Architecture, popolare in quel momento. Questo approccio si basa sulla mappatura tra lo schema intermedio e gli schemi delle fonti originali, trasformando una query in query specializzate sugli schemi specifici delle sorgenti originali. Tali mappature possono essere definite in due modi: con una mappatura dalle entità dello schema intermedio alle entità delle fonti originali (approccio "Global As View" (GAV)), o una mappatura dalle entità dei sorgenti originali alle entità dello schema intermedio (approccio "Local As View" (LAV)). Il secondo approccio richiede inferenze più sofisticate per risolvere interrogazioni sullo schema intermedio, ma rende più facile aggiungere nuove fonti di dati a uno (stabile) schema intermedio.

A partire dal 2010 una parte del lavoro di ricerca sull'integrazione dei dati si occupa del problema dell'integrazione semantica. Questo problema non riguarda il modo di strutturare l'architettura di integrazione, bensì il modo di risolvere i conflitti di semantica tra sorgenti di dati eterogenee. Per esempio: se due società fondono i loro database, alcuni concetti e definizioni nei rispettivi schemi, tipo "guadagni", hanno inevitabilmente significati diversi. In un database potrebbe significare profitti in euro (espressi in numero decimale), mentre nell'altro potrebbe rappresentare il numero di vendite (espresse in numero intero). Una strategia comune per la risoluzione di tali problemi implica l'uso di ontologie che definiscano esplicitamente i termini dello schema e quindi aiutino a risolvere i conflitti semantici. Questo approccio rappresenta l'integrazione dei dati basata su ontologie. D'altra parte, il problema di combinare i risultati di ricerca da archivi bioinformatici differenti richiede benchmarking delle somiglianze calcolato a partire da diverse fonti di dati su un unico criterio, per esempio il valore predittivo positivo. Ciò abilita le diverse fonti a un confronto diretto, e possono essere integrate anche quando la natura degli esperimenti è distinta.[5]

A partire dal 2011 ci si è resi conto che i metodi di modellazione dei dati attuali stavano imprimendo l'isolamento dei dati in ogni architettura sotto forma di isole di dati disparati e silos di informazioni. Questo isolamento dei dati è un artefatto involontario della metodologia di modellazione dati che provoca lo sviluppo di modelli di dati dissimili. Modelli di dati dissimili, quando stoccati in basi di dati, formano basi di dati dissimili. Modelli avanzati di dati sono stati sviluppati per eliminare l'artefatto e per promuovere lo sviluppo di modelli di dati integrati.[6][7] Un metodo di modellazione dei dati avanzato rimaneggia i modelli di dati aumentandoli con metadati strutturali, sotto forma di entità di dati standardizzate. Come risultato della riscrittura di modelli multipli di dati, l'insieme dei modelli di dati rimaneggiati condivide uno o più relazioni di omogeneità che riguardano i metadati strutturali ora comuni a questi modelli di dati. Le relazioni di omogeneità sono un tipo di relazione peer-to-peer tra entità, che legano le entità di dati dei modelli multipli standardizzati. I modelli di dati multipli che contengono la stessa entità di dati standard possono partecipare alla stessa relazione di omogeneità. Quando i modelli di dati integrati sono istanziati come banche dati e sono adeguatamente popolati da una serie comune di dati principali, questi database vengono integrati.

Dal 2011, gli approcci di maggiore interesse per la disciplina si sono rivolti maggiormente al data hub rispetto ai data warehouse completamente strutturati (tipicamente relazionali). Dal 2013 gli approcci di tipo data lake sono arrivati al livello dei data hub.(Si vedano le popolarità dei tre termini di ricerca su Google Trends.[8] Questi approcci combinano dati non strutturati o diversi in un'unica posizione, ma non richiedono necessariamente uno schema relazionale principale, spesso complesso, per strutturare e definire tutti i dati contenuti.

Descrizione

modifica

Questo processo si rivela importante in molteplici situazioni, nell'ambito sia commerciale (si pensi a due imprese che debbano unire i loro database) sia scientifico (per esempio, combinare risultati da diversi archivi bioinformatici). La data integration compare con sempre maggior frequenza, allo stesso modo in cui sta esplodendo il volume e la necessità di condividere i dati esistenti.[9] Questa materia è diventata il centro di un ampio lavoro tecnico, e numerosi problemi aperti restano irrisolti.

Esempio

modifica

Si consideri una applicazione web in cui un utente può richiedere una varietà di informazioni sulle città (come statistiche sulla criminalità, meteo, alberghi, demografia, ecc.). Tradizionalmente, le informazioni devono essere memorizzate in un unico database con un singolo schema. Ma ogni singola impresa avrebbe trovato difficile e costoso raccogliere informazioni con tale estensione. Anche se le risorse esistono per raccogliere dati, avrebbero duplicato i dati nei database criminologici, siti web meteorologici e dati di censimento esistenti. Una soluzione di integrazione può affrontare questo problema considerando le risorse esterne come viste materializzate su uno schema virtuale mediato, con conseguente "integrazione dei dati virtuale". Ciò significa che gli sviluppatori dell'applicazione costruiscano uno schema virtuale — lo schema mediato — per meglio modellare il tipo di risposte che i loro utenti desiderano. Successivamente, essi progettano wrapper o adapter per ogni sorgente di dati, come il database criminologico e il sito meteorologico. Questi adapter semplicemente trasformano i risultati delle query locali (quelli restituiti dai rispettivi siti o database) in una forma facilmente elaborata per la soluzione integrata. Quando un utente interroga lo schema mediato, la soluzione integrata trasforma la query in un'appropriata query sulle rispettive sorgenti di dati. Infine, il database virtuale raggruppa i risultati di quelle query nella risposta alla query dell'utente.

Questa soluzione offre il vantaggio di poter aggiungere nuove sorgenti semplicemente costruendo un adapter o un software di contatto apposito. È in contrasto con i sistemi ETL o con una soluzione a unico database, che richiedono integrazione manuale del nuovo intero dataset nel sistema. La soluzione ETL virtuale influenza lo schema virtuale mediato per implementare l'armonizzazione dei dati, per cui i dati sono copiati dalla sorgente designata come "principale" agli obiettivi definiti, campo per campo. La virtualizzazione dati avanzata è costruita anche sul concetto di modellazione orientata agli oggetti, al fine di costruire schemi virtuali mediati o archivi di metadati virtuali utilizzando l'architettura hub and spoke.

Ogni sorgente di dati è variegata e come tale non è progettata per sostenere unioni attendibili con altre sorgenti. Quindi la virtualizzazione dei dati, così come la federazione dei dati, dipende dalla omogeneità fortuita dei dati per supportare la combinazione di dati e informazioni da sorgenti di dati variegati. A causa di questa mancanza di omogeneità tra i dati, l'insieme risultante potrebbe essere impreciso, incompleto o impossibile da validare.

Una soluzione è quella di rimaneggiare i database eterogenei per integrarli senza la necessità di ETL. I database rimaneggiati supportano vincoli di omogeneità in cui l'integrità referenziale può essere forzata tra database. Inoltre questi database rimodellati forniscono vie di accesso ai dati progettati con omogeneità di valori tra database.

Teoria dell'integrazione dei dati

modifica

La teoria dell'integrazione dei dati costituisce un sottoinsieme della teoria delle basi di dati e formalizza i concetti di fondo del problema attraverso la logica del primo ordine. Applicando le teorie dà indicazione circa la fattibilità e la difficoltà di integrazione. Nonostante le sue teorie possano apparire astratte, esse godono di sufficiente generalità per adattarsi a tutti i sistemi di integrazione,[10] compresi quelli che includono relazionale nidificato o basi di dati XML[11] e quelli che trattano i database come programmi[12]. Le connessioni a particolari DBMS quali Oracle o DB2 sono fornite dalle tecnologie a livello di implementazione, come JDBC, e non sono studiate a livello teorico.

Definizioni

modifica

I sistemi di data integration sono formalmente definiti da una tripla   dove   è lo schema globale,   è l'insieme eterogeneo degli schemi sorgente, e   è la mappatura che associa query tra le sorgenti e lo schema globale. Entrambi   e   sono espresse in linguaggio su alfabeti composti da simboli per ognuna delle rispettive relazioni. La mappatura   consiste di asserzioni tra query su   e query su  . Quando gli utenti pongono un'interrogazione sul sistema di data integration, essi pongono interrogazioni su   e la mappatura sostiene le connessioni tra gli elementi nello schema globale e negli schemi sorgenti.

Un database su uno schema è definito come un insieme di insiemi, uno per ogni relazione (in un database relazionale). Il database corrispondente allo schema di origine   dovrebbe comprendere l'insieme di insiemi di tuple per ogni sorgente eterogenea ed è chiamato database sorgente. Si noti che questo singolo database di origine potrebbe in realtà rappresentare una collezione di database disconnessi. Il database corrispondente allo schema virtuale intermedio   è chiamato database globale. Il database locale deve soddisfare la mappatura   rispetto al database sorgente. La legittimità di questa mappatura dipende dalla natura della corrispondenza tra   e  . Esistono due modelli popolari per modellare questa corrispondenza: Vista Globale o GAV e Vista Locale o LAV.

 
Figura 3: Illustrazione dello spazio delle tuple nelle mappature GAV e LAV.[13] In GAV, il sistema è vincolato all'insieme di tuple mappate dai mediatori mentre l'insieme delle tuple esprimibili sulle sorgenti potrebbe essere più vasto e ricco. In LAV, il sistema è vincolato all'insieme delle tuple nelle sorgenti mentre l'insieme delle tuple esprimibili sullo schema globale può essere più vasto. Perciò, i sistemi LAV devono spesso gestire risposte incomplete.

I sistemi GAV modellano il database globale come insieme di viste su  . In questo caso   associa a ogni elemento di   una interrogazione su  . L'elaborazione delle query diventa un'operazione semplice grazie alle associazioni ben definite tra   e  . L'onere della complessità cade sull'implementazione del codice del mediatore in modo che istruisca il sistema di data integration nell'esatta maniera per recuperare elementi dai database sorgenti. Se si aggiungono altre fonti al sistema, può essere richiesto un grande impegno per aggiornare il mediatore, perciò l'approccio GAV sembra preferibile quando le sorgenti hanno una bassa probabilità di cambiare.

Nell'approccio GAV al sistema di data integration nell'esempio, il progettista dovrebbe prima sviluppare mediatori per ciascuna sorgente di informazioni cittadino e poi progettare lo schema globale attorno a questi mediatori. Per esempio, pensiamo se una delle fonti servisse un sito web meteorologico. Il progettista probabilmente aggiungerebbe allo schema globale un elemento corrispondente al meteo. Poi il grosso degli sforzi si concentra sulla scrittura dell'opportuno codice mediatore che trasformi predicati sul meteo in interrogazioni il sito meteorologico. Questo sforzo può diventare complesso se anche qualche altra sorgente ha affinità col meteo, perché il progettista potrebbe avere necessità di scrivere il codice per combinare correttamente i risultati dalle due fonti.

In LAV, invece, il database sorgente è modellato come un insieme di viste  . In questo caso   associa ad ogni elemento di   una interrogazione su  . Qui le esatte associazioni tra   e   non sono più ben definite. Come illustrato nella prossima sezione, l'onere di scegliere come recuperare gli elementi dalle sorgenti ricade sull'elaboratore di query. Il beneficio della modellazione LAV è che nuove sorgenti possono essere aggiunte con molto meno dispendio di energie rispetto ad un sistema GAV, perciò l'approccio LAV dovrebbe essere preferito nei casi in cui lo schema intermedio sia meno stabile o più facilmente mutevole. In un approccio LAV al sistema di data integration dell'esempio precedente, il progettista del sistema progetta lo schema globale e poi semplicemente inserisce gli schemi delle rispettive sorgenti di informazione delle città. Consideriamo ancora che una delle fonti serva un sito web meteorologico: il progettista dovrebbe aggiungere allo schema globale elementi corrispondenti al meteo solo se non esistessero già. Poi i programmatori scriverebbero un adapter o un wrapper per il sito e aggiungerebbero una descrizione dello schema dei risultati del sito agli schemi sorgenti. La complessità di aggiungere nuove sorgenti si sposta dal progettista all'elaboratore di query.

Elaborazione di query

modifica

La teoria dell'elaborazione di query in un sistema di data integration systems è comunemente espressa utilizzando interrogazioni congiuntive interrogazioni e Datalog, un linguaggio di programmazione logica puramente dichiarativo.[14] Si può liberamente pensare ad una query come una funzione logica applicata alle relazioni del database come "  dove  ". Se una tupla o insieme di tuple è sostituito nella regola e la soddisfa (cioè la rende vera), allora consideriamo quella tupla parte dell'insieme di risposte alla query. Mentre il linguaggi formali in stile Datalog esprimono queste query sinteticamente e senza ambiguità, anche le query SQL comuni contano come query congiuntive.

In termini di integrazione dei dati, il "contenimento delle query" rappresenta un'importante proprietà delle query congiuntive. Una query   contiene un'altra query   (in simboli  ) se i risultati di   sono un sottoinsieme dei risultati di   per ogni database. Le due query sono dette equivalenti se gli insiemi risultanti sono uguali per ogni database. Questo è importante perché in entrambi i sistemi GAV e LAV, un utente pone query congiuntive su uno schema virtuale rappresentato da un insieme di viste, o query congiuntive materializzate. L'integrazione si propone di riscrivere le query rappresentate dalle viste al fine di rendere i loro risultati equivalenti o al massimo contenuti nella richiesta del nostro utente. Ciò corrisponde al problema di rispondere a interrogazioni usando le viste.[15]

Nei sistemi GAV, un progettista scrive il codice del mediatore per definire la riscrittura delle query. Ogni elemento nella query dell'utente corrisponde a una regola di sostituzione proprio come ogni elemento nello schema globale corrisponde a una query sulla sorgente. L'elaborazione delle query espande semplicemente i sotto-obiettivi della query dell'utente secondo le regole specificate nel mediatore, perciò la query risultante è probabile che sia equivalente. Mentre il progettista fa la maggior parte del lavoro in anticipo, alcuni sistemi GAV come Tsimmis comportano la semplificazione del processo di descrizione del mediatore.

Nei sistemi LAV, le query vengono sottoposte a un processo più radicale di riscrittura perché non esiste alcun mediatore che allinei le query dell'utente con una semplice strategia di espansione. Il sistema di integrazione deve eseguire una ricerca sullo spazio delle possibili query al fine di trovare la riscrittura migliore. La riscrittura risultante potrebbe non essere una query equivalente, ma massimamente contenuta, e le tuple restituite incomplete. Dal 2009 l'algoritmo MiniCon[15] è l'algoritmo capofila nella riscrittura di query per i sistemi di data integration LAV.

In generale, la complessità di riscrittura delle query è NP-completo.[15] Se lo spazio delle riscritture è relativamente piccolo questo non rappresenta un problema — anche per sistemi di integrazione con centinaia di sorgenti.

Strumenti per data integration

  • Alteryx
  • Analytics Canvas
  • Capsenta's Ultrawrap Platform
  • Cloud Elements API Integration
  • DataWatch
  • dataWerks
  • Denodo Platform
  • elastic.io Integration Platform
  • HiperFabric[16]
  • Microsoft PowerQuery
  • Lavastorm
  • Informatica Platform[17]
  • Oracle Data Integration Services
  • ParseKit (enigma.io)
  • Paxata
  • RapidMinder Studio
  • Red Hat JBoss Data Virtualization. Community project: teiid.
  • Azure Data Factory (ADF)
  • SQL Server Integration Services (SSIS)
  • TMMData[18]
  • WinPure[19]

Data integration nella vita scientifica

modifica

Interrogativi scientifici su larga scala, come il riscaldamento globale, la diffusione di specie infestanti e l'esaurimento delle risorse richiedono sempre più la raccolta di dati eterogenei per la meta-analisi. Questo tipo di integrazione è particolarmente impegnativa per i dati ambientali ed ecologici, perché gli standard sui metadati non concordati e ci sono molti tipi diversi di dati prodotti in questi campi. Le iniziative della National Science Foundation come Datanet hanno lo scopo di facilitare agli scienziati l'integrazione dei dati, fornendo infrastrutture informatiche e impostazioni standard. Le cinque iniziative Datanet finanziate sono:

  1. DataONE, guidata da William Michener presso l'Università del New Mexico;
  2. The Data Conservancy, guidata da Sayeed Choudhury della Johns Hopkins University;
  3. SEAD (Sustainable Environment through Actionable Data), guidata da Margaret Hedstrom dell'Università del Michigan;
  4. DataNet Federation Consortium, guidata da Reagan Moore della University of North Carolina;
  5. Terra Populus, guidata da Steven Ruggles della University of Minnesota;

La The Data Conservancy ha di recente esplorato la creazione di strutture globali di integrazione. Il progetto OpenPHACTS, finanziato attraverso l'Iniziativa su Medicinali Innovativi dell'Unione europea, ha costruito una piattaforma di scoperta di nuovi farmaci collegando dataset da parte di fornitori come l'Istituto europeo di bioinformatica, la Royal Society of Chemistry, la UniProt, WikiPathways e la DrugBank.

  1. ^ Lenzerini, 2002.
  2. ^ John Miles Smith, Multibase: integrating heterogeneous distributed database systems, in AFIPS '81 Proceedings of the May 4–7, 1981, national computer conference, 1982, pp. 487–499.
  3. ^ Steven Ruggles, J. David Hacker, and Matthew Sobek, Order out of Chaos: The Integrated Public Use Microdata Series, in Historical Methods, vol. 28, 1995, pp. 33–39.
  4. ^ Jennifer Widom, Research problems in data warehousing, in CIKM '95 Proceedings of the fourth international conference on information and knowledge management, 1995, pp. 25–30.
  5. ^ Shubhra S. Ray, Combining Multi-Source Information through Functional Annotation based Weighting: Gene Function Prediction in Yeast (PDF), in IEEE Transactions on Biomedical Engineering, vol. 56, n. 2, 2009, pp. 229–236, DOI:10.1109/TBME.2008.2005955, PMID 19272921.
  6. ^ Michael Mireku Kwakye, A Practical Approach To Merging Multidimensional Data Models, 2011.
  7. ^ Rapid Architectural Consolidation Engine – The enterprise solution for disparate data models. (PDF), su iri.com, 2011. URL consultato il 5 dicembre 2016 (archiviato dall'url originale il 24 settembre 2015).
  8. ^ Hub Lake and Warehouse search trends, su google.com.
  9. ^ Frederick Lane, IDC: World Created 161 Billion Gigs of Data in 2006, 2006. URL consultato il 5 dicembre 2016 (archiviato dall'url originale il 24 febbraio 2012).
  10. ^ A Model Theory for Generic Schema Management, su link.springer.com.
  11. ^ Nested Mappings: Schema Mapping Reloaded (PDF), su vldb.org.
  12. ^ The Common Framework Initiative for algebraic specification and development of software (PDF), su homepages.inf.ed.ac.uk.
  13. ^ Christoph Koch, Data Integration against Multiple Evolving Autonomous Schemata (PDF), 2001 (archiviato dall'url originale il 26 settembre 2007).
  14. ^ Jeffrey D. Ullman, Information Integration Using Logical Views (ps), in ICDT 1997, 1997, pp. 19–40.
  15. ^ a b c Alon Y. Halevy, Answering queries using views: A survey (PDF), in The VLDB Journal, 2001, pp. 270–294.
  16. ^ Copia archiviata, su hiperfabric.com. URL consultato il 2 ottobre 2019 (archiviato dall'url originale il 20 marzo 2018).
  17. ^ (EN) Informatica, su informatica.com.
  18. ^ (EN) TMMData, su tmmdata.com.
  19. ^ (EN) WinPure, su winpure.com.

Bibliografia

modifica

Voci correlate

modifica
Controllo di autoritàGND (DE4197730-0
  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica
  NODES
COMMUNITY 1
INTERN 1
Note 2
Project 1
todo 2