OLEUM Databank
Ai giorni nostri si evidenzia una crescente competizione sul mercato, dovuta anche alla globalizzazione, ed una sempre maggiore attenzione e consapevolezza da parte dei consumatori nei confronti della qualità degli alimenti; in questo contesto, gli organismi che si occupano di controllo alimentare stanno affrontando una grande sfida, ovvero quella di garantire la sicurezza dei prodotti alimentari in tutto il mondo, assicurandone l'autenticità e la qualità.
Tra gli obiettivi del progetto europeo H2020 OLEUM, non vi è solo la messa a punto di numerose tecniche analitiche innovative e robuste allo scopo di fornire protocolli analitici armonizzati; anche un database, denominato OLEUM Databank, è in fase di implementazione. Lo scopo di tale Databank sarà quello di fornire una piattaforma condivisa agli organismi di controllo europei, contenente risultati analitici insieme ad informazioni aggiuntive (metadati) sui campioni di olio analizzati nell’ambito del progetto. La disponibilità di questi dati consentirà una più efficace collaborazione e migliorerà la competenza dei laboratori di controllo qualità in Europa, nonché un’armonizzazione globale. L’OLEUM Databank consentirà di facilitare il confronto dei risultati ottenuti nell’ambito di diverse ricerche, condividendo dati di riferimento, curve di calibrazione e persino spettri o cromatogrammi. A parte le problematiche riguardanti l'architettura di questa banca dati, una sfida rilevante è far fronte a dati eterogenei fra loro che verranno caricati. L’OLEUM Databank non solo consente di caricare e condividere misurazioni analitiche ma anche di esaminarle, anche se il software proprietario che ha acquisito i dati non sarà pienamente disponibile a tutti gli utenti. Oltre 20 diverse tecniche analitiche produrranno dati e misurazioni salvati in più di 20 formati diversi; questo numero è destinato ad aumentare a causa del fatto che, nella maggior parte dei casi, l’offerta di strumenti analitici da parte dei diversi fornitori è estremamente varia.
Figura 1: Risultati analitici di diversa natura verranno caricati nell‘OLEUM Databank e condivisi tra gli stakeholder.
L’attività iniziale, svolta nell'ambito task 5.3 del progetto, consisteva nel raccogliere alcuni file di esempio, relativi a dati grezzi di misurazione, da alcuni dei partner coinvolti in attività analitiche. La maggior parte di questi file non è disponibile in un formato aperto, ma in quello proprietario riconducibile al venditore dello strumento impiegato per acquisire i dati. Alcuni di questi file collezionati potevano già essere letti dal software OpenChrom; tuttavia molti di essi dovevano essere decodificati per renderli accessibili. Circa il 70% dei file forniti è stato reso accessibile, mentre l'80% può essere letto almeno parzialmente. La decodifica dei formati dei file per scopi di interoperabilità rappresenta un'attività progettuale tuttora in corso.
A partire da settembre 2018, la versione beta dell’OLEUM Databank è online e testata da alcuni partner. Si prevede di consentire l'accesso al database a tutti i partner di progetto in tempi rapidi, così da avere una più ampia valutazione.
Tutti i componenti software implementati nel database sono stati selezionati considerando la necessità di essere open source. Nell’implementazione dell'interfaccia utente attualmente disponibile per la versione beta del database è stato esaminato il processo di creazione e gestione dei dati che devono essere disponibili, in modo tale che i partner di progetto abbiano la massima flessibilità possibile per inserire metadati estremamente eterogenei associati ai campioni di riferimento e a ciascuna delle varie procedure analitiche. Tenendo presente che l’OLEUM Databank sarà utile solo se le informazioni in esso contenuto saranno riconducibili a risultati analitici, attualmente sono presenti tre diverse sezioni per la gestione dei dati:
- Gestisci Campioni (“Manage Samples”): qui gli utenti aggiungono i metadati dei campioni che sono stati analizzati nell’ambito del progetto applicando diverse tecniche analitiche e i cui risultati / dati grezzi verranno forniti e caricati nel database. I campi di inserimento delle informazioni richieste sono preimpostati: alcuni sono obbligatori ed altri facoltativi.
- Gestisci Tecniche (“Manage Techniques”): questa sezione ha lo scopo di creare tutti i campi di metadati necessari per ciascuna tecnica analitica pertinente. Poiché i metadati richiesti per le varie tecniche analitiche sono estremamente diversi fra loro, i campi non sono stati preimpostati. Ciò consente di creare moduli personalizzati per raccogliere i metadati necessari per ciascun dato di misurazione fornito.
Figura 2: Gestisci Analisi (“Manage Analysis“) – esempio di interfaccia per l’inserimento di metadati per la tecnica analitica SPME-GC-FID.
- Gestisci Analisi: questa sezione consente il caricamento di dati grezzi, risultati, ecc. Inoltre, colui che fornisce i dati deve caricare qui anche i metadati sull'analisi; questo è possibile solo se il modulo corrispondente della tecnica analitica applicata è stato creato e reso disponibile nella sezione "Gestisci tecniche".
Grande attenzione e rilevanza è stata posta sulla gestione dei diritti degli utenti. E’ importante, infatti, che l’amministratore provveda ad una definizione dei diritti di accesso dati per ciascun utente. In prima analisi sembra sufficiente avere a disposizione solo tre diversi livelli utente con diritti prestabiliti: "amministratori" - con accesso completo a tutti i livelli, "fornitori di dati" - con accesso a tutte le funzionalità che consentono il caricamento di dati e "utenti registrati" - in grado di visionare tutti i dati contenuti nel database. Allo stato attuale del progetto non è ancora stato definito quali diritti debbano essere esattamente forniti ai "fornitore di dati" e all'utente "di base" e se debba esserci un accesso limitato per gli utenti non registrati.
Una delle problematiche attuali nello sviluppo del database consiste nel caricamento dei dati per cartelle da 2 a 4 GB, come nel caso di risultati ottenuti, ad esempio, da un GC-QTOF-MS; questo rimarrà sicuramente legato alla qualità e alla velocità della connessione internet, nonché alle caratteristiche tecniche del computer con cui vengono caricati i dati.
L'interfaccia per la ricerca nel database che è stata implementata in questa fase è ancora una versione basica. In funzione dei riscontri, ricevuti da parte di tutti i partner di progetto, sulla versione beta del database, l'implementazione della funzionalità di ricerca e la possibilità di revisionare i contenuti del database saranno sviluppate nei prossimi mesi.
Andreas Klinberg (Lablicate) e Alain Maquet (JRC-IRMM).