Questa opera segue il Syllabus ICDL (International Certification of Digital Literacy) Database Basic ed Advanced, ampliato secondo il documento su Curriculum Guidelines for Undergraduate Degree Programs in Computer Science del 20 Dicembre 2013 di Association for Computing Machinery e IEEE Computer Society.
L’obiettivo è quello di facilitare il percorso di formazione personale per un lettore di lingua madre italiana.
Per quanto riguarda gli aspetti legati al saper fare (le competenze) , alcuni usano Microsoft Access, non professionale e con una versione di SQL non standard.
Questo testo utilizza MySQL e SQLite. Sono professionali, open source, totalmente gratuiti e ad ampia diffusione e facili da installare. Questo soddisfa le competenze dei moduli ICDL. Resta comunque il problema di come utilizzare tali dati.
Per farlo oggi bisogna padroneggiare il linguaggio Python o il linguaggio R, che richiedono tempi di apprendimento e ritardano l’inizio della pratica di settimane. Esiste una terza possibilità: usare ambienti visuali che permettano di fare applicazioni senza conoscere alcun linguaggio. Orange è uno di questi . E’ visuale ma è basato su Python, permette di fare applicazioni senza conoscere il linguaggio ma permette anche di ampliare l’applicazione se e quando si conosce Python. Inoltre MySQL e SQLite coesistono con Python ed Orange Data Mining.
Questo testo usa Orange come ambiente di sperimentazione ed esercitazione nella Scienza dei Dati. E’ possibile decidere di non installare Orange nel caso in cui si sia interessati esclusivamente ad SQL. In questo caso il lettore sarà libero di saltare le esercitazioni applicative con Orange e di ritornarvi in seguito qualora ne senta il bisogno.
E’ opportuno chiarire che questo testo segue il Syllabus ICDL e fornisce le competenze associate ai moduli in questione, ma non è in grado di garantire che il lettore sia in grado di superare automaticamente l’esame di certificazione. Esso infatti richiede l’acquisto di una skill card, l’iscrizione a un test center, il rispetto di una serie di regole dettate dalle organizzazioni nazionali membre dell’ICDL consortium e dal test center, e tutto questo è fuori da quanto possiamo garantire.
Dopo aver descritto l’installazione dei programmi usati per gli esercizi, il testo considera le tipologie dei dati e le loro rappresentazioni, incluse immagini e documenti. Vengono introdotti i concetti di Sistema, Sistema Informativo e Data Base e le pratiche più comuni di sicurezza e privacy dei dati. Il modello relazionale ed SQL viene spiegato anche con esempi applicativi con MySQL ed SQLite.
Vengono quindi analizzati i vari tipi di Join, le query di ordinamento, aggregazione e raggruppmento, i vincoli di integrità , le funzionalità di sicurezza GRANT e REVOKE, le viste, l’indicizzazione, le Forme normali e la Normalizzazione.
Viene poi considerato l’accesso multiutente a Data Bases, l’interferenza ed il deadlock e le tecniche di locking e le transazioni. Sono descritti quindi i Data Base Distribuiti e le opzioni possibili con MySQL ed SQLite.
Vengono delineati i limiti del modello relazionale e i più comuni modelli non relazionali (NOSQL) , I modelli concettuali Entità-Relazione e ad oggetti secondo ISO/UM ed il processo per passare dal testo del problema al modello concettuale e logico relazionale.
Viene delineato il processo di integrazione dei dati anche con l’uso di datawarehouses, data lakes e mediators, la pulizia dei dati, la gestione dei valori mancanti, ripetuti, anomali ed errati, la codifica dei valori categoriali. Infine vengono distinti gli obiettivi di progetto in funzione del miglior modello, se relazionale o non relazionale.
Il testo è corredato di materiale di supporto ed è possibile scaricare gli esempi e i dati di prova.