FASE 1

Optimització de l'estructura i fiabilitat de les dades

Per què aquesta fase és clau i necessària?

És la fase on posem els pilars del projecte que sustentaran totes les accions i fases posteriors. Si les dades que utilitzem no són fiables, rigoroses i no aporten valor al projecte provocant soroll o confusions, l’anàlisi posterior estarà coix, esbiaixat i podrà conduir a conclusions errònies. És un tema de responsabilitat començar per aquí perquè tot el que desenvolupem posteriorment vindrà condicionat per la feina que fem en aquesta part.

Per això, és molt important dedicar-hi el temps i l’atenció que es mereix (i sovint no es fa). Començant amb una petita auditoria on ens centrem a entendre el projecte i en quin estat es troben les seves dades. Aquesta informació ens donarà un coneixement clau per detectar oportunitats, crear l’estratègia, entendre quines necessitats i reptes tenim i les eines que haurem d’utilitzar per superar-los. Així podrem començar a construir i dissenyar la base de dades, recopilar-les i fer el tractament i les automatitzacions que requereixin cada una d’elles amb seguretat, rigor i transparència.

Sí, és una inversió de temps a l’inici que demana una mica de paciència perquè els resultats d’aquesta fase s’obtindran en les etapes posteriors. Però si la treballem amb consciència i en equip aconseguirem tenir un projecte robust i escalable recuperant el temps invertit en les següents fases.
Estem cuidant les arrels per assegurar-nos que l’arbre pugui créixer robust, aguanti contratemps i pugui florir deixant flors i fruits (anàlisi de dades) que els puguin aprofitar altres també (beneficiàries del projecte).
  • Tenir clar l’objectiu final del projecte (què estem buscant amb aquest projecte de dades).
  • Com ho farem per arribar a aquest objectiu (full de ruta, objectius secundaris…).
  • Documentar-ho.
  • Quines dades tenim, quines recopilarem (descripció, com i d’on s’extreuen i el perquè les recollim).
  • Qui participa durant el cicle de la dada (organigrama des de qui l’obté, qui la registra i qui la utilitza).
  • Definir els protocols de les dades (documentació):
    • Qualitat i tractament de les dades.
    • Quines plataformes i tècniques usarem.
    • Qui tindrà accés a què (clients, gestors, departaments…).
  • Tenir identificades les dades a registrar (columnes / variables / atributs).
  • Tenir clar el tipus de dades i com identificar cada registre de forma única.
  • Fer el procés ETL i documentar-lo.
  • Reduir el màxim els registres manuals per evitar errors i temps.
  • Optimitzar el codi perquè el resultat sigui el més automàtic i ràpid possible.
  • Crear funcions per corregir de forma automàtica possibles errates en registrar les dades.

Defenso, que quan t’incorpores a qualsevol projecte és imprescindible dedicar temps i esforç a fer una immersió per entendre a fons el projecte i totes aquelles característiques o atributs claus que el defineixen.

En el cas de les dades encara s’accentua més aprofundir en aquest aspecte perquè com més entenem el projecte, més preparats estarem per poder resoldre les seves necessitats i extreure’n coneixement a partir d’elles en les següents fases. Tot està relacionat.

Per fer-ho, jo em proposo ser capaç de respondre les preguntes següents:

  • Què fa l’empresa (a què es dedica) i quin és l’objectiu concret del projecte (per què em vols contractar?, si hi ha més d’un, prioritzar).
  • Com ho fa? (quines metodologies utilitza, que necessita per fer-ho?).
  • Qui ho fa? (quins agents estan implicats i que fa cada un? Quins d’aquests participaren en el nostre projecte?).
  • On ho fa (a on es construeix i executa el projecte? Quin és el circuit?
  • Quan ho fa? (Ho fa durant tot l’any independentment de l’estació, mes, dia o hora? Ho fa de la mateixa manera?).
  • Per què ho fa? (quina és la necessitat que soluciona, quin és el motiu en què es fa d’aquesta manera).

Beneficis

És la part més tècnica d’aquesta primera fase. Ara que ja coneixem el projecte, estem preparats per avaluar les dades. Utilitzarem la programació per cuidar el valor i la qualitat de les dades i poder fer automatitzacions per optimitzar recursos i temps a llarg termini.

Tot i ser una part tècnica, per mi és clau combinar autonomia més treball en equip.Per construir la base del projecte, veig necessària la cocreació. Combinarem els coneixements i les perspectives dels diferents membres de l’equip que participin en el cicle de la dada, ja sigui que la registren (científics, tècnics, enquestadors…), les netegen i les transformen (especialistes en dades), les utilitzen (directius, comunicació, científics, logística…) o són usuàries finals sense coneixements tècnics (beneficiàries, població…).

L’objectiu és aconseguir que aquest procés sigui el més automatitzat possible i ens alerti quan hi ha un problema en la base de dades que caldrà observar detingudament i decidir com gestionar-lo. Aquest procés també és conegut com a ETL que prové de sigles en anglès i signifiquen Extreure, Transformar i Carregar.

  • Extract: Recopilar les dades de diferents fonts (bases de dades, arxius, APIs…) per preparar-les pel seu processament.
  • Transformar: Tractar totes aquelles dades que puguin generar errors a l’hora de ser processades (intel·ligibles per les màquines) com ara:
    • Detectar possibles errors, duplicats, redundàncies, unificació de criteris tipogràfics…
    • Valors atípics (outliers), valors faltants (Nulls), valors que son text passar-los a nombres (dummies)…
    • Assegurar-se que el tipus de dada és el correcte: hores, dates, objectes (o text)…
    • Crear noves columnes a partir d’altres.
  • Load: Un cop tenim les dades tractades (netes després del procés anterior) ja podem començar la seva anàlisi i poder-ne extreure coneixement i valor tornant-les a carregar en un conjunt de dades (dataset) polit.

Beneficis

És la part més estratègica i conceptual d’un projecte de dades. Dissenyarem conjuntament amb representants de diferents departaments del projecte, l’estructura i la gestió del circuit i cicle de les dades dins del projecte que, com a mínim, han de donar resposta a aquestes preguntes:

  • Què volem aconseguir i com ho farem?
  • Què necessitem per fer-ho?
  • Quins protocols seguirem?
  • Quines eines utilitzarem?

Pot semblar una part tediosa del projecte (i en part ho és) però és altament necessària per tenir clars els objectius i com arribar-hi. Entre altres coses és aquí on prendrem decisions que afectaran a totes les parts del projecte, des de l’enginyeria de dades a l’anàlisi de dades i, per tant, la posterior creació d’algorismes o models predictius:

  • Estructurarem l’esquema de les dades: quines es recullen, com s’emmagatzemen i es categoritzen, quins atributs tenen i com es relacionen entre elles.
  • Planificarem la integració de les diferents fonts de dades: per decidir d’on s’obtenen les dades, com i on es guarden i com s’integren o relacionen de forma conjunta per assegurar tenir una visió global i la seva compatibilitat i coherència.
  • Definirem el tractament de les dades durant l’enginyeria de dades per assegurar-ne la qualitat sense pèrdua de valor i així, en cas de rotació o incorporacions de noves persones, ja tindran aquesta informació.
  • Establirem els protocols de seguretat de les dades (qui i com tindrà accés a aquestes dades) assegurant en tot moment la privacitat i la protecció de la informació especialment aquella de caràcter personal o sensible (complir amb les polítiques de privacitat i protecció de dades).

Beneficis