Protagonisme de l’estadística dins del data science

Aleix Ruiz de Villa

1 de juny de 2017

Tot el que dic a la presentació es incorrecte, però espero que alguna cosa us sigui útil.

Part I: Les 4 branques del Data Science

Programació

  • Agilitat per programar
  • Cultura informàtica - relació amb departaments de IT

Insights

  • Analitzar dades històriques per entendre vies de millora
  • Disenyar, gestionar i evaluar experiments

Machine learning

Desenvolupar (modelar i implementar) eines basades en mètodes predictius

Negoci

  • És viable econòmicament?
  • És viable logísticament?
  • És viable a nivell organitzatiu?
  • Quin impacte tindrà en els clients? i en el negoci?

Els estadístics porten segles analitzant dades. Perquè quan es posa de moda, no en porten la veu cantant?

Quins prejudicis tenen els estadístics?

  • Programació: no és interessant dels del punt de vista estadístic?
  • Machine learning: es fa servir sense entendre què hi ha al darrera?
  • Negoci: prenen decisions sense fer cap tipus d’analisis?

Tot això és molt probablement cert! però…

Perquè apendre

  • Programació:
    • Autonomia
    • Entendre estadística a travès de simulacions
  • Machine learning:
    • Punt de vista diferent
    • Eines per a resoldre problemes als que l’estadística no dona solució
  • Negoci:
    • Entendre context de les aplicacions
    • Impacte reverteix en inversió en estadística

Part II: El context

Perquè augmenta la demanda de perfils ‘científics’?

La complexitat laboral va en augment i la seva gestió n’és clau

Gestió de la complexitat

Activitats d’exploració vs d’explotació

  • Explotació: repetir allò conegut per a treure’n un profit.
  • Recerca: descobrir allò que no era conegut per la comunitat.
  • Exploració: descobrir allò que no era conegut per l’empresa ~ adaptar-se terreny complex + visió mig-llarg plaç.

La caricatura dels bombers

Màxima fantasia? \[\\\] Apagar tots els incendis

La caricatura dels bombers

Despareixen si no es creen

  • Paradoxa: + esforços a apagar focs, - esforços a prevenció
  • La societat valora els bombers -> fácil determinar causalitat
  • Com s’ha fet acció A o com que no s’ha fet acció A, no s’ha creat un foc: causalitat complexa de determinar.

Part III: Diferències entre ml i estadística

Exemple

Model de propensió a l’alta \[P(\mbox{alta|client}) \sim \mbox{edat, nivell d'activitat, temps com a client}\]

  • ML: nous clients prediu la propensió
  • Estadística: quins factors poden rellevants, p.e. edad.

Funcionalitat

  • ML
    • Model operatiu
    • Curt plaç
    • Eina
  • Estadística
    • Model estratègic
    • Mig-llarg plaç
    • Determinar què és important: factors accionables, discernir soroll

Exemple mal ús ml: biaix de selecció

Entrenament model de propensió alta \[\downarrow\] Selecció clients / selecció observacions \[\downarrow\] Entrenament model de propensió alta

Dificultats i avantatges

  • Més difícil d’evaluar que ml ~ +subjectivitat
  • Determinar causalitat interfereix directament amb activitat política
  • Més difícil d’automatitzar que ml

Part IV: Conclusions

En resum

  • El data science comprèn mes activitats a part de l’estadística.
  • L’activitat d’insights és la més interessant, però la més difícil de vendre i aplicar.
  • Si el machine learning pot canviar el dia a dia de les persones, l’estadística en pot canviar la manera de pensar.