Data Scientist con R
Gestiona información masiva de Big Data. Conoce la estructura, sintaxis y algoritmos de R para el diseño y uso de repositorios de datos
Actualmente compañías como Google, Amazon, Facebook, Netflix, Walmart, GAP, IBM y General Electric, entre otras, están liderando procesos de gestión masiva de información y reclutando “Data Scientists” en la nueva era que deviene de Big Data.
El trabajo de un buen Científico de Datos es hacer descubrimientos “buceando” en un océano de datos cada vez más masivos y complejos. Identifican potenciales fuentes ricas en datos valiosos y acercan la brecha entre los datos, la información y finalmente las decisiones de negocio.
Este entrenamiento tiene como objetivo familiarizar a los participantes con R y sus principales algoritmos más difundidos.
Se espera que los participantes incorporen criterios para diseñar y utilizar repositorios de datos.
Título
Data Scientist con R
Presentación
R es un lenguaje y entorno de programación de software libre para análisis estadístico, cálculo numérico y representaciones gráficas (modelos lineales y no lineales, tests estadísticos, análisis de series temporales, algoritmos de clasificación y otros).
Por su parte Big Data es el término que se utiliza para describir los grandes volúmenes de datos que componen Internet y la posibilidad de obtener información sobre ellos.
Actualmente compañías como Google, Amazon, Facebook, Netflix, Walmart, GAP, IBM y General Electric, entre otras, están liderando procesos de gestión masiva de información y reclutando “Data Scientists” en la nueva era que deviene de Big Data.
El trabajo de un buen Científico de Datos es hacer descubrimientos “buceando” en un océano de datos cada vez más masivos y complejos. Identifican potenciales fuentes ricas en datos valiosos y acercan la brecha entre los datos, la información y finalmente las decisiones de negocio.
Este entrenamiento tiene como objetivo familiarizar a los participantes con R y sus principales algoritmos más difundidos.
Se espera que los participantes incorporen criterios para diseñar y utilizar repositorios de datos.
Objetivo general
Formar profesionales Científicos de Datos para los que se requiere que los participantes:
- Ubiquen a la ciencia de datos en el contexto de disciplinas al servicio de los negocios
- Entiendan la estructura de R
- Conozcan las convenciones utilizadas de sintaxis de R
- Sepan usar los algoritmos más difundidos
- Puedan diseñar un repositorio de datos
- Incorporen la necesidad de limpiar los datos antes de usarlos
- Usen sin dificultad las herramientas de inferencia estadística
- Complementen su formación y entrenamiento como Data Scientists
Objetivos específicos
Unidad 1: Introducción a Big Data, Ciencia de Datos y R
Que los participantes:
- Dominen el concepto de ciencia de datos
- Entiendan la estructura general de R
- Manejen la sintaxis de comandos de R
- Ubiquen los principales repositorios de los que bajar algoritmos
- Incorporen el lugar que R va tomando como estándar de facto dentro de la ciencia de datos.
Unidad 2: Diseño y Construcción de repositorios de datos
Que los participantes:
- Adquieran criterio propio para diseñar repositorios de datos
- Palpen las consecuencias nefastas de no realizar adecuadamente la limpieza de los datos
- Manejen la terminología relacionada con los repositorios de datos
- Comparen adecuadamente las herramientas que existen en el mercado para soportar repositorios de datos
Unidad 3: Algoritmos Descriptivos en R
Que los participantes:
- Identifiquen los principales algoritmos aplicados a la estadística descriptiva que vienen dentro de R
- Entiendan el significado de cada parámetro de la invocación de los algoritmos descriptivos desde R
- Puedan comparar las ventajas y desventajas de los distintos algoritmos que se ofrecen para las diferentes técnicas descriptivas cubiertas.
Unidad 4: Gráficos en R
Que los participantes:
- Identifiquen las principales herramientas gráficas que vienen dentro de R
- Comprendan como distintas visualizaciones sirven o no para transmitir diferentes conceptos.
- Manejen la sintaxis de R para generar los gráficos.
Unidad 5: Algoritmos Predictivos básicos en R
Que los participantes:
- Identifiquen los algoritmos más simples aplicados a la inferencia estadística que vienen dentro de R
- Entiendan el significado de cada parámetro de la invocación de los algoritmos predictivos más simples desde R
- Puedan comparar las ventajas y desventajas de los distintos algoritmos que se ofrecen para las diferentes técnicas predictivas cubiertas.
Unidad 6: Algoritmos Predictivos avanzados en R y perspectivas de Ciencia de Datos
Que los participantes:
- Identifiquen los principales algoritmos avanzados aplicados a la inferencia estadística que vienen dentro de R
- Entiendan el significado de cada parámetro de la invocación de los algoritmos predictivos avanzados desde R
- Puedan comparar las ventajas y desventajas de los distintos algoritmos avanzados que se ofrecen para las diferentes técnicas predictivas cubiertas.
- Conozcan las futuras tendencias de la disciplina de la ciencia de datos.
Destinatarios
Todos aquellos profesionales que quieran profundizar en el uso de R aplicado a la 'Inteligencia de Negocios' (BI) ya sea para incorporarse en una posición de Analista de Business Intelligence como para mejorar sus posibilidades de crecimiento en este competitivo y creciente mercado.
Junto con una formación previa en BI este curso complementa a los destinatarios en su formación como Data Scientists.
Requisitos previos
Es conveniente que los participantes tengan un manejo general de las herramientas informáticas (ofimática, carpetas, archivos, etc.) así como los conceptos básicos de estadística descriptiva y probabilidad.
Los participantes se beneficiarán de su experiencia previa en uno o más de los siguientes campos:
- Manejo de base de datos
- Programación
- Matemáticas
- Marketing
- Inteligencia de Negocios
Aunque ninguno de los conocimientos resulta excluyente, dado que se trata de un curso específico, resultará muy conveniente que los participantes cuenten con formación previa de carácter general, idealmente tener formación en Inteligencia de Negocios (como por ejemplo la tener aprobada la Diplomatura en BI de esta institución).
Metodología de enseñanza-aprendizaje
Lectura crítica del material didáctico por parte de los alumnos. Consultas e intercambios en los foros, dirigidos y coordinados por el profesor-tutor. Clases en tiempo real. Ejercicios prácticos y evaluaciones sobre la base de análisis de situaciones y casos en contextos laborales y profesionales y, según el carácter de los temas y objetivos de la especialidad o curso, cuestionarios del tipo multiple choice.
MODALIDAD EDUCATIVA
La modalidad es totalmente mediada por tecnologías a través del Campus Virtual FRBA. Las actividades que se realizarán serán:
· Foros de discusión semanal propuestos por el docente (un foro por unidad).
· Consulta al docente a través de e-mail o chat.
· Dictado de una clase por módulo (estimativamente) en tiempo real mediante un Aula Virtual Sincrónica (AVS)
· Material de lectura semanal y por unidad temática
· Actividades individuales y/o grupales de aplicación práctica semanal y por unidad temática.
· Evaluaciones semanales y por unidad temática sobre la base de trabajos prácticos de aplicación de los conocimientos adquiridos.
Se trata de una modalidad básicamente asincrónica con el complemento del AVS, que supera la instancia de autoestudio por la implementación de foros proactivos coordinados por el profesor-tutor y dictado de clases en tiempo real. Los foros cumplen cuatro funciones pedagógico-didácticas fundamentales: 1) Son el lugar para la presentación de las dudas, consultas y opiniones críticas de los alumnos; 2) Son el principal espacio para la generación de retroalimentación (feed back) entre profesores-tutores y alumnos y alumnos entre sí; 3) Es el lugar específico para la discusión, coordinada por el profesor-tutor, de todos los temas tratados en los módulos de la especialidad o curso y 4) Es el lugar para el aprendizaje entre pares de los alumnos. A su vez, el AVS permite complementar todas aquellas instancias pedagógico-didácticas que le señalan límites a la modalidad puramente asincrónica.
Modalidad de evaluación y acreditación
Tratándose de una modalidad mediada por tecnologías, la participación activa en los foros por parte de los alumnos, será una condición necesaria para su aprobación.
Por lo tanto, para acreditar la aprobación de la especialidad o curso, los alumnos deberán rendir satisfactoriamente las evaluaciones que los profesores-tutores determinen como obligatorias y haber participado activamente en los foros.
Finalmente deberá aprobarse una Evaluación Final Integradora Obligatoria del tipo multiple choice.
Temario
El curso tendrá una duración de seis semanas y se dividirá en seis unidades.
Cada una de las unidades tendrá una duración de una semana:
Unidad 1: Introducción a BI, R y la Ciencia de los Datos
1) BI: La ciénaga conceptual:
a) ¿Qué es BI?
b) ¿Qué es Big Data?
c) ¿Qué es un Datawarehouse?
d) ¿Qué es R?
e) ¿Qué es la Ciencia de los Datos?
2) El Rol del Científico de Datos
3) Elementos de sintaxis de R
4) Repositorios de Algoritmos
5) Comunicación multinivel
Unidad 2: Diseño y construcción de repositorios de datos
1) Criterios de arquitectura de datos
2) Estrategias de limpieza de datos
3) Técnicas para carga de datos
Unidad 3: Algoritmos Descriptivos en R
1) Medidas estadísticas
2) Análisis de Fourier
3) Algoritmos de Agrupamiento
Unidad 4: Herramientas de Graficación en R
1) Gráficos de densidad
2) Gráficos de puntos
3) Gráficos de barras
4) Gráficos de líneas
5) Gráficos circulares
6) Gráficos de cajas
7) Gráficos de dispersión
Unidad 5: Algoritmos Predictivos básicos en R
1) Árboles de Decisión y Random Forest
2) Redes Neuronales
3) Reglas de asociación
Unidad 6: Algoritmos Predictivos avanzados en R
1) Métodos Bayesianos
2) Discriminante Lineal y Cuadrático
3) Máquinas vectoriales de soporte
4) Perspectivas futuras de BI y de la Ciencia de Datos
Examen Final
.
Duración
6 semanas
Carga horaria
45 hs.
Certificación
A todos los participantes que hayan aprobado el curso cumpliendo con todos los requisitos establecidos, se les extenderá un certificado de la Secretaría de Cultura y Extensión Universitaria, FRBA, UTN. Aquellos que aun habiendo participado activamente en los foros y realizado las actividades prácticas no cumplimentaran los requisitos de evaluación, recibirán un certificado de participación en el curso.
15. Dirección y cuerpo docente
Coordinador:
Ulises Martins (PMP®: ITIL V3 Certified) es Ingeniero en Sistemas de Información de la Universidad Tecnológica Nacional (UTN). Posee un Postgrado en Ingeniería en Calidad (UTN) y un Postgrado en Gestión Tecnológica (Universidad Austral), es miembro del PMI y posee las certificaciones “Project Management Professional’’ PMP e “ITIL V3 Foundation”.
Habiendo comenzado su carrera en 1996, trabajo en diversas posiciones, como soporte técnico en Hewlett Packard, como desarrollador de aplicaciones en Cablevisión/TCI, como responsable de IT en INTERPOL (OIPC), como consultor externo en temas de calidad y liderazgo para empresas privadas. Su experiencia laboral comprende más de 15 años trabajando en proyectos de IT para compañías como Accenture, Telefónica de Argentina, Banco Santander Rio, IBM, y Capgemini. Actualmente se desempeña como Gerente de Proyectos en SAP.
Profeso-tutor:
Lic. Ignacio Urteaga
Completó la Licenciatura en Física en la UBA y trabajó en ese campo como investigador por cuatro años. Paulatinamente se fue reorientando a sistemas con foco en desarrollo de aplicaciones e inteligencia artificial.
Trabajó durante 8 años Emergencias SA en diferentes posiciones gerenciales participando de varios proyectos de desarrollo de software y de consultoría. Desarrollo un proceso de auto - aprendizaje supervisado para el sistema experto de clasificación telefónica de Emergencias Médicas. Este logro obtuvo un premio en EUNITE 2001 y fue objeto de un proceso de transferencia de 'Know How' hacia SEMSA SA (gestor del sistema de emergencias de la Comunidad Autónoma de Catalunya)
Tras cumplir dos años como Gerente de Proyectos en una consultora especializada en la gestión de la tecnología en el ámbito público se independizó como consultor cubriendo temáticas de gestión de proyectos, gestión de la tecnología, emergencias públicas y análisis y gestión de proyectos.
En la actualidad se desempeña como Director de Business Intelligence en Hadasoft SA,
es profesor adjunto en el MBA en Dirección de Sistemas de Información de la Universidad del Salvador y en el Postgrado en Gestión de Proyectos de la UTN además de la diplomatura en BI en la misma casa.
Jerónimo Peralta es Doctor en Física y se desempeñó como Investigador del Conicet. Actualmente se dedica full time a la minería de datos en AlixPartners LLP.
Se especializó en inteligencia de negocios, análisis, visualización, minería de datos,
ETL, web scraping, optimización de procesos, presentaciones de alto impacto y ventas.
Martín Vedani es un investigador con más de diez años de experiencia ejecutiva en multinacionales en áreas y proyectos de Análisis de Mercados, Planificación Estratégica, Gestión de Operaciones e Integración de Negocios y Tecnología.
Actualmente cursando un Doctorado en Dirección de Empresas en la Universidad del CEMA, done también hizo su MBA y participó de un intercambio internacional con el programa de Maestría de Finanzas y Mercados Globales con la European Business School de Londres.
A nivel grado, Martín se graduado con honores en la Universidad de Carolina del Sur como Licenciado en Administración de Empresas. Como parte de su carrera de grado, Martín hizo Doble Grado: Economía Empresarial y Marketing con especialización en Ingeniería y Ciencia.
Bibliografía
- Anand Rajaraman, Jure Leskovec y Jeffrey D. Ullman, 'Mining of Massive Datasets'.
http://infolab.stanford.edu/~ullman/mmds.html - Bernstein A., Provost F. and Hill S. 'Towards Intelligent Assistance for a Data Mining Process: An Ontology-based Approach for Cost-sensitive Classification', IEEE Transactions on Knowledge and Data Engineering, Vol. 17, No. 4, April 2005.
- Cannataro M & Comito C. A Data Mining Ontology for Grid Programming. In Proceedings of the 1st International Workshop on Semantics Peer to Peer and Grid Computing. Budapest, 20-24 May 2003.
- Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze, 'Introduction to Information Retrieval'.
http://nlp.stanford.edu/IR-book/ - Fayyad, U., Piatetsky-Shiapiro, G., Smyth, P., & Uthurusamy, RAdvances in knowledge discovery and data mining. Menlo Park, CA: AAAI Press. . (1996).
- Franco Jean Michel El Data Warehouse, El Data Mining. EDS Institut Prométhéus. Ed. F. Devolt (1998).
- Han, J., & Kamber, M. Data mining: Concepts and techniques. Morgan Kaufmann. (2001).
- Hernández Orallo et al. Introducción a la Minería de Datos. Pearson Educación. (2004).
- Pyle D. Business Modeling and Data Mining. The Morgan Kaufmann Series in Data Management Systems. Morgan Kaufmann Publisher. (2003)
- Trevor Hastie, Robert Tibshirani y Jerome Friedman. Springer, 'The Elements of Statistical Learning: Data Mining, Inference, and Prediction'.
http://www-stat.stanford.edu/~tibs/ElemStatLearn/
Zhou Z. Three perspectives of Data Mining. Artificial Intelligence. Elsevier
[1] El Centro de e-learning de la FRBA, en su programa de mejora continua ha decidido incorporar, como un complemento de la modalidad asincrónica, las clases en tiempo real, mediante el uso de un Aula Virtual Sincrónica (AVS). Por lo tanto, todos los cursos y especialidades deberán incorporar obligatoriamente las clases en tiempo real. De acuerdo a sus posibilidades y necesidades, los responsables de los cursos y especialidades decidirán su utilización en una frecuencia mínima de una clase por módulo (mensual) y máxima de ocho clases por módulo.