CIENCIA DE DATOS CON R - CURSO 2018

Octubre - Noviembre 2018

Instituto de Cálculo FCEyN-UBA

Dr. Andrés Farall, Dra. Mariela Sued

INSCRIPCIÒN AL CURSO

Todos los alumnos que deseen certificado de asistencia y puntos deben 
inscribirse a la materia en la Subsecretaría de Posgrado (Pabellón 2, planta baja, 
oficina de Posgrado), llevando la siguiente documentación : 
1. planilla de inscripción completa y firmada, que pueden solicitar en Posgrado 
o se la entregaremos nosotros 9.15 hs en punto de encuentro o bien bajar de la 
web: 
https://exactas.uba.ar/wp- 
content/uploads/2017/06/planilla_insc._a_cursos_de_posgrado_2009.pdf 
2. fotocopia del DNI (argentinos) o pasaporte (extranjeros**), y 
3. fotocopia del mayor título obtenido (o del certificado de título en trámite). 

DESCRIPCIÒN DEL CURSO: 

Parte II: Herramientas avanzadas de análisis estadístico 
La existencia de grandes y complejas estructuras de información exige disponer de nuevas técnicas de análisis y visualización de datos, a la vez de mutar de un enfoque metodológico centrado en la teoría, a un enfoque centrado en la preeminencia del dato. La fuerte dinámica en la evolución de las estructuras de información generadas por la ciencia, las empresas y las distintas dependencias del estado, requieren contar con un entorno de creación y utilización de herramientas de análisis que comparta esa misma dinámica. En este contexto, el entorno de programación R se ha convertido en líder entre los paradigmas libres y comunitarios para el análisis y el modelado de datos. Así, la Ciencia de Datos conjuga en un contexto amplio las ténicas más exitosas disponibles, provenientes de la estadística aplicada, la minería de datos y el apredizaje automático. 
Objetivos:
El curso procura brindar herramientas aplicadas, provenientes principalmente de la estadística, útiles para la descripción, el análisis y el modelado de datos en un contexto científico interdisciplinario. Todas las técnicas estudiadas son implementadas en R, y ejemplificadas con conjuntos de datos reales. El enfoque particular del curso se centra en los datos y en la selección de métodos de análisis que se ajustan 
a ellos. Se intentará dotar al estudiante del conocimiento de una amplia variedad de técnicas útiles en el contexto de la ciencia de datos. Un énfasis especial se dedica a las novedosas técnicas de descripción y 
visualización de datos disponibles en el entorno R. Asimismo, el curso no intenta profundizar en los fundamentos teóricos subyacentes a las técnicas utilizadas. 
Modalidad: 
Similarmente a la Parte I del programa, las clases serán teórico-practicas y se desarrollaran en el laboratorio de computación o en un espacio adecuado para que cada participante disponga de una computadora. El curso constara de 54 horas, distribuidas en 18 encuentros de 3 horas cada uno, dos veces por semana. Adicionalmente, las clases se desarrollaran en un aula provista de proyector con el cual se expondrán los contenidos teóricos del curso. 
Contenidos 
• Análisis gráficos de datos 
• Nociones Básicas: 
Análisis Supervisado y No Supervisado 
Inferencia, Predicción y Clasificación 
Trade-off Sesgo-Varianza 
• Elementos de Optimización 
• Algoritmos Genéticos 
• Regresión Robusta 
• Regresión por Cuantiles (RQ) 
• Modelo Lineal Generalizado (GLM, Regresión Logpistica) 
• Modelos Lineales Mixtos (LMM) 

• Regularización: Regresión Lasso y Ridge 
• Smoothers 
• Modelos Aditivos Generalizados (GAM) 
• Projecion Pursuit Regression (PPR) 
• Redes Neurpnales Artificiales(ANN) 
• Redes Neuronales Multi Capa (MLP - Depp Learning) 
Regresión, Clasificación y Autoencoders 
Modelos convolucionales 1D y2D 
• Selección de Modelos y Benchmarking con CARET 
• Métodos Adicionales: 
K-means, Clusterización Jerarquica y Mean Shift 
PCA (Análisis de Componentes Principales) y SVD 
Meta Métodos: Bagging y Boosting 
CART y Random Forest 
Support Vector Machines (SVM) 
Boosting (Xgboost) 
Reglas de Asociación 
Prerequisitos 
Para ser admitido al curso se requerirá haber cursado la Parte I (Fundamentos de estadística) del 
programa, o acreditar conocimientos de estadística y de R. 
Sistema de evaluación 
Se realizara un examen final individual. 
Cupo: Se aceptará un máximo de 30 alumnos. 
Bibliografía: 
- Peng, R. D. (2015). R Programming for Data Science. Lulu. com. 
- Friedman, J. H., & Stuetzle, W. (1981). Projection pursuit regression. Journal of the American 
statistical Association,76(376),817-823. 
- Ripley, B. D. (2002). Modern applied statistics with S. Springer. 
- Koenker, R. (2005). Quantile regression (No. 38). Cambridge university press. 
- James, Witten, Hastie & Tibshirani, R. (2013). An introduction to statistical learning (Vol.6). New York: springer. 

- Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference (Vol. 5). Cambridge 
University Press. 
- Peng, R. D. (2015). R Programming for Data Science. Lulu. com. 
- Lantz, B. (2013). Machine learning with R. Packt Publishing Ltd.

HORARIO
Lunes y miércoles de 9 a 12 hs

 (Octubre y Noviembre)

LUGAR 
Instituto de Cálculo
PROFESORES
Andres Farall, Mariela Sued