Todos los alumnos que deseen certificado de asistencia y puntos deben
inscribirse a la materia en la Subsecretaría de Posgrado (Pabellón 2, planta baja,
oficina de Posgrado), llevando la siguiente documentación :
1. planilla de inscripción completa y firmada, que pueden solicitar en Posgrado
o se la entregaremos nosotros 9.15 hs en punto de encuentro o bien bajar de la
web:
https://exactas.uba.ar/wp-
content/uploads/2017/06/planilla_insc._a_cursos_de_posgrado_2009.pdf
2. fotocopia del DNI (argentinos) o pasaporte (extranjeros**), y
3. fotocopia del mayor título obtenido (o del certificado de título en trámite).
DESCRIPCIÒN DEL CURSO:
Parte II: Herramientas avanzadas de análisis estadístico
La existencia de grandes y complejas estructuras de información exige disponer de nuevas técnicas de análisis y visualización de datos, a la vez de mutar de un enfoque metodológico centrado en la teoría, a un enfoque centrado en la preeminencia del dato. La fuerte dinámica en la evolución de las estructuras de información generadas por la ciencia, las empresas y las distintas dependencias del estado, requieren contar con un entorno de creación y utilización de herramientas de análisis que comparta esa misma dinámica. En este contexto, el entorno de programación R se ha convertido en líder entre los paradigmas libres y comunitarios para el análisis y el modelado de datos. Así, la Ciencia de Datos conjuga en un contexto amplio las ténicas más exitosas disponibles, provenientes de la estadística aplicada, la minería de datos y el apredizaje automático.
Objetivos:
El curso procura brindar herramientas aplicadas, provenientes principalmente de la estadística, útiles para la descripción, el análisis y el modelado de datos en un contexto científico interdisciplinario. Todas las técnicas estudiadas son implementadas en R, y ejemplificadas con conjuntos de datos reales. El enfoque particular del curso se centra en los datos y en la selección de métodos de análisis que se ajustan
a ellos. Se intentará dotar al estudiante del conocimiento de una amplia variedad de técnicas útiles en el contexto de la ciencia de datos. Un énfasis especial se dedica a las novedosas técnicas de descripción y
visualización de datos disponibles en el entorno R. Asimismo, el curso no intenta profundizar en los fundamentos teóricos subyacentes a las técnicas utilizadas.
Modalidad:
Similarmente a la Parte I del programa, las clases serán teórico-practicas y se desarrollaran en el laboratorio de computación o en un espacio adecuado para que cada participante disponga de una computadora. El curso constara de 54 horas, distribuidas en 18 encuentros de 3 horas cada uno, dos veces por semana. Adicionalmente, las clases se desarrollaran en un aula provista de proyector con el cual se expondrán los contenidos teóricos del curso.
Contenidos
• Análisis gráficos de datos
• Nociones Básicas:
Análisis Supervisado y No Supervisado
Inferencia, Predicción y Clasificación
Trade-off Sesgo-Varianza
• Elementos de Optimización
• Algoritmos Genéticos
• Regresión Robusta
• Regresión por Cuantiles (RQ)
• Modelo Lineal Generalizado (GLM, Regresión Logpistica)
• Modelos Lineales Mixtos (LMM)
• Regularización: Regresión Lasso y Ridge
• Smoothers
• Modelos Aditivos Generalizados (GAM)
• Projecion Pursuit Regression (PPR)
• Redes Neurpnales Artificiales(ANN)
• Redes Neuronales Multi Capa (MLP - Depp Learning)
Regresión, Clasificación y Autoencoders
Modelos convolucionales 1D y2D
• Selección de Modelos y Benchmarking con CARET
• Métodos Adicionales:
K-means, Clusterización Jerarquica y Mean Shift
PCA (Análisis de Componentes Principales) y SVD
Meta Métodos: Bagging y Boosting
CART y Random Forest
Support Vector Machines (SVM)
Boosting (Xgboost)
Reglas de Asociación
Prerequisitos
Para ser admitido al curso se requerirá haber cursado la Parte I (Fundamentos de estadística) del
programa, o acreditar conocimientos de estadística y de R.
Sistema de evaluación
Se realizara un examen final individual.
Cupo: Se aceptará un máximo de 30 alumnos.
Bibliografía:
- Peng, R. D. (2015). R Programming for Data Science. Lulu. com.
- Friedman, J. H., & Stuetzle, W. (1981). Projection pursuit regression. Journal of the American
statistical Association,76(376),817-823.
- Ripley, B. D. (2002). Modern applied statistics with S. Springer.
- Koenker, R. (2005). Quantile regression (No. 38). Cambridge university press.
- James, Witten, Hastie & Tibshirani, R. (2013). An introduction to statistical learning (Vol.6). New York: springer.
- Efron, B., & Hastie, T. (2016). Computer Age Statistical Inference (Vol. 5). Cambridge
University Press.
- Peng, R. D. (2015). R Programming for Data Science. Lulu. com.
- Lantz, B. (2013). Machine learning with R. Packt Publishing Ltd.
|