Tidyverse, parte II - Ejercitación
Preparación: Para resolver los siguientes ejercicios es necesario tener la base de la EPH individual cargada en el ambiente de R. Podés cargarla con
read_csv()o con el paquete{eph}.
Referencia de variables
| Variable | Significado | Valores |
|---|---|---|
CH04 |
Sexo | 1=Varón, 2=Mujer |
CH06 |
Edad | Años cumplidos |
ESTADO |
Condición de actividad | 1=Ocupado, 2=Desocupado, 3=Inactivo, 4=Menor de 10 |
NIVEL_ED |
Nivel educativo | 1 a 7 |
P21 |
Ingreso ocupación principal | En pesos |
REGION |
Región estadística | 1=GBA, 40=NOA, 41=NEA, 42=Cuyo, 43=Pampeana, 44=Patagonia |
Parte 1: mutate() + case_when()
Seleccionar las variables
CH04,CH06,NIVEL_EDyESTADO. Crear una variable llamadasexoque recodifiqueCH04(1 = “Varón”, 2 = “Mujer”).Crear una variable
grupo_actividadque agrupeESTADOen dos categorías: “Activo” (1 y 2) y “No activo” (3 y 4). Tip: recordar el operador%in%.Desafío: Crear una variable
mayor_de_edadque valga"Sí"cuandoCH06 >= 18y"No"en caso contrario.
Parte 2: summarise() + group_by()
Calcular la edad promedio y la cantidad de personas para toda la base.
Calcular la cantidad de personas por condición de actividad (
ESTADO). Tip:summarise(n = n(), .by = ESTADO).Filtrar la población ocupada (
ESTADO == 1) con ingreso positivo (P21 > 0). Calcular el ingreso promedio por región (REGION).Desafío: Al ejercicio anterior, agregarle una recodificación de
CH04asexo(“Varón”/“Mujer”) y calcular el ingreso promedio por sexo y región.
Parte 3: Pipeline completo
Desafío integrador: Construir un pipeline que, partiendo de eph_ind:
- Filtre a la población ocupada con ingreso positivo
- Seleccione las variables
CH04,CH06,P21yREGION - Cree las variables
sexoygrupo_edad(Joven: <30, Adulto: 30-49, Mayor: 50+) - Calcule el ingreso promedio y la cantidad de personas por
sexoygrupo_edad
Tip: combinar filter(), select(), mutate() con case_when(), y summarise() con .by.