Capítulo 2: Importación y Orden de los Datos en R

<img src="img/see_azul.jpeg" width="300px"/>
# Capítulo 2: Importación y Orden de los Datos en R 
## **PROGRAMA INTERNACIONAL DE ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICA**
#### MÓDULO: MANEJO DE SOFTWARE <br> <br> Linda Cabrera Orellana
#### Octubre, 2022

---

---

* Importar datos
   * Importar archivos `.csv`
   * Importar desde Excel
   * Importar desde SPSS y STATA

* Práctica 2.1

* Estructuras de datos
   * Vectores
]

.pull-right[ 
* Estructuras de datos
   * Data.frames (Tibbles)
   * Funciones básicas
   
* Tipos de datos
   * Numéricos
   * Cadena de caracteres
   * Factores
   * Fechas y Horas

* Práctica 2.2
]

---

---

.footnote[ [Understanding the Data Science Lifecycle](https://www.sudeep.co/data-science/2018/02/09/Understanding-the-Data-Science-Lifecycle.html) || [8 Ways to Improve Decision Making](https://www.anblicks.com/blog/8-ways-to-improve-decision-making-and-cut-cost-with-better-data-quality)]

---

# <svg aria-hidden="true" role="img" viewBox="0 0 640 512" style="height:1em;width:1.25em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M286.3 155.1C287.4 161.9 288 168.9 288 175.1C288 183.1 287.4 190.1 286.3 196.9L308.5 216.7C315.5 223 318.4 232.1 314.7 241.7C312.4 246.1 309.9 252.2 307.1 257.2L304 262.6C300.1 267.6 297.7 272.4 294.2 277.1C288.5 284.7 278.5 287.2 269.5 284.2L241.2 274.9C230.5 283.8 218.3 290.9 205 295.9L198.1 324.9C197 334.2 189.8 341.6 180.4 342.8C173.7 343.6 166.9 344 160 344C153.1 344 146.3 343.6 139.6 342.8C130.2 341.6 122.1 334.2 121 324.9L114.1 295.9C101.7 290.9 89.5 283.8 78.75 274.9L50.53 284.2C41.54 287.2 31.52 284.7 25.82 277.1C22.28 272.4 18.98 267.5 15.94 262.5L12.92 257.2C10.13 252.2 7.592 247 5.324 241.7C1.62 232.1 4.458 223 11.52 216.7L33.7 196.9C32.58 190.1 31.1 183.1 31.1 175.1C31.1 168.9 32.58 161.9 33.7 155.1L11.52 135.3C4.458 128.1 1.62 119 5.324 110.3C7.592 104.1 10.13 99.79 12.91 94.76L15.95 89.51C18.98 84.46 22.28 79.58 25.82 74.89C31.52 67.34 41.54 64.83 50.53 67.79L78.75 77.09C89.5 68.25 101.7 61.13 114.1 56.15L121 27.08C122.1 17.8 130.2 10.37 139.6 9.231C146.3 8.418 153.1 8 160 8C166.9 8 173.7 8.418 180.4 9.23C189.8 10.37 197 17.8 198.1 27.08L205 56.15C218.3 61.13 230.5 68.25 241.2 77.09L269.5 67.79C278.5 64.83 288.5 67.34 294.2 74.89C297.7 79.56 300.1 84.42 304 89.44L307.1 94.83C309.9 99.84 312.4 105 314.7 110.3C318.4 119 315.5 128.1 308.5 135.3L286.3 155.1zM160 127.1C133.5 127.1 112 149.5 112 175.1C112 202.5 133.5 223.1 160 223.1C186.5 223.1 208 202.5 208 175.1C208 149.5 186.5 127.1 160 127.1zM484.9 478.3C478.1 479.4 471.1 480 464 480C456.9 480 449.9 479.4 443.1 478.3L423.3 500.5C416.1 507.5 407 510.4 398.3 506.7C393 504.4 387.8 501.9 382.8 499.1L377.4 496C372.4 492.1 367.6 489.7 362.9 486.2C355.3 480.5 352.8 470.5 355.8 461.5L365.1 433.2C356.2 422.5 349.1 410.3 344.1 397L315.1 390.1C305.8 389 298.4 381.8 297.2 372.4C296.4 365.7 296 358.9 296 352C296 345.1 296.4 338.3 297.2 331.6C298.4 322.2 305.8 314.1 315.1 313L344.1 306.1C349.1 293.7 356.2 281.5 365.1 270.8L355.8 242.5C352.8 233.5 355.3 223.5 362.9 217.8C367.6 214.3 372.5 210.1 377.5 207.9L382.8 204.9C387.8 202.1 392.1 199.6 398.3 197.3C407 193.6 416.1 196.5 423.3 203.5L443.1 225.7C449.9 224.6 456.9 224 464 224C471.1 224 478.1 224.6 484.9 225.7L504.7 203.5C511 196.5 520.1 193.6 529.7 197.3C535 199.6 540.2 202.1 545.2 204.9L550.5 207.9C555.5 210.1 560.4 214.3 565.1 217.8C572.7 223.5 575.2 233.5 572.2 242.5L562.9 270.8C571.8 281.5 578.9 293.7 583.9 306.1L612.9 313C622.2 314.1 629.6 322.2 630.8 331.6C631.6 338.3 632 345.1 632 352C632 358.9 631.6 365.7 630.8 372.4C629.6 381.8 622.2 389 612.9 390.1L583.9 397C578.9 410.3 571.8 422.5 562.9 433.2L572.2 461.5C575.2 470.5 572.7 480.5 565.1 486.2C560.4 489.7 555.6 492.1 550.6 496L545.2 499.1C540.2 501.9 534.1 504.4 529.7 506.7C520.1 510.4 511 507.5 504.7 500.5L484.9 478.3zM512 352C512 325.5 490.5 304 464 304C437.5 304 416 325.5 416 352C416 378.5 437.5 400 464 400C490.5 400 512 378.5 512 352z"/></svg> Proceso del *tidyverse*

---

* <svg aria-hidden="true" role="img" viewBox="0 0 448 512" style="height:1em;width:0.88em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M182.6 246.6C170.1 259.1 149.9 259.1 137.4 246.6L57.37 166.6C44.88 154.1 44.88 133.9 57.37 121.4C69.87 108.9 90.13 108.9 102.6 121.4L159.1 178.7L297.4 41.37C309.9 28.88 330.1 28.88 342.6 41.37C355.1 53.87 355.1 74.13 342.6 86.63L182.6 246.6zM182.6 470.6C170.1 483.1 149.9 483.1 137.4 470.6L9.372 342.6C-3.124 330.1-3.124 309.9 9.372 297.4C21.87 284.9 42.13 284.9 54.63 297.4L159.1 402.7L393.4 169.4C405.9 156.9 426.1 156.9 438.6 169.4C451.1 181.9 451.1 202.1 438.6 214.6L182.6 470.6z"/></svg> library(tidyverse)

]

---

---

# <svg aria-hidden="true" role="img" viewBox="0 0 384 512" style="height:1em;width:0.75em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M224 0V128C224 145.7 238.3 160 256 160H384V448C384 483.3 355.3 512 320 512H64C28.65 512 0 483.3 0 448V64C0 28.65 28.65 0 64 0H224zM80 224C57.91 224 40 241.9 40 264V344C40 366.1 57.91 384 80 384H96C118.1 384 136 366.1 136 344V336C136 327.2 128.8 320 120 320C111.2 320 104 327.2 104 336V344C104 348.4 100.4 352 96 352H80C75.58 352 72 348.4 72 344V264C72 259.6 75.58 256 80 256H96C100.4 256 104 259.6 104 264V272C104 280.8 111.2 288 120 288C128.8 288 136 280.8 136 272V264C136 241.9 118.1 224 96 224H80zM175.4 310.6L200.8 325.1C205.2 327.7 208 332.5 208 337.6C208 345.6 201.6 352 193.6 352H168C159.2 352 152 359.2 152 368C152 376.8 159.2 384 168 384H193.6C219.2 384 240 363.2 240 337.6C240 320.1 231.1 305.6 216.6 297.4L191.2 282.9C186.8 280.3 184 275.5 184 270.4C184 262.4 190.4 256 198.4 256H216C224.8 256 232 248.8 232 240C232 231.2 224.8 224 216 224H198.4C172.8 224 152 244.8 152 270.4C152 287 160.9 302.4 175.4 310.6zM280 240C280 231.2 272.8 224 264 224C255.2 224 248 231.2 248 240V271.6C248 306.3 258.3 340.3 277.6 369.2L282.7 376.9C285.7 381.3 290.6 384 296 384C301.4 384 306.3 381.3 309.3 376.9L314.4 369.2C333.7 340.3 344 306.3 344 271.6V240C344 231.2 336.8 224 328 224C319.2 224 312 231.2 312 240V271.6C312 294.6 306.5 317.2 296 337.5C285.5 317.2 280 294.6 280 271.6V240zM256 0L384 128H256V0z"/></svg> Importar archivos `.csv`

`readr` lee datos rectangulares de archivos delimitados, como valores separados por comas (CSV) y valores separados por tabuladores (TSV).

]

Para leer un archivo `.csv` la función a utilizar es `read_csv()` del paquete `readr` que es parte del `tidyverse`. Para cargar nuestro archivo:

```r
library(readr)
players21 <- read_csv("Data/players_21.csv")
```

También lo podemos hacer con el sistema base de <svg aria-hidden="true" role="img" viewBox="0 0 581 512" style="height:1em;width:1.13em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M581 226.6C581 119.1 450.9 32 290.5 32S0 119.1 0 226.6C0 322.4 103.3 402 239.4 418.1V480h99.1v-61.5c24.3-2.7 47.6-7.4 69.4-13.9L448 480h112l-67.4-113.7c54.5-35.4 88.4-84.9 88.4-139.7zm-466.8 14.5c0-73.5 98.9-133 220.8-133s211.9 40.7 211.9 133c0 50.1-26.5 85-70.3 106.4-2.4-1.6-4.7-2.9-6.4-3.7-10.2-5.2-27.8-10.5-27.8-10.5s86.6-6.4 86.6-92.7-90.6-87.9-90.6-87.9h-199V361c-74.1-21.5-125.2-67.1-125.2-119.9zm225.1 38.3v-55.6c57.8 0 87.8-6.8 87.8 27.3 0 36.5-38.2 28.3-87.8 28.3zm-.9 72.5H365c10.8 0 18.9 11.7 24 19.2-16.1 1.9-33 2.8-50.6 2.9v-22.1z"/></svg>, aquí no necesitamos cargar ninguna librería. Para esto, nos ubicamos en la barra de herramientas `File -> Import Dataset -> From Text (readr)`.

]

---

`readxl` facilita la transferencia de datos de Excel a R y está diseñado para trabajar con datos tabulares. Admite tanto el formato `.xls` heredado como el formato `.xlsx` moderno basado en `xml`.

]

Para leer un archivo de Excel la función a utilizar es `read_excel()` del paquete `readxl` que es parte del `tidyverse`. Para cargar nuestro archivo:

```r
library(readxl)
vuelos <- read_excel("data/VentasVuelos.xlsx", 
    sheet = "data", skip = 1)
```

]

---

`haven` permite que R lea y escriba varios formatos de datos utilizados por otros paquetes estadísticos al envolver la fantástica biblioteca ReadStat C escrita por Evan Miller. `haven` es parte del `tidyverse`.

]

.panelset[
.panel[.panel-name[SPSS]
## **SPSS**
Para leer un archivo de SPSS la función a utilizar es `read_sav()` del paquete `haven` que es parte del `tidyverse`. Para cargar nuestro archivo:

```r
library(haven)
estres <- read_sav("data/estres.sav")
```
]

.panel[.panel-name[STATA]
## **STATA**
Para leer un archivo de STATA la función a utilizar es `read_dta()` del paquete `haven` que es parte del `tidyverse`. Para cargar nuestro archivo:

```r
library(haven)
pasajeros <- read_dta("data/pasajeros.dta")
```
]
]
]

<!--

# <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M448.6 225.6c26.87 .18 35.57-7.43 38.92-12.37 12.47-16.32-7.06-47.6-52.85-71.33 17.76-33.58 30.11-63.68 36.34-85.3 3.38-11.83 1.09-19 .45-20.25-1.72 10.52-15.85 48.46-48.2 100.1-25-11.22-56.52-20.1-93.77-23.8-8.94-16.94-34.88-63.86-60.48-88.93C252.2 7.14 238.7 1.07 228.2 .22h-.05c-13.83-1.55-22.67 5.85-27.4 11-17.2 18.53-24.33 48.87-25 84.07-7.24-12.35-17.17-24.63-28.5-25.93h-.18c-20.66-3.48-38.39 29.22-36 81.29-38.36 1.38-71 5.75-93 11.23-9.9 2.45-16.22 7.27-17.76 9.72 1-.38 22.4-9.22 111.6-9.22 5.22 53 29.75 101.8 26 93.19-9.73 15.4-38.24 62.36-47.31 97.7-5.87 22.88-4.37 37.61 .15 47.14 5.57 12.75 16.41 16.72 23.2 18.26 25 5.71 55.38-3.63 86.7-21.14-7.53 12.84-13.9 28.51-9.06 39.34 7.31 19.65 44.49 18.66 88.44-9.45 20.18 32.18 40.07 57.94 55.7 74.12a39.79 39.79 0 0 0 8.75 7.09c5.14 3.21 8.58 3.37 8.58 3.37-8.24-6.75-34-38-62.54-91.78 22.22-16 45.65-38.87 67.47-69.27 122.8 4.6 143.3-24.76 148-31.64 14.67-19.88 3.43-57.44-57.32-93.69zm-77.85 106.2c23.81-37.71 30.34-67.77 29.45-92.33 27.86 17.57 47.18 37.58 49.06 58.83 1.14 12.93-8.1 29.12-78.51 33.5zM216.9 387.7c9.76-6.23 19.53-13.12 29.2-20.49 6.68 13.33 13.6 26.1 20.6 38.19-40.6 21.86-68.84 12.76-49.8-17.7zm215-171.4c-10.29-5.34-21.16-10.34-32.38-15.05a722.5 722.5 0 0 0 22.74-36.9c39.06 24.1 45.9 53.18 9.64 51.95zM279.2 398c-5.51-11.35-11-23.5-16.5-36.44 43.25 1.27 62.42-18.73 63.28-20.41 0 .07-25 15.64-62.53 12.25a718.8 718.8 0 0 0 85.06-84q13.06-15.31 24.93-31.11c-.36-.29-1.54-3-16.51-12-51.7 60.27-102.3 98-132.8 115.9-20.59-11.18-40.84-31.78-55.71-61.49-20-39.92-30-82.39-31.57-116.1 12.3 .91 25.27 2.17 38.85 3.88-22.29 36.8-14.39 63-13.47 64.23 0-.07-.95-29.17 20.14-59.57a695.2 695.2 0 0 0 44.67 152.8c.93-.38 1.84 .88 18.67-8.25-26.33-74.47-33.76-138.2-34-173.4 20-12.42 48.18-19.8 81.63-17.81 44.57 2.67 86.36 15.25 116.3 30.71q-10.69 15.66-23.33 32.47C365.6 152 339.1 145.8 337.5 146c.11 0 25.9 14.07 41.52 47.22a717.6 717.6 0 0 0 -115.3-31.71 646.6 646.6 0 0 0 -39.39-6.05c-.07 .45-1.81 1.85-2.16 20.33C300 190.3 358.8 215.7 389.4 233c.74 23.55-6.95 51.61-25.41 79.57-24.6 37.31-56.39 67.23-84.77 85.43zm27.4-287c-44.56-1.66-73.58 7.43-94.69 20.67 2-52.3 21.31-76.38 38.21-75.28C267 52.15 305 108.6 306.6 111zm-130.6 3.1c.48 12.11 1.59 24.62 3.21 37.28-14.55-.85-28.74-1.25-42.4-1.26-.08 3.24-.12-51 24.67-49.59h.09c5.76 1.09 10.63 6.88 14.43 13.57zm-28.06 162c20.76 39.7 43.3 60.57 65.25 72.31-46.79 24.76-77.53 20-84.92 4.51-.2-.21-11.13-15.3 19.67-76.81zm210.1 74.8"/></svg> Importar desde la web

`rio` realiza importación y exportación optimizada de datos. Usa la extensión de archivo de un nombre de archivo para determinar qué tipo de archivo es.

]

En esta ocasión leeremos información disponible en la web del [Banco Central del Ecuador](https://www.bce.fin.ec/).

```r
library(rio)
# Data del Banco Central del Ecuador

# Para guardar la url de descarga en una variable
urlData <- "https://contenido.bce.fin.ec/documentos/Estadisticas/SectorReal/CuentasProvinciales/Can2020.xlsm"

# Para importar los datos de la url, escogemos la pestaña
# sheet: pestaña del documento
# skip: número de filas omitidas
# col_names: desea nombre de columnas sea la primera fila
dataBCE <- import(urlData, sheet = "VAB Cantonal", skip = 6, col_names = TRUE)

```
]

* **Excel:** Usando el paquete `openxlsx` con
`read.xlsx(xlsxFile , sheet , startRow , colNames , skipEmptyRows, rowNames)`

* `foreign` para cargar archivos de SAS, SPSS, Stata: SAS (`read.xport()`), SPSS (`read.spss()`), Stata (`read.dta()`).

* GIS sistemas de información geográfica con `rgal` y `raster`.

* `GoogleSpreadSheets` con googlesheets.

* `data.table` para manejar grandes volúmenes de datos. Existe un curso corto gratuito brindado por la Sociedad Ecuatoriana de Estadística que pueden visitar en el siguiente link: [https://www.youtube.com/Sociedad_Ecuatoriana_Estadistica](https://www.youtube.com/watch?v=s1QnGTk0x8U&list=PL2PpISw8vp_oJlVXpYYowclogCCLtEOfX).

-->

---

background-color: var(--azul-claro)
class: middle, center, inverse

---

### 1. Cargar el archivo `profesores.xlsx` y guardarlo en un objeto llamado `profesores`.

### 2. Cargar el archivo `BasePrograma.xlsx` y guardarlo en un objeto llamado `baseprograma`.

---

---

# <svg aria-hidden="true" role="img" viewBox="0 0 448 512" style="height:1em;width:0.88em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M416 32C433.7 32 448 46.33 448 64V128C448 145.7 433.7 160 416 160V352C433.7 352 448 366.3 448 384V448C448 465.7 433.7 480 416 480H352C334.3 480 320 465.7 320 448H128C128 465.7 113.7 480 96 480H32C14.33 480 0 465.7 0 448V384C0 366.3 14.33 352 32 352V160C14.33 160 0 145.7 0 128V64C0 46.33 14.33 32 32 32H96C113.7 32 128 46.33 128 64H320C320 46.33 334.3 32 352 32H416zM368 80V112H400V80H368zM96 160V352C113.7 352 128 366.3 128 384H320C320 366.3 334.3 352 352 352V160C334.3 160 320 145.7 320 128H128C128 145.7 113.7 160 96 160zM48 400V432H80V400H48zM400 432V400H368V432H400zM80 112V80H48V112H80z"/></svg> Vectores

.pull-left[
El tipo de dato fundamental en R es el vector. Un vector es una secuencia de elementos de datos todos del mismo tipo.

Creamos un vector de dimensión 1:

```r
x <- 4
is.vector(x)        #¿es vector?
## [1] TRUE
```

Hay varias formas de crear vectores, pero una de las más comunes es el operador de concatenación `c()`. 
]

```r
y <- c(11, 13, 15, 20)
y                   #para imprimir vector
## [1] 11 13 15 20
is.vector(y)
## [1] TRUE
```

También podemos crear un vector de tipo caracter de 4 elementos:

```r
z <- c("1", "5", "11", "14")
z
## [1] "1"  "5"  "11" "14"
is.vector(z)
## [1] TRUE
```
]

---

```r
w <- c(2, 5, 6, 8)
w
## [1] 2 5 6 8

y + 2*w - 3
## [1] 12 20 24 33
```
]

Para conocer la longitud de un vector usamos `length()`.

```r
length(y)
## [1] 4
```

]

---

* `x[]` es una forma de llamar a un elemento específico de un vector.
* `x[1]` es el primer elemento.
* `x[3]` es el tercer elemento.
* `x[-3]` es un vector con todo menos el tercer elemento.
]

```r
# reviso los elementos que contiene el vector w
w     
## [1] 2 5 6 8

# extraigo el segundo elemento del vector w
w[2]    
## [1] 5

# imprimo el vector w, excepto su tercer elemento
w[-3]   
## [1] 2 5 8
```
]

---

.pull-left[
Un data frame es un conjunto de vectores que deben cumplir las siguientes propiedades:
* Las componentes son vectores
* Cada vector puede ser de un tipo de dato distinto
* Cada columna es una variable
* Las columnas tienen el mismo largo

Las filas se denominan observaciones y las columnas se las denomina variables.
]

---

.pull-left[
## <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M448 32C483.3 32 512 60.65 512 96V416C512 451.3 483.3 480 448 480H64C28.65 480 0 451.3 0 416V96C0 60.65 28.65 32 64 32H448zM224 256V160H64V256H224zM64 320V416H224V320H64zM288 416H448V320H288V416zM448 256V160H288V256H448z"/></svg> Crear un data.frame

Con la función `data.frame()`, que se conformará de la unión de 3 vectores creados previamente.

```r
nombres <- c("Marcela Cox", "Luis Vargas", "David Mieles")
edades <- c(24,32,27)
seguro <- factor(c("IESS", "BMI", "IESS"))

pacientes <- data.frame(nombres, edades, seguro)
pacientes
##        nombres edades seguro
## 1  Marcela Cox     24   IESS
## 2  Luis Vargas     32    BMI
## 3 David Mieles     27   IESS
```

Ver objeto creado en el panel `Environment`.
]

.pull-right[
## <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M448 32C483.3 32 512 60.65 512 96V416C512 451.3 483.3 480 448 480H64C28.65 480 0 451.3 0 416V96C0 60.65 28.65 32 64 32H448zM224 256V160H64V256H224zM64 320V416H224V320H64zM288 416H448V320H288V416zM448 256V160H288V256H448z"/></svg> Cambiar nombre de columnas

* Desde la creación del data.frame:

```r
pacientes2 <- data.frame(N1=nombres, N2=edades, seguro)
pacientes2
##             N1 N2 seguro
## 1  Marcela Cox 24   IESS
## 2  Luis Vargas 32    BMI
## 3 David Mieles 27   IESS
```

* En un data.frame existente con `names()`:

```r
names(pacientes2) <- c("Name", "Age", "Insurance")
pacientes2
##           Name Age Insurance
## 1  Marcela Cox  24      IESS
## 2  Luis Vargas  32       BMI
## 3 David Mieles  27      IESS
```
]

---

Supongamos que queremos extraer la edad de David Mieles. (indexación)

```r
pacientes[3,2]
## [1] 27
```

]

También podemos consultar a R por los valores de una columna entera de nuestro data set con el símbolo `$`.

```r
pacientes$nombres
## [1] "Marcela Cox"  "Luis Vargas"  "David Mieles"
```

Y aplicar una función a esa columna:

```r
mean(pacientes$edades)
## [1] 27.66667
```

]

---

# <svg aria-hidden="true" role="img" viewBox="0 0 576 512" style="height:1em;width:1.12em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M128 160C128 142.3 142.3 128 160 128H288C305.7 128 320 142.3 320 160V256C320 273.7 305.7 288 288 288H160C142.3 288 128 273.7 128 256V160zM288 320C323.3 320 352 291.3 352 256V224H416C433.7 224 448 238.3 448 256V352C448 369.7 433.7 384 416 384H288C270.3 384 256 369.7 256 352V320H288zM32 119.4C12.87 108.4 0 87.69 0 64C0 28.65 28.65 0 64 0C87.69 0 108.4 12.87 119.4 32H456.6C467.6 12.87 488.3 0 512 0C547.3 0 576 28.65 576 64C576 87.69 563.1 108.4 544 119.4V392.6C563.1 403.6 576 424.3 576 448C576 483.3 547.3 512 512 512C488.3 512 467.6 499.1 456.6 480H119.4C108.4 499.1 87.69 512 64 512C28.65 512 0 483.3 0 448C0 424.3 12.87 403.6 32 392.6V119.4zM119.4 96C113.8 105.7 105.7 113.8 96 119.4V392.6C105.7 398.2 113.8 406.3 119.4 416H456.6C462.2 406.3 470.3 398.2 480 392.6V119.4C470.3 113.8 462.2 105.7 456.6 96H119.4z"/></svg> Funciones básicas para explorar data.frames

.pull-left[
* **`dim():`** indica las dimensiones del data.frame o tibble, número de filas y columnas.

* **`str():`** muestra de forma compacta la estructura interna de un objeto R.

* **`colnames():`** muestra el nombre de las variables de un data.frame.

* **`head():`** muestra las 10 primeras obervaciones del conjunto de datos.

* **`tail():`** muestra las 4 últimas observaciones del conjunto de datos.
]

.pull-right[
* **`summary():`** produce resúmenes de resultados de varias variables. Los resultados dependen de la clase de datos.

* **`sum():`** devuelve la suma de todos los valores presentes en sus argumentos.

* **`min():`** devuelve el valor mínimo de un vector numérico.

* **`max():`** devuelve el valor máximo de un vector numérico.
]

---

.panelset[
.panel[.panel-name[Encuestados]
¿Cuántas personas llenaron la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas?

```r
dim(profesores)
## [1] 175  14
```
]

¿Cuál es la estructura de la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas?

```r
str(profesores)
## tibble [175 × 14] (S3: tbl_df/tbl/data.frame)
##  $ Fecha                      : POSIXct[1:175], format: "2020-06-24 19:53:09" "2020-06-24 20:31:49" ...
##  $ Genero                     : chr [1:175] "Masculino" "Femenino" "Masculino" "Femenino" ...
##  $ Edad                       : num [1:175] 36 31 35 26 35 38 35 45 38 37 ...
##  $ Nivel_docencia             : chr [1:175] "Educación infantil, primaria o básica" "Educación superior" "Educación superior" "Educación secundaria y bachillerato" ...
##  $ Tiempo_impartiendo_docencia: chr [1:175] "Menos de 3 años" "Menos de 3 años" "Menos de 3 años" "Menos de 3 años" ...
##  $ No_Alumnos                 : num [1:175] 42 37 30 19 25 43 41 24 27 18 ...
##  $ No_Alumnos NEE             : num [1:175] 2 1 0 2 2 1 2 1 0 1 ...
##  $ AD_es_necesaria            : num [1:175] 5 5 5 5 5 5 5 5 4 3 ...
##  $ AD_en_cualquier_asignatura : num [1:175] 5 4 4 3 4 5 5 4 4 3 ...
##  $ Leyes_para_ANEE            : num [1:175] 3 5 3 1 2 2 5 2 3 3 ...
##  $ Ratio_de_ANEE              : num [1:175] 2 5 3 1 2 3 5 3 3 2 ...
##  $ Asistente_de_clases        : num [1:175] 5 5 3 5 3 2 5 3 4 3 ...
##  $ Suficiente_instruccion     : num [1:175] 5 3 2 3 2 4 5 4 2 3 ...
##  $ Material_utilizado         : chr [1:175] "Videos" "Videos" "Videos" "Libro de texto" ...
```
]

¿Cuáles son las variables de la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas?

```r
colnames(profesores)
##  [1] "Fecha"                       "Genero"                     
##  [3] "Edad"                        "Nivel_docencia"             
##  [5] "Tiempo_impartiendo_docencia" "No_Alumnos"                 
##  [7] "No_Alumnos NEE"              "AD_es_necesaria"            
##  [9] "AD_en_cualquier_asignatura"  "Leyes_para_ANEE"            
## [11] "Ratio_de_ANEE"               "Asistente_de_clases"        
## [13] "Suficiente_instruccion"      "Material_utilizado"
```
]

Visualización de las primeras 5 encuestas realizadas al profesorado sobre la situación actual de alumnos con necesidades especiales educativas

```r
head(profesores, n=5)
## # A tibble: 5 × 14
##   Fecha               Genero     Edad Nivel_docencia Tiempo_impartie… No_Alumnos
##   <dttm>              <chr>     <dbl> <chr>          <chr>                 <dbl>
## 1 2020-06-24 19:53:09 Masculino    36 Educación inf… Menos de 3 años          42
## 2 2020-06-24 20:31:49 Femenino     31 Educación sup… Menos de 3 años          37
## 3 2020-06-24 21:07:19 Masculino    35 Educación sup… Menos de 3 años          30
## 4 2020-06-24 21:08:00 Femenino     26 Educación sec… Menos de 3 años          19
## 5 2020-06-24 21:08:26 Femenino     35 Educación sup… Menos de 3 años          25
## # … with 8 more variables: `No_Alumnos NEE` <dbl>, AD_es_necesaria <dbl>,
## #   AD_en_cualquier_asignatura <dbl>, Leyes_para_ANEE <dbl>,
## #   Ratio_de_ANEE <dbl>, Asistente_de_clases <dbl>,
## #   Suficiente_instruccion <dbl>, Material_utilizado <chr>
```
]

Visualización de las últimas 5 encuestas realizadas al profesorado sobre la situación actual de alumnos con necesidades especiales educativas

```r
tail(profesores, n=5)
## # A tibble: 5 × 14
##   Fecha               Genero     Edad Nivel_docencia Tiempo_impartie… No_Alumnos
##   <dttm>              <chr>     <dbl> <chr>          <chr>                 <dbl>
## 1 2020-07-04 08:16:02 Femenino     32 Educación sup… Más de 6 años            42
## 2 2020-07-05 16:23:13 Masculino    25 Educación sup… Menos de 3 años          31
## 3 2020-07-07 16:52:45 Femenino     39 Educación inf… Menos de 3 años          29
## 4 2020-07-07 16:54:27 Femenino     39 Educación inf… Menos de 3 años          32
## 5 2020-07-07 17:00:54 Masculino    52 Educación sec… Más de 6 años            38
## # … with 8 more variables: `No_Alumnos NEE` <dbl>, AD_es_necesaria <dbl>,
## #   AD_en_cualquier_asignatura <dbl>, Leyes_para_ANEE <dbl>,
## #   Ratio_de_ANEE <dbl>, Asistente_de_clases <dbl>,
## #   Suficiente_instruccion <dbl>, Material_utilizado <chr>
```
]

]

---

¿Cuántos alumnos con necesidades especiales educativas constan en la encuesta?

```r
sum(profesores$`No_Alumnos NEE`)
## [1] 149
```
]

¿Cuál es la edad del profesor más joven que llenó la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas?

```r
min(profesores$Edad)
## [1] 25
```
]

¿Cuál es la edad del profesor mayor que llenó la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas?

```r
max(profesores$Edad)
## [1] 62
```
]

.panel[.panel-name[Resumen]
Genere un resumen de la variable `No_Alumnos` de la encuesta de la situación actual del profesorado de alumnos con necesidades especiales educativas.

```r
summary(profesores$No_Alumnos)
##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
##   18.00   26.00   33.00   32.48   39.00   45.00
```
]

]

---

---

<div class="figure" style="text-align: center">
<img src="img/tiposdatos.png" alt="Figura 2. Tipos de datos en R" width="100%" />
<p class="caption">Figura 2. Tipos de datos en R</p>
</div>

---

## **Numéricos**

```r
# clase de un vector de 1 elemento
class(5)
## [1] "numeric"

# clase de la columna edades del dataset pacientes
class(pacientes$edades)
## [1] "numeric"
```

Ahora, el vector `$z$` de tipo caracter lo convertiremos en tipo numérico.

```r
z
## [1] "1"  "5"  "11" "14"
class(z)
## [1] "character"
```
]

```r
# cambio de clase caracter a numérico con as.numeric()
class(as.numeric(z))
## [1] "numeric"
```

### Con `parse_number()`.

```r
library(readr)
# cambio de clase caracter a numérico con parse_number()
class(parse_number(z))
## [1] "numeric"
```

]

<!--

## **Numéricos**

.pull-left[
**`parse_number()`** es muy útil para resolver problemas de decimales, caracteres que acompañas a números y caracteres de agrupación.

En R, por default, el decimal es el punto; `grouping_mark` para especificar el signo de agrupación; `decimal_mark` para especificar el decimal a cambiar.

```r
parse_number("6'789,56", 
             locale = locale(grouping_mark = "'",
                             decimal_mark = ","))
## [1] 6789.56
```

]

```r
parse_number("$100")
## [1] 100

parse_number("20%")
## [1] 20

parse_number("It cost $123.45")
## [1] 123.45

parse_number("$123.456.789", locale = locale(grouping_mark = "."))
## [1] 123456789
```

]
-->

---

## **Cadena de Caracteres**

`charToRaw():` realiza una representación subyacente de una cadena de texto.

```r
charToRaw("Linda")
## [1] 4c 69 6e 64 61
```

¿Qué sucede cuando tus datos producidos no entienden UTF-8?

```r
library(readr)
x1 <- "El Ni\xf1o was particularly bad this year"
```

]

Para corregir el problema necesitas especificar la codificación en **`parse_character()`**:

```r
parse_character(x1, locale = locale(encoding = "Latin1"))
## [1] "El Niño was particularly bad this year"
```

¿Cómo encontrar la codificación correcta? Con `guess_encoding()`

```r
guess_encoding(charToRaw(x1))
## # A tibble: 2 × 2
##   encoding   confidence
##   <chr>           <dbl>
## 1 ISO-8859-1       0.46
## 2 ISO-8859-9       0.23
```

]

---

## **Cadena de Caracteres**

`stringr` proporciona un conjunto cohesivo de funciones diseñadas para trabajar de forma más fácil con cadenas de caracteres.

```r
library(stringr)
```

]

```r
frase <- "Esta es una cadena de caracteres"
class(frase)
## [1] "character"
```

`str_length()` indica el número de caracteres de una cadena.

```r
str_length(frase)
## [1] 32
```

`str_c()` combina dos o más cadenas:

```r
str_c(frase, " y esto también")
## [1] "Esta es una cadena de caracteres y esto también"
```

]

.footnote[ [stringr.tidyverse.org](https://stringr.tidyverse.org/) || [tidyverse/reprex](https://github.com/tidyverse/reprex)]

---

## **Factores**

`forcats` proporciona un conjunto de herramientas que resuelven problemas comunes con factores.

```r
library(forcats)
```

]

```r
fc1 <- c("Dic", "Abr", "Ene", "Mar")
class(fc1)
## [1] "character"
```

Si trabajamos esta variable en tipo caracter, tendremos 2 problemas:
1. Errores de tipeo,
2. No se ordena de una forma útil.

Estos problemas se solucionan trabajando con factores.
]

.footnote[ [forcats.tidyverse.org](https://forcats.tidyverse.org/) || [Wrangling categorical data in R](https://peerj.com/preprints/3163/) || [stringsAsFactors = <sigh>](https://notstatschat.tumblr.com/post/124987394001/stringsasfactors-sigh) ]

---

## **Factores**

Para crear un factor con **`factor()`** debes:

1. Definir una lista de niveles válidos.

```r
niveles_meses <- c("Ene", "Feb", "Mar", "Abr", "May", "Jun", "Jul", "Ago", "Sep", "Oct", "Nov", "Dic")
```

2. Ahorar puedes crear un factor.

```r
y1 <- factor(fc1, levels = niveles_meses)
class(y1)
## [1] "factor"

# para acceder a los niveles del factor
levels(y1)
##  [1] "Ene" "Feb" "Mar" "Abr" "May" "Jun" "Jul" "Ago" "Sep" "Oct" "Nov" "Dic"
```

---

## **Fechas y Horas**

**`parse_datetime()`** asume una fecha-hora ISO8601, estándar internacional en el que los componentes de una fecha están organizados de mayor a menor: año, mes, día, hora, minuto, segundo.

```r
# Dato de fecha-hora
fecha1 <- "2010-10-01T2010"
parse_datetime(fecha1)
## [1] "2010-10-01 20:10:00 UTC"

# Si se omite la hora, será determinada como medianoche.
fecha2 <- "20101010"
parse_datetime(fecha2)
## [1] "2010-10-10 UTC"
```

]

**`parse_date()`** asume aaaa-mm-dd o aaaa/mm/dd.

```r
fecha3 <- "2010-10-01"
parse_date(fecha3)
## [1] "2010-10-01"
```

**`parse_time()`** espera la hh:mm:ss, los segundos y el especificador am/pm son opcionales.

```r
library(hms)
parse_time("01:10 am")
## 01:10:00
parse_time("20:10:01")
## 20:10:01
```
]

.footnote[ [ISO 8601](https://en.wikipedia.org/wiki/ISO_8601) || [hms.tidyverse.org](https://hms.tidyverse.org/)]

---

## **Fechas y Horas**

`lubridate` hace que sea más fácil hacer las cosas que hace R con fecha y hora y hace posible hacer las cosas que R base no hace.

```r
library(lubridate)
```

]

* Una fecha o `date`.
* Una hora o `time` dentro de un día.
* Una fecha-hora o date-time `dttm` (llamado también `POSIXct`).

Para obtener la fecha o fecha-hora actual utiliza `today()` o `now()`:

```r
today()
## [1] "2022-10-12"
now()
## [1] "2022-10-12 16:32:47 -05"
```
]

.footnote[ [lubridate.tidyverse.org](https://lubridate.tidyverse.org/) || [hms.tidyverse.org](https://hms.tidyverse.org/) ]

---

## **Fechas y Horas**

Hay tres modos en los que puedes crear una fecha/hora:

* Desde una cadena de caracteres (o string, en inglés).
* Desde componentes de fecha-hora individuales.
* Desde un objeto fecha-hora existente.

### Desde cadenas de caracteres

```r
ymd("2017-01-31")
## [1] "2017-01-31"
ymd("20170131")
## [1] "2017-01-31"
```
]

```r
mdy("01-31-2017")
## [1] "2017-01-31"
mdy("01312017")
## [1] "2017-01-31"

dmy("31-01-2017")
## [1] "2017-01-31"
dmy("31012017")
## [1] "2017-01-31"

mdy_hm("01/31/2017 08:01")
## [1] "2017-01-31 08:01:00 UTC"
ymd_hms("2017-01-31 20:11:59")
## [1] "2017-01-31 20:11:59 UTC"
```

]

---

## **Fechas y Horas**

Crearé un data.frame donde las fechas y las horas están repartidos en diferentes columnas.

```r
ejemplo <- data.frame(anio= c(1994, 1992, 1987),
                      dia= c(21, 02, 15),
                      mes= c(02, 04, 05),
                      hora= c(20, 14, 09),
                      minuto= c(45, 30, 15))
ejemplo
##   anio dia mes hora minuto
## 1 1994  21   2   20     45
## 2 1992   2   4   14     30
## 3 1987  15   5    9     15
```

]

```r
# forma fecha que contiene dia, mes y anio
make_date(ejemplo$anio, ejemplo$mes, ejemplo$dia)
## [1] "1994-02-21" "1992-04-02" "1987-05-15"
```

`make_datetime()` para crear fecha-hora.

```r
# forma fecha-hora
make_datetime(ejemplo$anio, ejemplo$mes, ejemplo$dia, ejemplo$hora, ejemplo$minuto)
## [1] "1994-02-21 20:45:00 UTC" "1992-04-02 14:30:00 UTC"
## [3] "1987-05-15 09:15:00 UTC"
```

]

---

## **Fechas y Horas**

### Desde otros tipos

```r
as_datetime(today())
## [1] "2022-10-12 UTC"

as_date(now())
## [1] "2022-10-12"
```

---

background-color: var(--azul-claro)
class: middle, center, inverse

---

### 1. Verifique la estructura del data set `profesores` y define el tipo de cada variable.

### 2. Prepare el data set para el análisis verificando que el tipo de dato de cada variable sea el adecuado, corríjalos.

### 3. Guarde el data set en un archivo excel en su computadora llamado `r_profesores`.

### 4. Extraer la información del 6to encuestado.

### 5. Extraer la siguiente información del 5to encuestado: edad, género y si condera que la atención a la diversidad es necesaria.

---

### 1. Verifique la estructura del data set `baseprograma` y define el tipo de cada variable.

### 2. Prepare el data set para el análisis verificando que el tipo de dato de cada variable sea el adecuado, corríjalos.

### 3. Guarde el data set coregido en un archivo excel en su computadora `r_programa`.

### 4. Extraer la información del 5to encuestado.

### 5. Extraer la estatura y edad del 9no encuestado.

---

# **¡FIN!**
## Importación y Orden de los Datos en R

### Síguenos

.pull-left[
.center[
### [@socecuest <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M504 256C504 119 393 8 256 8S8 119 8 256c0 123.8 90.69 226.4 209.3 245V327.7h-63V256h63v-54.64c0-62.15 37-96.48 93.67-96.48 27.14 0 55.52 4.84 55.52 4.84v61h-31.28c-30.8 0-40.41 19.12-40.41 38.73V256h68.78l-11 71.69h-57.78V501C413.3 482.4 504 379.8 504 256z"/></svg>](https://www.facebook.com/socecuest)

### [@see_estadistica <svg aria-hidden="true" role="img" viewBox="0 0 448 512" style="height:1em;width:0.88em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M224.1 141c-63.6 0-114.9 51.3-114.9 114.9s51.3 114.9 114.9 114.9S339 319.5 339 255.9 287.7 141 224.1 141zm0 189.6c-41.1 0-74.7-33.5-74.7-74.7s33.5-74.7 74.7-74.7 74.7 33.5 74.7 74.7-33.6 74.7-74.7 74.7zm146.4-194.3c0 14.9-12 26.8-26.8 26.8-14.9 0-26.8-12-26.8-26.8s12-26.8 26.8-26.8 26.8 12 26.8 26.8zm76.1 27.2c-1.7-35.9-9.9-67.7-36.2-93.9-26.2-26.2-58-34.4-93.9-36.2-37-2.1-147.9-2.1-184.9 0-35.8 1.7-67.6 9.9-93.9 36.1s-34.4 58-36.2 93.9c-2.1 37-2.1 147.9 0 184.9 1.7 35.9 9.9 67.7 36.2 93.9s58 34.4 93.9 36.2c37 2.1 147.9 2.1 184.9 0 35.9-1.7 67.7-9.9 93.9-36.2 26.2-26.2 34.4-58 36.2-93.9 2.1-37 2.1-147.8 0-184.8zM398.8 388c-7.8 19.6-22.9 34.7-42.6 42.6-29.5 11.7-99.5 9-132.1 9s-102.7 2.6-132.1-9c-19.6-7.8-34.7-22.9-42.6-42.6-11.7-29.5-9-99.5-9-132.1s-2.6-102.7 9-132.1c7.8-19.6 22.9-34.7 42.6-42.6 29.5-11.7 99.5-9 132.1-9s102.7-2.6 132.1 9c19.6 7.8 34.7 22.9 42.6 42.6 11.7 29.5 9 99.5 9 132.1s2.7 102.7-9 132.1z"/></svg>](https://www.instagram.com/see_estadistica/)
]]

.pull-right[
.center[
### [@see_estadistica <svg aria-hidden="true" role="img" viewBox="0 0 512 512" style="height:1em;width:1em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M459.4 151.7c.325 4.548 .325 9.097 .325 13.65 0 138.7-105.6 298.6-298.6 298.6-59.45 0-114.7-17.22-161.1-47.11 8.447 .974 16.57 1.299 25.34 1.299 49.06 0 94.21-16.57 130.3-44.83-46.13-.975-84.79-31.19-98.11-72.77 6.498 .974 12.99 1.624 19.82 1.624 9.421 0 18.84-1.3 27.61-3.573-48.08-9.747-84.14-51.98-84.14-102.1v-1.299c13.97 7.797 30.21 12.67 47.43 13.32-28.26-18.84-46.78-51.01-46.78-87.39 0-19.49 5.197-37.36 14.29-52.95 51.65 63.67 129.3 105.3 216.4 109.8-1.624-7.797-2.599-15.92-2.599-24.04 0-57.83 46.78-104.9 104.9-104.9 30.21 0 57.5 12.67 76.67 33.14 23.72-4.548 46.46-13.32 66.6-25.34-7.798 24.37-24.37 44.83-46.13 57.83 21.12-2.273 41.58-8.122 60.43-16.24-14.29 20.79-32.16 39.31-52.63 54.25z"/></svg>](https://twitter.com/see_estadistica)

### [@sosecuest <svg aria-hidden="true" role="img" viewBox="0 0 496 512" style="height:1em;width:0.97em;vertical-align:-0.125em;margin-left:auto;margin-right:auto;font-size:inherit;fill:currentColor;overflow:visible;position:relative;"><path d="M248 8C111 8 0 119 0 256S111 504 248 504 496 392.1 496 256 384.1 8 248 8zM362.1 176.7c-3.732 39.22-19.88 134.4-28.1 178.3-3.476 18.58-10.32 24.82-16.95 25.42-14.4 1.326-25.34-9.517-39.29-18.66-21.83-14.31-34.16-23.22-55.35-37.18-24.49-16.14-8.612-25 5.342-39.5 3.652-3.793 67.11-61.51 68.33-66.75 .153-.655 .3-3.1-1.154-4.384s-3.59-.849-5.135-.5q-3.283 .746-104.6 69.14-14.85 10.19-26.89 9.934c-8.855-.191-25.89-5.006-38.55-9.123-15.53-5.048-27.88-7.717-26.8-16.29q.84-6.7 18.45-13.7 108.4-47.25 144.6-62.3c68.87-28.65 83.18-33.62 92.51-33.79 2.052-.034 6.639 .474 9.61 2.885a10.45 10.45 0 0 1 3.53 6.716A43.76 43.76 0 0 1 362.1 176.7z"/></svg>](https://t.me/sosecuest)
]]