Facteur dans R: Variable catégorielle & Variables continues

Table des matières:

Anonim

Qu'est-ce que le facteur dans R?

Factor in R est une variable utilisée pour catégoriser et stocker les données, ayant un nombre limité de valeurs différentes. Il stocke les données sous forme de vecteur de valeurs entières. Factor in R est également connu sous le nom de variable catégorielle qui stocke les valeurs de données de chaîne et d'entier sous forme de niveaux. Le facteur est principalement utilisé dans la modélisation statistique et l'analyse exploratoire des données avec R.

Dans un ensemble de données, nous pouvons distinguer deux types de variables: catégoriques et continues .

  • Dans les statistiques descriptives des variables catégorielles de R, la valeur est limitée et généralement basée sur un groupe fini particulier. Par exemple, une variable catégorielle dans R peut être le pays, l'année, le sexe, la profession.
  • Une variable continue, cependant, peut prendre n'importe quelle valeur, de l'entier au décimal. Par exemple, nous pouvons avoir le chiffre d'affaires, le prix d'une action, etc…

Variables catégorielles

Les variables catégorielles dans R sont stockées dans un facteur. Vérifions le code ci-dessous pour convertir une variable de caractère en une variable de facteur dans R. Les caractères ne sont pas pris en charge dans l'algorithme d'apprentissage automatique, et le seul moyen est de convertir une chaîne en entier.

Syntaxe

factor(x = character(), levels, labels = levels, ordered = is.ordered(x))

Arguments:

  • x : Un vecteur de données catégorielles dans R. Doit être une chaîne ou un entier, pas décimal.
  • Niveaux : Un vecteur de valeurs possibles prises par x. Cet argument est facultatif. La valeur par défaut est la liste unique des éléments du vecteur x.
  • Libellés : ajoutez un libellé aux x données catégorielles dans R. Par exemple, 1 peut prendre le libellé «male» tandis que 0, le libellé «female».
  • ordonné : Déterminez si les niveaux doivent être ordonnés dans les données catégorielles dans R.

Exemple:

Créons une trame de données factorielles.

# Create gender vectorgender_vector <- c("Male", "Female", "Female", "Male", "Male")class(gender_vector)# Convert gender_vector to a factorfactor_gender_vector <-factor(gender_vector)class(factor_gender_vector)

Production:

## [1] "character"## [1] "factor"

Il est important de transformer une chaîne en variable de facteur dans R lorsque nous effectuons une tâche d'apprentissage automatique.

Une variable catégorielle dans R peut être divisée en variable catégorielle nominale et variable catégorielle ordinale .

Variable catégorielle nominale

Une variable catégorielle a plusieurs valeurs mais l'ordre n'a pas d'importance. Par exemple, homme ou femme. Les variables catégorielles dans R n'ont pas de classement.

# Create a color vectorcolor_vector <- c('blue', 'red', 'green', 'white', 'black', 'yellow')# Convert the vector to factorfactor_color <- factor(color_vector)factor_color

Production:

## [1] blue red green white black yellow## Levels: black blue green red white yellow

À partir de factor_color, nous ne pouvons dire aucune commande.

Variable catégorielle ordinale

Les variables catégorielles ordinales ont un ordre naturel. Nous pouvons spécifier l'ordre, du plus bas au plus élevé avec order = TRUE et du plus haut au plus bas avec order = FALSE.

Exemple:

Nous pouvons utiliser summary pour compter les valeurs de chaque variable factorielle dans R.

# Create Ordinal categorical vectorday_vector <- c('evening', 'morning', 'afternoon', 'midday', 'midnight', 'evening')# Convert `day_vector` to a factor with ordered levelfactor_day <- factor(day_vector, order = TRUE, levels =c('morning', 'midday', 'afternoon', 'evening', 'midnight'))# Print the new variablefactor_day

Production:

## [1] evening morning afternoon middaymidnight evening 

Exemple:

## Levels: morning < midday < afternoon < evening < midnight# Append the line to above code# Count the number of occurence of each levelsummary(factor_day)

Production:

## morning midday afternoon evening midnight## 1 1 1 2 1

R a ordonné le niveau de «matin» à «minuit» comme spécifié dans les parenthèses des niveaux.

Variables continues

Les variables de classe continue sont la valeur par défaut dans R. Elles sont stockées sous forme numérique ou entière. Nous pouvons le voir à partir de l'ensemble de données ci-dessous. mtcars est un jeu de données intégré. Il rassemble des informations sur différents types de voitures. Nous pouvons l'importer en utilisant mtcars et vérifier la classe de la variable mpg, mile par gallon. Il renvoie une valeur numérique, indiquant une variable continue.

dataset <- mtcarsclass(dataset$mpg)

Production

## [1] "numeric"