Qu'est-ce que le langage de programmation R? Introduction & Bases de R

Table des matières:

Anonim

Qu'est-ce que R Software?

R est un langage de programmation et un logiciel libre développé par Ross Ihaka et Robert Gentleman en 1993. R possède un vaste catalogue de méthodes statistiques et graphiques. Il comprend des algorithmes d'apprentissage automatique, une régression linéaire, des séries chronologiques, une inférence statistique pour n'en nommer que quelques-uns. La plupart des bibliothèques R sont écrites en R, mais pour les tâches de calcul lourdes, les codes C, C ++ et Fortran sont préférés.

R n'est pas seulement confié par des universitaires, mais de nombreuses grandes entreprises utilisent également le langage de programmation R, notamment Uber, Google, Airbnb, Facebook, etc.

L'analyse des données avec R se fait en une série d'étapes; programmer, transformer, découvrir, modéliser et communiquer les résultats

  • Programme : R est un outil de programmation clair et accessible
  • Transform : R est composé d'une collection de bibliothèques conçues spécifiquement pour la science des données
  • Découvrir : Examinez les données, affinez votre hypothèse et analysez-les
  • Model : R fournit un large éventail d'outils pour capturer le bon modèle pour vos données
  • Communiquez : intégrez des codes, des graphiques et des sorties à un rapport avec R Markdown ou créez des applications Shiny à partager avec le monde

Dans ce didacticiel d'introduction, vous apprendrez R

  • À quoi sert R?
  • R par industrie
  • Paquet R
  • Communiquer avec R
  • Pourquoi utiliser R?
  • Devriez-vous choisir R?
  • R est-il difficile?

À quoi sert R?

  • Inférence statistique
  • L'analyse des données
  • Algorithme d'apprentissage automatique

R par industrie

Si nous décomposons l'utilisation de R par industrie, nous voyons que les universitaires viennent en premier. R est un langage pour faire des statistiques. R est le premier choix dans le secteur de la santé, suivi du gouvernement et du conseil.

Paquet R

Les principales utilisations de R sont et seront toujours les statistiques, la visualisation et l'apprentissage automatique. L'image ci-dessous montre quel package R a reçu le plus de questions dans Stack Overflow. Dans le top 10, la plupart d'entre eux sont liés au workflow d'un data scientist: préparation des données et communication des résultats.

Toutes les bibliothèques de R, presque 12k, sont stockées dans CRAN. CRAN est un logiciel gratuit et open source. Vous pouvez télécharger et utiliser les nombreuses bibliothèques pour effectuer un apprentissage automatique ou une analyse de séries chronologiques.

Communiquer avec R

R dispose de plusieurs façons de présenter et de partager le travail, que ce soit via un document de démarque ou une application brillante. Tout peut être hébergé sur Rpub, GitHub ou sur le site Web de l'entreprise.

Voici un exemple de présentation hébergée sur Rpub

Rstudio accepte le démarquage pour écrire un document. Vous pouvez exporter les documents dans différents formats:

  • Document :
    • HTML
    • PDF / Latex
    • Mot
  • Présentation
    • HTML
    • Vidéoprojecteur PDF

Rstudio a un excellent outil pour créer facilement une application. Voici un exemple d'application avec les données de la Banque mondiale.

Pourquoi utiliser R?

La science des données façonne la manière dont les entreprises gèrent leurs activités. Sans aucun doute, rester à l'écart de l'intelligence artificielle et de la machine conduira l'entreprise à l'échec. La grande question est de savoir quel outil / langage devez-vous utiliser?

Ce sont de nombreux outils disponibles sur le marché pour effectuer des analyses de données. Apprendre une nouvelle langue nécessite un investissement en temps. L'image ci-dessous illustre la courbe d'apprentissage par rapport à la capacité commerciale offerte par une langue. La relation négative implique qu'il n'y a pas de déjeuner gratuit. Si vous souhaitez tirer le meilleur parti des données, vous devez passer du temps à apprendre l'outil approprié, à savoir R.

En haut à gauche du graphique, vous pouvez voir Excel et PowerBI. Ces deux outils sont simples à maîtriser mais n'offrent pas de capacités commerciales exceptionnelles, notamment en termes de modélisation. Au milieu, vous pouvez voir Python et SAS. SAS est un outil dédié pour exécuter une analyse statistique pour les entreprises, mais ce n'est pas gratuit. SAS est un logiciel click and run. Python, cependant, est un langage avec une courbe d'apprentissage monotone. Python est un outil fantastique pour déployer le Machine Learning et l'IA, mais il manque de fonctionnalités de communication. Avec une courbe d'apprentissage identique, R est un bon compromis entre la mise en œuvre et l'analyse des données.

En ce qui concerne la visualisation des données (DataViz), vous avez probablement entendu parler de Tableau. Tableau est, sans aucun doute, un excellent outil pour découvrir des modèles à travers des graphiques et des graphiques. De plus, l'apprentissage de Tableau ne prend pas beaucoup de temps. Un gros problème avec la visualisation des données est que vous pourriez finir par ne jamais trouver de modèle ou simplement créer de nombreux graphiques inutiles. Tableau est un bon outil pour une visualisation rapide des données ou de la Business Intelligence. Lorsqu'il s'agit de statistiques et d'outil d'aide à la décision, R est plus approprié.

Stack Overflow est une grande communauté de langages de programmation. Si vous avez un problème de codage ou avez besoin de comprendre un modèle, Stack Overflow est là pour vous aider. Au cours de l'année, le pourcentage de questions-vues a fortement augmenté pour R par rapport aux autres langues. Cette tendance est bien sûr fortement corrélée avec l'âge en plein essor de la science des données, mais elle reflète la demande du langage R pour la science des données.

En science des données, deux outils se font concurrence. R et Python sont probablement le langage de programmation qui définit la science des données.

Devriez-vous choisir R?

Le data scientist peut utiliser deux excellents outils: R et Python. Vous n'aurez peut-être pas le temps de les apprendre tous les deux, surtout si vous commencez à apprendre la science des données. Apprentissage de la modélisation statistique et de l'algorithmeest bien plus important que d'apprendre un langage de programmation. Un langage de programmation est un outil pour calculer et communiquer votre découverte. La tâche la plus importante en science des données est la manière dont vous gérez les données: importation, nettoyage, préparation, ingénierie des fonctionnalités, sélection des fonctionnalités. Cela devrait être votre objectif principal. Si vous essayez d'apprendre R et Python en même temps sans une solide expérience en statistiques, c'est tout simplement stupide. Les data scientist ne sont pas des programmeurs. Leur travail consiste à comprendre les données, à les manipuler et à exposer la meilleure approche. Si vous vous demandez quelle langue apprendre, voyons quelle langue vous convient le mieux.

Le principal public de la science des données est le professionnel des affaires. Dans l'entreprise, une grande implication est la communication. Il existe de nombreuses façons de communiquer: rapport, application Web, tableau de bord. Vous avez besoin d'un outil qui fait tout cela ensemble.

R est-il difficile?

Il y a des années, R était une langue difficile à maîtriser. Le langage était déroutant et pas aussi structuré que les autres outils de programmation. Pour surmonter ce problème majeur, Hadley Wickham a développé une collection de paquets appelée tidyverse. La règle du jeu a changé pour le mieux. La manipulation des données devient triviale et intuitive. Créer un graphique n'était plus si difficile.

Les meilleurs algorithmes d'apprentissage automatique peuvent être implémentés avec R. Des packages comme Keras et TensorFlow permettent de créer une technique d'apprentissage automatique haut de gamme. R a également un package pour exécuter Xgboost, l'un des meilleurs algorithmes pour la compétition Kaggle.

R peut communiquer avec l'autre langue. Il est possible d'appeler Python, Java, C ++ en R. Le monde du big data est également accessible à R. Vous pouvez connecter R avec différentes bases de données comme Spark ou Hadoop.

Enfin, R a évolué et a permis une opération de parallélisation pour accélérer le calcul. En fait, R a été critiqué pour n'utiliser qu'un seul processeur à la fois. Le package parallèle vous permet d'effectuer des tâches dans différents cœurs de la machine.

Résumé

En un mot, R est un excellent outil pour explorer et étudier les données. Des analyses élaborées telles que le clustering, la corrélation et la réduction des données sont effectuées avec R. C'est la partie la plus cruciale, sans une bonne ingénierie des fonctionnalités et un bon modèle, le déploiement de l'apprentissage automatique ne donnera pas de résultats significatifs.