L’avènement du big data en raison de l’importante quantité de données à traiter a fait naître de nombreux métiers et donc de nombreuses spécialités. Parmi les spécialités figure en bonne place la data science qui est le domaine de prédilection des data scientists.

Pour faire de la data science, votre boîte à outils doit contenir certains outils que nous vous présenterons dans cet article. Ces outils faudrait-il le préciser, sont utiles dans plusieurs secteurs dont celui du vin, de la bière et des spiritueux. Chez EtOH, au-delà de parler de vin, de la bière et des spiritueux, nous développons et exploitons des outils afin d’accompagner les acteurs de ce monde. Zoom sur le Top 10 de ces outils qui font aussi notre quotidien.

Les outils de bases de données relationnelles

Une base de données relationnelle est un ensemble de données classées dans des tables avec des attributs. Il est possible de lier les tables entre elles tout en définissant les restrictions, les relations et en créant un modèle de données.

Entre autre outils utilisés pour la gestion des bases de données on peut citer :

SQL Server

C’est l’un des SGBDR (Système de Gestion de Base de Données Relationnelles) les plus utilisés au monde. Depuis 2016, SQL Server propose des services qui incluent la prise en charge du code R. Un an plus tard, soit en 2017, le langage Python sera également pris en charge. Vous avez la possibilité d’acheter une Licence afin d’utiliser SQL Server en l’installant sur un serveur windows. Les tarifs varient en fonction du nombre d’utilisateurs qui peuvent se connecter simultanément.

MySQL

Très prisé parmi les logiciels open source, MySQL est un SGBDR très populaire. Il faut dire que bon nombre d’applications web utilisent MySQL en raison de sa conformité avec la norme SQL. Avec une procédure d’installation simple, MySQL doit également son succès à la forte communauté de développeurs qui l’entoure. MySQL n’a pas une fonction native qui permet de faire l’analyse de données. Toutefois, il est intégrable à tous les outils de reporting, de business intelligence et de data visualisation.

Bases de données non relationnelles

Encore appelée base de données NoSQL, ce type de base de données permet d’avoir un accès plus rapide aux structures de données non tabulaires.

MongoDB

MongoDB fait partie des systèmes de bases de données non relationnelles populaires. Il stocke les données sous forme de document JSON. Avec MongoDB, vous avez la possibilité de stocker vos données sans qu’il n’y ait de liste de champs fixes à observer dans les éléments stockés. Mieux, vous avez la possibilité de modifier la structure des données au fil du temps ce qui peut être dangereux dans le cas d’une base de données relationnelles.

Redis

Open-source, Redis est un « magasin » de structures de données, qui fournit des services de base de données et fonctionne comme courtier de message et comme mémoire cache. C’est d’ailleurs ces atouts qui font sa réputation. Il faut dire que Redis peut être configuré afin de conserver de manière sélective les données.

Les cadres big data

On fait recours au cadre big data lorsque les données à analyser sont volumineuses. Deux frameworks dominent le marché dans ce domaine. Il s’agit de : Hadoop et Spark.

Hadoop

Hadoop est un cadre big data qui sera très utile dans la récupération, le traitement et le stockage d’importantes quantités de données. Handoop s’appuie sur MapReduce, un algorithme d’orchestration qui se charge  de subdiviser les tâches afin de les répartir entre les clusters disponibles. Pour utiliser Handoop, vous avez besoin de l’expertise de quelqu’un qui a l’habitude de l’utiliser et qui maitrise l’administration sous Linux.

Spark

Grand concurrent de Hadoop, Spark est apprécié en raison de sa vitesse d’analyse et de sa simplicité en termes de prise en main. Selon certains observateurs, Spark est 10 fois plus rapide que Hadoop si vous travaillez sur un disque et 100 fois plus en mémoire. Avec Spark vous avez besoin de moins de machines qu’avec Hadoop pour le traitement d’une même quantité de données.

Outils de visualisation

Pour la data visualisation nous n’hésitons pas à faire recours à :

 Power BI

Solution du géant Américain Microsoft, Power BI est une application de data visualisation qui vous permet de prendre des données de différentes sources (bases de données, feuilles de calcul, fichiers texte …) afin de générer des tableaux de bord contenant des tableaux, des cartes, des graphiques et de nombreux objets de visualisation.

Tableau

Relativement facile à prendre en main, Tableau est un outil de data visualisation qui vous permet également de prendre des données de différentes sources. Avec Tableau vous disposez d’une version web , d’une version de bureau et d’un service en ligne afin de partager les tableaux de bord que vous avez créé.

Les outils de grattage

Faire du grattage web ou du scarping web revient à extraire de façon automatique, des informations des sites web.

Octoparse

Application de bureau ne nécessitant aucun codage, Octoparse réussit là où les robots « classiques » de scarping échouent. Cette application dispose d’une interface qui vous permet de voir le processus d’extraction à travers un concepteur de flux de travail graphique.

Les langages de programmation

Python

Son nom fait  peut-être peur quand on l’entend pour la première fois, mais  rassurez-vous il ne vous fera aucun mal si vous l’utilisez. Excellent langage de programmation, avec une syntaxe relativement simple et facile à maîtriser, Python est un langage de haut niveau adapté au développement rapide d’application.  Avec un coût de maintenance réduit, Python est un langage très apprécié des data scientists en raison de sa portabilité et de ses performances.

Pour aller plus loin…