Web Scraping et Analyse de Données

Projet d'extraction de données Web

IRHBOULA Othmane

2023

GitHub Repository

Stage de découverte du domaine numérique axé sur le web scraping et l'analyse de données, impliquant l'extraction d'informations de divers sites web et leur traitement pour enrichir les bases de données existantes.

  • Développer des scripts d'extraction de données de sites web spécifiques
  • Utiliser des technologies comme BeautifulSoup et Selenium pour le web scraping
  • Croiser les données scrapées avec les bases existantes
  • Découvrir et utiliser le langage R pour l'analyse et la visualisation de données
  • Python avec les bibliothèques BeautifulSoup et Selenium
  • MongoDB pour le croisement de données
  • Langage R pour l'analyse et la visualisation
  • Utilisation de proxys pour contourner les restrictions d'accès

Différentes approches ont été utilisées selon les sites :

  • Charika.ma : Extraction des URL avec BeautifulSoup, puis des informations avec Selenium
  • Marché Public : Utilisation de Selenium pour l'extraction et le téléchargement de pièces jointes
  • Airbnb : Combinaison de BeautifulSoup et Selenium pour l'extraction des données
  • Yakee : Utilisation de BeautifulSoup et Selenium pour l'extraction des informations
  • Nettoyage des datasets extraits sous forme de CSV
  • Prétraitement des pièces jointes pour l'IA de reconnaissance d'écriture
  • Développement d'un algorithme de comparaison de chaînes pour le rapprochement des données

Principaux défis rencontrés et solutions apportées :

  • Optimisation du temps d'exécution des scripts de scraping
  • Utilisation de proxys pour contourner les restrictions d'accès
  • Développement d'un algorithme de comparaison pour le rapprochement des données de différentes sources

Le stage a permis d'enrichir les bases de données existantes avec de nouvelles informations sur les entreprises, notamment :

  • Coordonnées géographiques
  • Adresses exactes
  • Activités des entreprises
  • Capital des entreprises

Ces données pourront être utilisées pour améliorer les analyses et les services de la DGI.