Web Scraping & Analyse

Collecte automatisée et analyse de données web pour la recherche et la prise de décision.

Python Selenium BeautifulSoup MongoDB R
GitHub

Description

Ce projet met en œuvre des techniques de web scraping pour collecter des données à partir de sites web variés. Les données collectées sont nettoyées, transformées et analysées pour en extraire des informations pertinentes.

Objectifs

  • Automatiser la collecte de données à partir de multiples sources web
  • Nettoyer et structurer les données collectées
  • Réaliser des analyses statistiques descriptives

Technologies

  • Python — Selenium & BeautifulSoup
  • MongoDB pour le stockage des données
  • R pour l'analyse statistique
  • Pandas & NumPy pour le traitement

Processus

  • Configuration des navigateurs headless avec Selenium
  • Extraction et parsing du HTML avec BeautifulSoup
  • Nettoyage et normalisation des données
  • Stockage en base de données MongoDB
  • Analyse et visualisation des résultats

Résultats

  • Collecte réussie sur plusieurs sites cibles
  • Pipeline de données entièrement automatisé
  • Rapports d'analyse avec visualisations claires