"""
Convertit les fichiers Excel en parquet filtré sur 2024.
À lancer une seule fois : python3 prepare_data.py
"""
import pandas as pd
from pathlib import Path

DATA_DIR = Path(__file__).parent

FILES = {
    "ecoles": "fr-en-ecoles-effectifs-nb_classes(7).xlsx",
    "colleges": "fr-en-college-effectifs-niveau-sexe-lv(7).xlsx",
    "lycees": "fr-en-lycee_gt-effectifs-niveau-sexe-lv(3).xlsx",
}

for name, fname in FILES.items():
    print(f"Traitement {fname} …")
    df = pd.read_excel(DATA_DIR / fname)
    df2024 = df[df["Rentrée scolaire"] == 2024].copy()
    out = DATA_DIR / f"{name}_2024.parquet"
    df2024.to_parquet(out, index=False)
    print(f"  → {len(df2024):,} lignes → {out.name}  ({out.stat().st_size/1024:.0f} Ko)")

print("Terminé.")
