Generali Data Challenge 2021: Fraud Detection

Le frodi alle compagnie assicurative rappresentano da sempre un problema che, seppur minoritario, viene contrastato da team di specialisti che sanno riconoscere indizi e anomalie indici di frodi grazie alla loro esperienza.

Negli ultimi anni, il riconoscimento di potenziali frodi è diventata una pratica in cui la Data Science ha contribuito enormemente a fornire un’arma di contrasto particolarmente potente ed efficace.

La Generali Data Challenge 2021 ha quindi come oggetto la realizzazione di un modello predittivo di fraud detection mettendo a disposizione un dataset reale utilizzato dal Team Antifrodi per costruire il proprio modello per l’antifrode liquidativa.

Cogli quest’opportunità per dimostrare il tuo talento e mettiti in gioco!

 

Partecipando alla Challenge promossa da Generali e BeeViva potrai mettere alla prova le tue abilità di Data Scientist provando a risolvere un business problem reale:


1. Registrati alla piattaforma Datachallenge.it, accettandone i termini e le condizioni d’uso


2. Iscriviti a Generali Data Challenge: Churn Prediction, sottoscrivendo i termini del regolamento


3. Mettiti in gioco: sviluppa il tuo algoritmo di machine learning per prevedere il rischio di Frode della pratica.

Ai fini dell’ammissibilità ai premi, ai partecipanti è richiesto di inviare:

• un vettore di probabilità di frode prevista dal modello, relativamente ad ogni riga del test set (quindi 1 indica frode certa e 0 certamente non frode) (Submission Tecnica, max 1.5 Mb);
• un breve documento di testo che descriva il ragionamento seguito nella risoluzione del problema, la scelta dell’algoritmo e la struttura logica dei processi con cui è stato costruito il modello predittivo (Descrizione della Soluzione, max 15 Mb).


L’accuratezza delle vostre previsioni verrà valutata utilizzando la metrica Log Loss:

LL=-1/n Σi=1,…,n [ yi log(pi) + (1-yi) log(1-pi) ]

con yi le osservazioni (1=frode, 0=non frode) e pi la previsione fatta per yi. Il numero totale di osservazioni è indicato con n.


Uno score più basso rappresenta quindi una previsione più accurata.

Attenzione, per ragioni tecniche ogni file di submission non può superare i 3 MB, nel calcolo del punteggio verranno valutate le probabilità stimate picon un arrotondamento alla sesta cifra decimale, consigliamo quindi di impostare l’arrotondamento alla sesta cifra prima di scrivere il file per la submission evitando così di incappare in problemi di dimensione del file.


Durante tutta la competizione sarà possibile valutare la qualità delle proprie Submission attraverso una classifica parziale (Leaderboard Parziale) determinata sulla base di un sottoinsieme del test set (25%). La classifica finale sarà invece determinata dal punteggio di LogLoss ottenuto sul restante 75% del test set.

• Non c’è un limite al numero di submission che ogni partecipante può fare.
• Al termine della competizione, solo l’ultima submission valida sarà considerata per il calcolo del punteggio finale (sottomettete quindi per ultima quella che reputate migliore!).
• Il punteggio finale è calcolato usando solo le predizioni che NON sono state usate nel calcolo del punteggio parziale.
• In caso di parità di punteggio finale prevale l’utente che ha fatto per primo l’ultima submission (si noti che i risultati visualizzati dalla piattaforma sono approssimati alla sesta cifra decimale, sarà nostra cura certificare eventuali differenze di punteggio non visualizzate dal sistema)

NOTA: Non è indispensabile che ogni submission abbia un documento di spiegazione del modello, basta che questo sia presente nelle submission definitiva (l’ultima fatta prima della chiusura della challenge).

Per accedere ai dati occorre effettuare il login oppure registrarsi alla piattaforma www.datachallenge.it e quindi registrarsi e sottoscrivere i termini del regolamento della competizione.
Per accedere ai dati occorre effettuare il login oppure registrarsi alla piattaforma www.datachallenge.it e quindi registrarsi e sottoscrivere i termini del regolamento della competizione.
Per accedere ai dati occorre effettuare il login oppure registrarsi alla piattaforma www.datachallenge.it e quindi registrarsi e sottoscrivere i termini del regolamento della competizione.
Per accedere ai dati occorre effettuare il login oppure registrarsi alla piattaforma www.datachallenge.it e quindi registrarsi e sottoscrivere i termini del regolamento della competizione.

…and the Winners are:

  • Vincitore assoluto: lorenzocav97@gmail.com
  • Vincitore classifica submission tecnica: francescolucchi@gmail.com
  • Vincitore classifica descrizione della soluzione: federico.ravenda0@gmail.com

Other Top 10:

Classifica submission tecnica:

  1. francescolucchi@gmail.com
  2. marco.scaravelli@gmail.com
  3. igor.gdc@protonmail.com
  4. lorenzocifelli@gmail.com
  5. mturla13@gmail.com
  6. cosimo.fedeli@gmail.com
  7. marco.bruttocao95@gmail.com
  8. mik3dev@gmail.com
  9. c.giancaterino@gmail.com
  10. matteo.anzano@studenti.unipd.it

Classifica descrizione della soluzione:

  1. federico.ravenda0@gmail.com
  2. plesco.victor@gmail.com
  3. iadevito.alessandro@gmail.com
  4. francesco.martella@studenti.unipd.it
  5. matteo.fedeli@mail.com
  6. mattiavanzetto@gmail.com
  7. federico.barbieri.999@gmail.com
  8. ale.guarnieri@virgilio.it
  9. niclaauletta.na@gmail.com
  10. alket.cecaj@gmail.com