PER LA CITTADINANZA

Approfondisci

Vivi o frequenti spesso la Città di Torino?
Partecipa al nostro questionario anonimo di 5 minuti e aiutaci a raccogliere punti di vista sui principali temi sociali che riguardano i cittadini.

Attenzione!
Il questionario è in italiano, ma puoi tradurlo automaticamente in inglese (o nella tua lingua preferita) utilizzando Chrome con l’estensione Google Translate.

Vai al Questionario

PER LE ISTITUZIONI

Approfondisci

Lavori per un’Istituzione della Città di Torino?

Stiamo conducendo un questionario dedicato ai decisori del Comune e a tutti i professionisti che interagiscono, direttamente o indirettamente, con i cittadini. L’obiettivo è raccogliere preziosi punti di vista sui principali temi sociali che interessano Torino.

Se lavori per il Comune di Torino, GTT o altre realtà istituzionali che hanno un impatto sulla cittadinanza torinese, sei invitato/a a partecipare allo Stakeholders Survey. Il questionario è anonimo, richiede circa 15–20 minuti e propone domande personalizzate in base al ruolo che ricopri.

Nota bene:

Il questionario è in italiano, ma puoi tradurlo facilmente in inglese (o in un’altra lingua a tua scelta) utilizzando Chrome insieme all’estensione Google Translate.
Può essere compilato solo da un dispositivo con tastiera fisica (es. PC o laptop). Ti consigliamo quindi di collegarti da computer prima di iniziare.

La tua partecipazione è per noi molto preziosa e contribuirà a comprendere meglio le voci e le esperienze che stanno plasmando la nostra città.

Vai al Questionario

DATI e RISULTATI

Approfondisci

Introduzione ai Risultati

Il progetto HARMONIA integra dati eterogenei provenienti dalla città di Torino e dalle prospettive di chi la abita all’interno di modelli linguistici di grandi dimensioni (LLM), con l’obiettivo di fornire servizi migliori, in particolare nel campo della mobilità urbana.

L’idea è quella di rendere l’intelligenza artificiale non solo più informata, ma anche più vicina alla realtà vissuta dalle persone, grazie a tre dimensioni fondamentali:

Conoscenza organizzata: non semplici testi “sparsi”, ma informazioni strutturate e collegate attraverso relazioni semantiche.
Dati comportamentali reali: numeri, statistiche e pattern che descrivono come le persone vivono e si muovono davvero.
Prospettive cittadine multiple: punti di vista della cittadinanza e delle comunità, per evitare visioni parziali o distorte.

L’obiettivo finale è creare un’IA affidabile a supporto delle scelte politiche, capace di accompagnare i processi decisionali pubblici dall’ascolto alla decisione fino alla comunicazione, in modo più attento, trasparente e collaborativo.

Estrazione ed Analisi Dati

Per il progetto HARMONIA è stato costruito un ampio ecosistema di dati eterogenei, che ha integrato fonti quantitative, qualitative e geospaziali relative alla città di Torino, con un arco temporale che va dal 2012 ad oggi. L’obiettivo era quello di restituire un quadro realistico e multilivello della mobilità urbana, delle condizioni sociali e delle pratiche quotidiane dei cittadini.

Approfondisci

Dati demografici e territoriali

Popolazione: distribuzione per genere (femmine, maschi, straniere/i), fasce d’età, composizione dei nuclei familiari (minori, adulti lavoratori, anziani).
Elementi urbani: shapefile con la localizzazione di scuole, ospedali, aree verdi.
Redditi per CAP: informazioni socioeconomiche di dettaglio.

Dati sul trasporto pubblico

Rete di trasporto urbano: linee e fermate geolocalizzate, aggiornate per anno.
Frequenza del servizio: tabelle orarie delle linee urbane (2014–2024), con particolare dettaglio per il periodo 2015–2017.
Validazioni biglietti: dataset di obliterazioni (“validazioni settimana”), con informazioni sui viaggi effettuati e disaggregazione per linea della rete GTT.
Vendite e abbonamenti: distribuzione per età, genere e residenza (Torino vs fuori Torino), con dettaglio dei canali di vendita (e-commerce, CSC, TVM metro, grandi clienti).
Ricavi: dati mensili e annuali sui canali online, inclusi IVA e rimborsi.

Dati su sicurezza e controlli

Controlli sul territorio (2012–2024): dati del progetto Linea Sicura (sicurezza, fenomeni di spaccio, borseggio, molestie, danneggiamenti, evasione tariffaria).
Altre linee di monitoraggio (AaC, AdC): con dettaglio annuale e per linea.
Multe: aggregati annuali per genere, fascia d’età e residenza (Torino vs fuori Torino).
Incidenti: database con localizzazione, tipologia di evento, veicoli coinvolti.

Dati istituzionali

Delibere: documenti ufficiali (2012, 2018, 2023, 2024), con particolare rilievo alla tabella delle tariffe regionali per servizi extraurbani in vigore dal luglio 2024.
Personale GTT: PDF con informazioni aggregate sul personale (mansione, età, genere).

Dati testuali e social media

Accanto alle fonti statistiche e amministrative, sono stati raccolti dati testuali provenienti da diverse piattaforme social:

Facebook: post da gruppi pubblici selezionati, con focus su tematiche come trasporto pubblico, istituzioni cittadine, salute, scuola, mobilità, sicurezza, mercato immobiliare, comunità locali e quartieri.
Reddit: post raccolti con keyword relative a Torino.
Twitter (TWITITA): corpus di tweet geolocalizzati o riferiti alla città.

Visualizzazione e Analisi

Grazie a questo patrimonio di dati, sono state prodotte mappe e indicatori dinamici per monitorare l’evoluzione di fenomeni urbani e sociali nel periodo 2012–2019. Le mappe permettono di:

visualizzare la distribuzione dei servizi e delle opportunità,
analizzare le disuguaglianze territoriali,
comprendere come i cambiamenti demografici e infrastrutturali si intreccino con la mobilità quotidiana.

Alcuni esempi delle analisi condotte sono presentati nella sezione seguente.

Creazione dell’Ontologia – The Nudging Ontology

Per garantire basi solide all’IA, è stata sviluppata un’ontologia capace di integrare e collegare dati diversi.

Approfondisci

Motivazioni principali:

I soli LLM non sono affidabili per decisioni cruciali (es. rischio di “allucinazioni” o informazioni estratte in modo incompleto).
Le ontologie e i knowledge graph sanno rappresentare conoscenza enciclopedica, ma spesso “non dialogano” con i modelli linguistici.
È quindi necessario unire testo (dove apprendono gli LLM) e strutture semantiche (ontologie, knowledge graph) per un processo decisionale più equo e basato su prove.

Approccio metodologico:

Basato su due teorie:
- Theory of Change (ONU): spiega come un intervento produce cambiamenti concreti, attraverso catene causali fondate su evidenze.
- Nudging Theory (Thaler): piccoli interventi che orientano i comportamenti in modo prevedibile, senza obblighi né vincoli economici.
L’ontologia rappresenta dati sociali, di mobilità e di servizi, popolata attraverso:
- Dati geospaziali demografici e di mobilità
- Domande di competenza (es. quale area ha più bisogno di migliorare il trasporto pubblico?),
- Integrazione di prospettive sociali e stakeholder,
- Modellazione di temi sensibili (es. caregiving, nudges, accessibilità).
- Una letteratura scientifica approfondita attorno alle scelte di trasporto della cittadinanza sulla base delle caratteristiche demografiche.

Un esempio di popolazione dell’Ontologia di conoscenza estratta da articoli scientifici è mostrata in figura, dove viene rappresentato il problema del mismatch spaziale (Cui et al., 2022).

I diversi elementi dell’Ontologia sono raffigurati qui:

Esempi di informazioni rappresentate:

Politiche per i trasporti pubblici
Servizi e costo della vita per area
Previsioni indirette di reddito
Dati su età, genere, status migratorio, dimensione familiare
Sovraffollamento abitativo e disuguaglianze territoriali

Di sotto un esempio di interrogazione del Knowledge Graph popolato:

Sperimentazione con RAG – Perspective Taking LLMs

Parallelamente all’ontologia, è stata sviluppata una sperimentazione con Retrieval-Augmented Generation (RAG), per migliorare la qualità delle risposte degli LLM integrando dati aggiornati e locali.

Approfondisci

Il dataset:

Contiene 7019 esempi relativi a Torino, con dati dal 2012 al 2019.
Copre 3850 aree censuarie, aggregate in 93 zone statistiche e 9 circoscrizioni.
È passato da 16 a 31 variabili, includendo:
- Demografia: popolazione, genere, età, residenti stranieri, famiglie.
- Trasporto pubblico: fermate, linee, distanza media.
- Geografia urbana: aree, zone, distretti.
- Traffico e incidenti: numero, tipologia, coinvolgimento del trasporto pubblico.

Sfide principali:

Complessità elevata (molte feature da mantenere senza perdita di informazione).
Alto costo computazionale (27 ore per verbalizzare con LLM).
Necessità di schemi di verbalizzazione più efficienti.

Strategie di verbalizzazione testate:

Zero-shot: senza esempi guida, il modello genera liberamente (rischio di errori).
Few-shot: con esempi guida (anche 1 solo), che migliorano coerenza e accuratezza.
Strutturata (JSON): rappresentazione dei dati senza LLM, ottima per il recupero di informazioni.
Ibrida: combina approccio strutturato e few-shot, con possibile integrazione futura delle regole ontologiche.

Esplorare l’uso delle mappe per potenziare la verbalizzazione

Approfondisci

Oltre all’integrazione semantica dei dati, il progetto ha esplorato anche nuove modalità di rappresentazione e narrazione delle informazioni. In particolare, sono state create mappe di calore (heatmaps) per descrivere aspetti legati a:

la demografia delle diverse aree della città,
la distribuzione e l’accessibilità del trasporto pubblico,
i modelli di mobilità urbana.

Queste mappe non sono state utilizzate solo come strumenti visivi, ma come input per un approccio di verbalizzazione image-to-text. L’idea è che un modello linguistico possa “leggere” le mappe, descrivendone i contenuti in forma testuale, e quindi restituire narrazioni coerenti e interpretabili per i decisori politici o per la cittadinanza.

I primi esperimenti hanno mostrato risultati promettenti: le descrizioni generate non solo riproducono i dati sottostanti, ma offrono una traduzione accessibile, che può rendere più immediata la comprensione delle disparità territoriali e delle dinamiche urbane. Questo apre la strada a futuri sviluppi in cui testo, dati strutturati e rappresentazioni visive possono essere integrati in un’unica pipeline di analisi e comunicazione.

BIBLIOGRAFIA

Approfondisci

S. Akhtar et al. (2020). Modeling Annotator Perspective and Polarized Opinions to Improve Hate Speech Detection. Proceedings of the AAAI Conference on Human Computation and Crowdsourcing (HCOMP 2020).

A. Bacciu, G. Trappolini, A. Santilli, E. Rodolà, F. Silvestri (2023).Fauno: The Italian Large Language Model that will leave you senza parole! (IIR: 9-17)

Y. Zhang et al. (2023). Siren’s Song in the AI Ocean: A Survey on Hallucination in Large Language Models. ArXiv, URL: https://arxiv.org/abs/2309.01219

T. B. Brown et al (2020). Language models are few-shot learners. In Proceedings of the 34th International Conference on Neural Information Processing Systems (NIPS’20). Curran Associates Inc., Red Hook, NY, USA, Article 159, 1877–1901

F. Cabitza et al. (2023). Toward a perspectivist turn in ground truthing for predictive computing. AAAI Conference on Artificial Intelligence (AAAI-23).

S. Casola et al. (2023). Confidence-based Ensembling of Perspective-aware Models. Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (EMNLP 2023).

Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.

E Daga,et al. (2022). Integrating citizen experiences in cultural heritage archives: requirements, state of the art, and challenges. ACM Journal on Computing and Cultural Heritage (JOCCH) 15 (1), 1-35

De Mattei, L., Cafagna, M., Dell’Orletta, F., Nissim, M., & Guerini, M. (2021). GePpeTto Carves Italian into a Language Model. Proceedings of the Seventh Italian Conference on Computational Linguistics, CLiC-it 2020, Bologna, Italy, CEUR Workshop Proceedings, vol. 2769. CEUR-WS.org.

Devlin, J., Chang, M-W., Lee, K., and Toutanova, K.. (2019). BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. Association for Computational Linguistics.

Di Bonaventura, C. Arianna Muti, Marco Antonio Stranisci (2023) O-Dang at HODI and HaSpeeDe3: A Knowledge-Enhanced Approach to Homotransphobia and Hate Speech Detection in Italian. EVALITA 2023

M. Diligenti et al. (2017). Integrating prior knowledge into deep learning. 16th IEEE international conference on machine learning and applications (ICMLA 2017).

European Commission (2021) Fostering a European approach to artificial intelligence. Communication. COM(2021) 205 final. Brussels 21.4.2021.

S. Frenda et al. (2023). EPIC: Multi-Perspective Annotation of a Corpus of Irony. 61st Annual Meeting of the Association for Computational Linguistics (ACL 2023)

Gangemi, A., & Presutti, V. (2009). Ontology design patterns. In Handbook on ontologies (pp. 221-243). Berlin, Heidelberg: Springer Berlin Heidelberg

He, P., Gao, J., & Chen, W. (2021). DeBERTav3: Improving DeBERTa Using ELECTRA-style Pre-training with Gradient-disentangled Embedding Sharing. arXiv preprint arXiv:2111.09543.

C. D. Hromei, D. Croce, V. Basile, R. Basili (2023). ExtremITA at EVALITA 2023: Multi-Task Sustainable Scaling to Large Language Models at its Extreme.EVALITA 2023

Lai, M., S. Vilella, F. Cena, V. Patti, G. F. Ruffo (2023): United-and-Close: An interactive visual platform for assessing urban segregation within the 15-minutes paradigm. UMAP (Adjunct Publication) 2023: 115-120

P. Lewis et al. (2020). Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. 34th International Conference on Neural Information Processing Systems NIPS’20).

L. Molinaro, R. Tatano, E. Busto, A. Fiandrotti, V. Basile, V. Patti (2022). DelBERTo: A Deep Lightweight Transformer for Sentiment Analysis. AI*IA 2022: 443-456

K. Shuster et al. (2020). Retrieval Augmentation Reduces Hallucination in Conversation. 34th International Conference on Neural Information Processing Systems NIPS’20).

Pires, T., Schlinger, E., & Garrette, D. (2019). How Multilingual is Multilingual BERT?. In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 4996–5001, Florence, Italy. Association for Computational Linguistics.

S. Pan et al. (2023). Unifying Large Language Models and Knowledge Graphs: A Roadmap. ArXiv, URL: https://arxiv.org/abs/2306.08302

Palmero Aprosio, A., Menini, S., & Tonelli, S. (2022). BERToldo, the Historical BERT for Italian. In Proceedings of the Second Workshop on Language Technologies for Historical and Ancient Languages.

Parisi, L., Francia, S., Magnani, P. (2020). UmBERTo: an Italian Language Model trained with Whole Word Masking. https://github.com/musixmatchresearch/umberto. GitHub.

Polignano, M., Basile, P., De Gemmis, M., Semeraro, G., & Basile, V. (2019). AlBERTo: Italian BERT language understanding model for NLP challenging tasks based on tweets. In CEUR Workshop Proceedings (Vol. 2481, pp. 1-6).

Santilli, A. (2023). Camoscio: An Italian Instruction-Tuned LLaMA. https://github.com/teelinsan/camoscio. GitHub.

Sarti, G., Nissim, M. (2022). IT5: Large-Scale Text-to-Text Pretraining for Italian Language Understanding and Generation. arXiv preprint arXiv:2203.03759.

Stranisci, M. A., Bernasconi, E., Patti, V., Ferilli, S., Ceriani, M., & Damiano, R. (2023, October). The World Literature Knowledge Graph. In International Semantic Web Conference (pp. 435-452). Cham: Springer Nature Switzerland

Stranisci, M.A., Rossana Damiano, Enrico Mensa, Viviana Patti, Daniele Radicioni, and Tommaso Caselli. 2023. WikiBio: a Semantic Resource for the Intersectional Analysis of Biographical Events. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 12370–12384, Toronto, Canada. Association for Computational Linguistics.

Stranisci, M.a., Simona Frenda, Mirko Lai, Oscar Araque, Alessandra Teresa Cignarella, Valerio Basile, Cristina Bosco, and Viviana Patti (2022). O-Dang! The Ontology of Dangerous Speech Messages. In Proceedings of the 2nd Workshop on Sentiment Analysis and Linguistic Linked Data, Marseille, France. ELRA

Wei, X. et al. (2023). PolyLM: An Open Source Polyglot Large Language Model. ArXiv, abs/2307.06018.

Funded by the PNRR – Mission 4, Component 2, Investment 1.3
Selected under FAIR – PE0000013, Spoke 2, FBK cascade call
Supported by the European Union – NextGenerationEU

Location: Torino, Piemonte
Duration: 18 months
Objective: LLM for Trustworthy Hybrid Decision Making