Neural Networks & Learning Machines
Corso avanzato per il dottorato di ricerca
Il corso segue una prospettiva storica ed analizza modelli e metodi matematici espliciti in ogni dettaglio (ma non computazionali!) inerenti la processazione d'informazione emergente in reti di neuroni (biologici o artificiali ed, in entrambe i casi, opportunamente stilizzati) in interazione tra loro e con l'esterno, partendo dai primi modelli per l'emissione di un segnale elettrico dal singolo neurone per giungere alle dense o profonde architetture delle reti neurali moderne e alle loro capacità di apprendimento statistico. In particolare, in ragione del Premio Nobel per la Fisica conferito nel 2024 a John Hopfield e Geoffrey Hinton, si porrà particolare enfasi sulle loro reti neurali e sullo stretto connubio che tra queste esiste mentre il leitmotif sarà la meccanica statistica dei sistemi complessi (i.e. Parisi theory, Nobel per la Fisica nel 2021) con il suo annesso pacchetto di osservabili e strumenti tipici. |
Libri di testo consigliati:
A.C.C. Coolen, R. Kuhn, P. Sollich, Theory of neural information processing systems, Oxford University Press (Amazon link)
D.J. Amit, Modeling brain function, Cambridge University Press (Amazon link)
Prerequisiti:
Nessuno oltre la laurea magistrale in Computer Science, Ingegneria, Fisica o Matematica (l'ordine è alfabetico).
Un'infarinatura di processi stocastici, inferenza statistica e meccanica statistica certamente agevola la fruizione del corso.
Crucci:
Per qualunque cruccio scrivere al docente all'indirizzo nome.cognome[at]uniroma1.it
In calce gli argomenti. Quelli scritti in questo colore probabilmente non saranno trattati in questo A.A.
A.C.C. Coolen, R. Kuhn, P. Sollich, Theory of neural information processing systems, Oxford University Press (Amazon link)
D.J. Amit, Modeling brain function, Cambridge University Press (Amazon link)
Prerequisiti:
Nessuno oltre la laurea magistrale in Computer Science, Ingegneria, Fisica o Matematica (l'ordine è alfabetico).
Un'infarinatura di processi stocastici, inferenza statistica e meccanica statistica certamente agevola la fruizione del corso.
Crucci:
Per qualunque cruccio scrivere al docente all'indirizzo nome.cognome[at]uniroma1.it
In calce gli argomenti. Quelli scritti in questo colore probabilmente non saranno trattati in questo A.A.
Lezione Uno
|
1) il modello di Erhenfest (statica e dinamica): il II PTD tra microscopico e macroscopico.
2) il teorema di Liouville, la critica di Zermelo, il problema del box counting ed il mixing. 3) il principio di Gibbs ed il riduzionismo statistico: l'importanza di funzioni costo quadratiche. 4) l'equazione di Fourier: il limite al continuo del random walk e la soluzione Gaussiana dalla delta. 5) il principio di massima entropia di Jaynes: tra meccanica statistica ed inferenza statistica. 6) l'entropia di Shannon nel microcanonico, i bounds di MacKay e lotterie di Shannon-MacMillan. 7) quantità estensive vs intensive: legge dei grandi numeri e teorema del limite centrale. 8) la mappa logistica: la genesi del chaos deterministico nell'incertezza dei problemi di Cauchy. |
Lezione Due
|
1) rudimenti di meccanica statistica: energie, entropie, energie libere.
2) rudimenti di processi stocastici: bilancio dettagliato, ergodicità, irriducibilità e teorema di Markov. 3) la minimizzazione dinamica dell'energia libera: il bound di Boltzmann à la Amit. 4) equivalenza dell'entropia di Boltzmann con quelle di Gibbs e di Shannon nel canonico. 5) il neurone biologico: dalla pompa sodio-potassio al modello "integrate & fire" di Stein. 6) Il perceptrone di Rosenblatt e la critica di Minsky & Papert: dal soggetto alle interazioni. |
Lezione Tre 1) modelli one-body: struttura fattorizzata delle distribuzioni di Gibbs e risposta sigmoidale m(h).
2) il modello di Curie-Weiss (conto diretto): rottura di ergodicità e di simmetria, transizioni di fase.
3) teoria gaussiana: interpolazione di Guerra per media (magnetizzazione) e varianza (suscettività).
4) teoria lagrangiana: equazione di Hamilton-Jacobi e Burgers. Transizioni & biforcazioni di Hopf.
5) integrale gaussiano e soluzione del modello di Curie-Weiss mediante il punto di sella.
6) analogia strutturale tra risposta nei ferromagneti e risposta negli amplificatori operazionali.
2) il modello di Curie-Weiss (conto diretto): rottura di ergodicità e di simmetria, transizioni di fase.
3) teoria gaussiana: interpolazione di Guerra per media (magnetizzazione) e varianza (suscettività).
4) teoria lagrangiana: equazione di Hamilton-Jacobi e Burgers. Transizioni & biforcazioni di Hopf.
5) integrale gaussiano e soluzione del modello di Curie-Weiss mediante il punto di sella.
6) analogia strutturale tra risposta nei ferromagneti e risposta negli amplificatori operazionali.
Lezione Quattro 1) la rete neurale come modello di spin glass: prime generalità su vetri di spin e reti neurali.
2) dinamica neurale come processo di Markov. Stato stazionario e descrizione à la Boltzmann.
3) la regola di apprendimento di Hebb e la proposta di Hopfield per la memoria associativa.
4) il modello di Hopfield nel basso carico mediante la log-constrained entropy à la Coolen.
5) il modello di Hopfield nel basso carico mediante l'interpolazione di Guerra.
6) il modello di Hopfield nel basso carico mediante la tecnica di Hamilton-Jacobi.
2) dinamica neurale come processo di Markov. Stato stazionario e descrizione à la Boltzmann.
3) la regola di apprendimento di Hebb e la proposta di Hopfield per la memoria associativa.
4) il modello di Hopfield nel basso carico mediante la log-constrained entropy à la Coolen.
5) il modello di Hopfield nel basso carico mediante l'interpolazione di Guerra.
6) il modello di Hopfield nel basso carico mediante la tecnica di Hamilton-Jacobi.
Lezione Cinque 1) il modello di Sherrington-Kirkpatrick: vetri di spin in campo medio, ulteriori generalità.
2) il self-averaging e la descrizione replica simmetrica dell'SK con il metodo del replica trick.
3) teoria gaussiana: l'interpolazione di Guerra replica simmetrica per il modello SK: medie.
4) teoria gaussiana: l'interpolazione di Guerra replica simmetrica per il modello SK: varianze.
5) teoria lagrangiana: equazione di Hamilton-Jacobi e Burgers. Transizioni & biforcazioni di Hopf.
6) la rottura di simmetria di replica di Parisi. L'importanza dell'RSB nelle reti neurali.
7) un cenno alla dinamica: aging (FDT-violation) e importanza della descrizione via trap models.
2) il self-averaging e la descrizione replica simmetrica dell'SK con il metodo del replica trick.
3) teoria gaussiana: l'interpolazione di Guerra replica simmetrica per il modello SK: medie.
4) teoria gaussiana: l'interpolazione di Guerra replica simmetrica per il modello SK: varianze.
5) teoria lagrangiana: equazione di Hamilton-Jacobi e Burgers. Transizioni & biforcazioni di Hopf.
6) la rottura di simmetria di replica di Parisi. L'importanza dell'RSB nelle reti neurali.
7) un cenno alla dinamica: aging (FDT-violation) e importanza della descrizione via trap models.
Lezione Sei 1) la rete neurale di Hopfield nell'alto carico mediante replica trick: soluzione replica simmetrica.
2) la rete neurale di Hopfield nell'alto carico mediante interpolazione di Guerra: soluzione RS.
3) una prospettiva diversa: la teoria della Gardner ed il bound di Kohonen
4) variazioni sul tema 1: le reti neurali "multi-tasking" ed il richiamo parallelo multiplo.
5) variazioni sul tema 2: le reti neurali "dreaming" e lo storage massimale di Kohonen.
6) variazioni sul tema 3: le reti neurali etero-associative di Kosko ed il disentanglement di segnali.
7) variazioni sul tema 4: le reti idiotipiche di Jerne-Varela e la distinzione self-nonself.
8) le reti diluite e asimmetriche di Derridà, Gardner e Zippelius
9) il limite di Curie-Weiss ed il limite di Sherrington-Kirkpatrick
2) la rete neurale di Hopfield nell'alto carico mediante interpolazione di Guerra: soluzione RS.
3) una prospettiva diversa: la teoria della Gardner ed il bound di Kohonen
4) variazioni sul tema 1: le reti neurali "multi-tasking" ed il richiamo parallelo multiplo.
5) variazioni sul tema 2: le reti neurali "dreaming" e lo storage massimale di Kohonen.
6) variazioni sul tema 3: le reti neurali etero-associative di Kosko ed il disentanglement di segnali.
7) variazioni sul tema 4: le reti idiotipiche di Jerne-Varela e la distinzione self-nonself.
8) le reti diluite e asimmetriche di Derridà, Gardner e Zippelius
9) il limite di Curie-Weiss ed il limite di Sherrington-Kirkpatrick
Lezione Sette 1) il metodo della massima verosimiglianza e gli stimatori. Inferenza statistica e dinamica sinaptica.
2) i problemi inversi: stima di media (magnetizzazione) e varianza (suscettività) nel Curie-Weiss.
3) il modulo del riflesso condizionato di Pavlov: apprendimento mediante due ODE multiscala.
4) il modulo del riflesso condizionato generalizzato: il limite di AGS per tempi lunghi.
5) il modulo del riflesso condizionato di Pavlov: richiami persistenti e genesi di ossessioni.
6) l'entropia di Kullback-Leibler e la mutua informazione.
2) i problemi inversi: stima di media (magnetizzazione) e varianza (suscettività) nel Curie-Weiss.
3) il modulo del riflesso condizionato di Pavlov: apprendimento mediante due ODE multiscala.
4) il modulo del riflesso condizionato generalizzato: il limite di AGS per tempi lunghi.
5) il modulo del riflesso condizionato di Pavlov: richiami persistenti e genesi di ossessioni.
6) l'entropia di Kullback-Leibler e la mutua informazione.
Lezione Otto 1) La macchina di Boltzmann: la teoria statistica di Hinton per la dinamica sinaptica.
2) L'apprendimento supervisionato (o con teacher): la tecnica "contrastive divergence".
3) L'apprendimento non supervisionato e gli annessi problemi concettuali.
4) Equivalenza tra rete neurale di Hopfield e rete neurale di Hinton: learning & retrieval.
5) uno sguardo ai datasets (random, mnist/fashion-mnist, cifar-10), features & grandmother cells.
6) Equivalenza generalizzata per reti eteroassociative: grappoli di cellule grandmother interagenti.
2) L'apprendimento supervisionato (o con teacher): la tecnica "contrastive divergence".
3) L'apprendimento non supervisionato e gli annessi problemi concettuali.
4) Equivalenza tra rete neurale di Hopfield e rete neurale di Hinton: learning & retrieval.
5) uno sguardo ai datasets (random, mnist/fashion-mnist, cifar-10), features & grandmother cells.
6) Equivalenza generalizzata per reti eteroassociative: grappoli di cellule grandmother interagenti.
Lezione Nove 1) una tecnica semplice per un'analisi grossolana ma efficace: la signal-2-noise (S2N).
2) apprendimento Hebbiano da esempi senza il teacher via S2N: scaling per la generalizzazione.
3) apprendimento Hebbiano da esempi con il teacher via S2N: scaling per la generalizzazione.
4) apprendimento Hebbiano in reti equipaggiate con la capacità di dormire via S2N: small datasets.
5) apprendimento Hebbiano dal principio di massima entropia: cost functions e loss functions.
6) il principio di massima entropia costringendo momenti oltre media e varianza: le reti dense.
2) apprendimento Hebbiano da esempi senza il teacher via S2N: scaling per la generalizzazione.
3) apprendimento Hebbiano da esempi con il teacher via S2N: scaling per la generalizzazione.
4) apprendimento Hebbiano in reti equipaggiate con la capacità di dormire via S2N: small datasets.
5) apprendimento Hebbiano dal principio di massima entropia: cost functions e loss functions.
6) il principio di massima entropia costringendo momenti oltre media e varianza: le reti dense.
Lezione Dieci 1) le reti neurali dense: learning, storage & retrieval nella pittura replica simmetrica.
2) le reti neurali dense: abbassare la soglia segnale/rumore del retrieval sacrificando lo storage.
3) le reti neurali dense: learning, storage & retrieval nella pittura a simmetria di replica rotta.
4) i modelli esponenziali ed i problemi moderni dello storage: calore latente ed altre scappatoie.
5) le deep Boltzmann machines: telai densi vs telai profondi.
6) gli esperimenti sulle place cells: l'alta connettività dell'ippocampo.
7) gli esperimenti di Bialek: il patch clamp ed il multielectrode array alla massima entropia.
2) le reti neurali dense: abbassare la soglia segnale/rumore del retrieval sacrificando lo storage.
3) le reti neurali dense: learning, storage & retrieval nella pittura a simmetria di replica rotta.
4) i modelli esponenziali ed i problemi moderni dello storage: calore latente ed altre scappatoie.
5) le deep Boltzmann machines: telai densi vs telai profondi.
6) gli esperimenti sulle place cells: l'alta connettività dell'ippocampo.
7) gli esperimenti di Bialek: il patch clamp ed il multielectrode array alla massima entropia.