Vés al contingut

Model generatiu basat en fluxos

De la Viquipèdia, l'enciclopèdia lliure

Un model generatiu basat en flux és un model generatiu utilitzat en l'aprenentatge automàtic que modela explícitament una distribució de probabilitat aprofitant el flux normalitzador, [1][2] que és un mètode estadístic que utilitza la llei de probabilitats de canvi de variable per transformar un distribució en un de complex.

La modelització directa de la probabilitat ofereix molts avantatges. Per exemple, la probabilitat logarítmica negativa es pot calcular directament i minimitzar com a funció de pèrdua. A més, es poden generar mostres noves mitjançant el mostreig de la distribució inicial i l'aplicació de la transformació del flux.

En canvi, molts mètodes alternatius de modelització generativa, com ara el codificador automàtic variacional (VAE) i la xarxa adversària generativa, no representen explícitament la funció de probabilitat.[3]

Esquema de normalització de cabals

Mètode

[modifica]

Deixar ser una variable aleatòria (possiblement multivariant) amb distribució .

Per , deixar ser una seqüència de variables aleatòries transformades de . Les funcions hauria de ser inversible, és a dir, la funció inversa existeix. La sortida final modela la distribució objectiu.

La probabilitat de registre de és (vegeu la derivació):

Per calcular de manera eficient la probabilitat de registre, les funcions hauria de ser 1. fàcil d'invertir, i 2. fàcil de calcular el determinant del seu jacobià. A la pràctica, les funcions es modelen mitjançant xarxes neuronals profundes i s'entrenen per minimitzar la probabilitat de registre negatiu de les mostres de dades de la distribució objectiu. Aquestes arquitectures solen estar dissenyades de manera que només es requereix el pas endavant de la xarxa neuronal tant en els càlculs inversos com en els determinants jacobians. Alguns exemples d'aquestes arquitectures inclouen NICE, RealNVP, i Glow.[4]

Derivació de la probabilitat de registre

[modifica]

Considereu i . Tingues en compte que .

Pel canvi de fórmula variable, la distribució de és:

On és el determinant de la matriu jacobiana de .

Segons el teorema de la funció inversa:

Per la identitat (on és una matriu invertible), tenim:

La probabilitat de registre és així:

En general, l'anterior s'aplica a qualsevol i . Des de és igual a restat per un terme no recursiu, podem inferir per inducció que:

Aplicacions

[modifica]
  1. Tabak, Esteban G.; Turner, Cristina V. Communications on Pure and Applied Mathematics, 66, 2, 2012, pàg. 145–164. DOI: 10.1002/cpa.21423.
  2. Papamakarios, George; Nalisnick, Eric; Jimenez Rezende, Danilo; Mohamed, Shakir; Bakshminarayanan, Balaji Journal of Machine Learning Research, 22, 1, 2021, pàg. 2617–2680.
  3. Weng, Lilian. «Flow-based Deep Generative Models» (en anglès), 13-10-2018. [Consulta: 21 març 2024].
  4. «Normalizing Flow Models (Part 1)» (en anglès). [Consulta: 21 març 2024].