[論文筆記]用於互動系統的神經關係推斷

原文題目 : Neural Relational Inference for Interacting Systems

1。 Introduction

1。1 一些先行研究

Use a implicit interaction model to learn a interacting system。

一些使用隱含互動模型去學得一個互動系統的動態模型。

This kind of model can be seen as a graph nerual network

這些模型可以看做是在 fully-connected graph 中 message passing 的 graph neural networks。

互動的方式

被 message passing function隱式地模型化。

Learning multiagent communication with backpropagation。

Permutation-equivariant neural networks applied to dynamics prediction。

A simple neural network module for relational reasoning。

Visual interaction networks： Learning a physics simulator from video。

在注意力機制下被模型化

Attentional multi-agent predictive modeling。

Unsupervised discovery of objects and their interactions

1。2 模型描述

推斷出一個顯性的互動結構, 與此同時學得一個互動系統動態模型. (利用非監督的方法)

我們的神經關係推理模型，透過GNN在一個離散的潛在圖上學得了動力學系統機制。透過這些潛在變數我們可以實現推理。

推斷的邊的型別對應的互動的一個類別。

透過使用機率圖可以讓我們利用關於這個圖結構的先驗知識，比如說具有某種規則的稀疏性。

（這個地方是我想要的）

本文的任務是一個物理系統的模擬。我們的NRI模型可以學習到一個非常好的關於這個任務的歸納偏置。

這個系統在NBA球員的運動位置資料上進行實驗，學得了一些很少的edge types，可以很好的預測動態系統。

2。 Background： Graph Neural Networks

2。1 介紹物件

一些透過 passing local messages 直接在 graph-structured data 上進行的神經網路模型。

The graph neural network model

Gated graph sequence neural networks。

Neural message passing for quantum chemistry

我們稱這樣的模型為 graph neural networks （GNN）。

2。2 GNN特性

Variants of GNNs have been shown to be highly effective at relational reasoning tasks

GNNS的一些變種被證明在關係推理任務上是非常有效的

A simple neural network module for relational reasoning。

可以用來

對於一些multi-agent系統以及動態互動系統進行建模.下面是相關研究

Learning multiagent communication with backpropagation

Interaction networks for learning about objects

圖的分類

Spectral networks and locally connected networks on graphs

Convolutional networks on graphs for learning molecular fingerprints。

Discriminative embeddings of latent variable models for structured data

Learning convolutional neural networks for graphs

Convolutional neural networks on graphs with fast localized spectral filtering。

Molecular graph convolutions： moving beyond fingerprints。

classification of nodes in large graphs

Semi-supervised classification with graph convolutional networks。

Inductive representation learning on large graphs。

GNN的優點分析

Deep sets

Mapping images to scene graphs with permutation-invariant structured prediction

2。3 GNN的基本結構

每個邊每個點都有一個embedding。

x 代表的是node或者edge的特徵。也就是說，一個邊的向量由它兩邊的node和這條邊本身的特徵決定。

指的是在第l層的資料。這裡的層。在籃球動力學模型中就是指時間， l代表不同的時刻。

一個點的向量由所有連著這個點的邊決定。

所有的基於GNN模型都是基於這兩個公式的。

最開始的2009的論文中，邊的向量只是由sender node和邊的特徵決定。

在battaglia 2016年的論文中的 interaction network中和 Gilmer 2017年的message passing network 中，用到了這個更一般的公式。

在最新兩年的論文中，有很多將

分為兩個分離的函式，代表了一種gating or attention mechanism。

3。 Neural Relational Inference Model

3。1 NRI模型簡介

兩部分

encoder ：預測不同軌跡之間的相互作用的編碼器。

decoder ：在給定interaction graph下學得一個動力學模型。

這個論文在講解過程中一直以籃球比賽動力學系統的模型為例。但是實際實驗是在真實準確的物理動力學系統，例如電子，彈簧等等。

輸入是每個球員的運動軌跡。設一個有N個球員，那麼一共有N個輸入。其中，

代表的是第 i 個object 在t時刻的特徵（例如，位置或速度）。

GNN是基於一個未知的圖 z，這個圖中的

$z_{i,j}$

代表的是物件

和

之間的離散的關係。這個關係我們也是未知的。我們的任務是預測某個時刻，兩個物件之間的關係向量的同時，可以學得動力學模型。

3。2 NRI細節

3。2。1 模型概覽

該模型是使用前面時刻的

去預測

$x^{t+1}$

。如下：

然後，這個預測過程中是基於一個潛在變數 z 的。這個 z 就是在任意時刻兩個object之間的 relation，這是一個one-hot向量。

這個模型的圖示如下：

3。2。2 模型的損失函式

這個模型是用變分自編碼器實現的。

上面的損失函式就是這個變分自編碼器，我們需要最小化這個公式。

這個損失函式的出發點是要最小化

和

，由最小化

推導。

得到了上面的這個損失函式 - 最大化

$\mathcal{L}$

注意

：這裡是最大化

$\mathcal{L}$

而不是最小化，因為

$KL(p(x,z)||q(x,z)) = - \mathcal{L}$

因此最小化

就是最大化

$\mathcal{L}$

3。2。3

encoder

encoder部分是

，返回的是一個

$z_{ij}$

的因式分解分佈。

$z_{ij}$

是一個離散的分類變數代表著 object

和 object

之間的edge type。我們使用one-hot向量去表示一個

$z_{ij}$

。

如上圖所示， encoder的目的是求出先求出每兩個點之間的隱含關係：

賦予每個點一個向量：

根據點

$\to$

邊公式得到邊的向量：

根據邊

$\to$

點公式得到邊的向量：

根據點

$\to$

邊公式再次得到邊的向量

利用邊向量去進行softmax預測：

$q_φ ( z_{ij} | x ) = softmax( h_{(i,j)}^2)$

3。2。4 Sampling

這裡用的技術是，利用一個離散分佈的連續近似（a continuous approximation of the discrete distribution ）去表達進行對於離散變數的取樣。這裡的意思就是說，在典型的VAE引用中，取樣是從一個連續分佈中進行取樣的，而在這裡使用的是softmax，也就是一個離散分佈，那麼也就沒有辦法採用 reparametrization trick 去對取樣進行後向傳播。那麼這個時候我們可以用提到的一個方法去進行取樣。公式如下：