def ovar(size, val):
    return one_hot(torch.tensor(val), size).float()
tails, heads = ovar(2, 0), ovar(2, 1)
tails


def lvar(size):
    return ones(size, requires_grad=True).float()

def coin():
    return lvar(2)

l_coin1, l_coin2 = coin(), coin()
l_coin1


def f(l_coin1, l_coin2):
    return (l_coin1[None, :] * l_coin2[:, None]).sum()

# Total number of arrangements:
f(coin(), coin())


# Total number of arrangements with Coin2 tails:
f(coin(), tails)


l_coin1, l_coin2 = coin(), coin()
f(l_coin1, l_coin2).backward()

# Total number of arrangements with Coin1 tails:
l_coin1.grad[0]


# Total number of arrangements based on Coin2:
l_coin2.grad


def f(l_coin1, l_coin2):
    # If tails, Coin 2 must be heads
    e1 = l_coin1[0] * l_coin2[1]
    
    # If heads, Coin 2 can be either
    e2 = (l_coin1[1] * l_coin2).sum()
    
    return e1 + e2


l_coin1, l_coin2 = coin(), coin()
f(l_coin1, l_coin2)


f(l_coin1, l_coin2).backward()
l_coin1.grad


l_coin2 = coin()
f(tails, l_coin2).backward()
l_coin2.grad


fair_coin = torch.ones(2) / 2.


def f(l_coin1, l_coin2):
    flip1 = fair_coin * l_coin1
    flip2 = fair_coin * l_coin2
    return (flip1[:, None] * flip2[None, :]).sum()


f(heads, tails)


l_coin1, o_coin2 = coin(), tails
f(l_coin1, o_coin2)


l_coin1, o_coin2 = coin(), tails
f(l_coin1, o_coin2).backward()
plot_coin(l_coin1.grad);


l_coin1 = coin()
f(l_coin1, heads).log().backward()
plot_coin(l_coin1.grad);


def f(l_coin1, l_coin2):
    # Flip Coin 1
    flip1 = fair_coin * l_coin1
    
    # If tails, place Coin 2 as heads.
    e1 = flip1[0] * l_coin2[1]
    
    # If heads, flip Coin 2.
    flip2 = l_coin2 * fair_coin
    e2 = (flip1[1] * flip2).sum()
    
    return e1 + e2


l_coin1 = coin()
f(l_coin1, tails).log().backward()
plot_coin(l_coin1.grad);


COIN, DICE = 2, 6
dice = lambda: lvar(6)
fair_die = ones(DICE) / 6.0
weighted_die = 0.8 * one_hot(tensor(3), DICE) + 0.2 * fair_die


def f(l_flip, l_die):
    # I flipped a fair coin
    x_coin = l_flip * fair_coin
    
    # If it was heads I rolled a fair die.
    roll1 = l_die * fair_die
    e1 = x_coin[1] * roll1

    # If it was tails I rolled a weighted die.
    roll2 = l_die * weighted_die
    e2 = x_coin[0] * roll2
    return (e1 + e2).sum()


l_die = dice()
f(tails, l_die).log().backward()
plt.bar(arange(0, DICE)+1, l_die.grad);


l_coin, o_die = coin(), ovar(DICE, 5)
f(l_coin, o_die).log().backward()
plot_coin(l_coin.grad);


l_coin, o_die = coin(), ovar(DICE, 3)
f(l_coin, o_die).log().backward()
plot_coin(l_coin.grad);


l_coin, l_die = coin(), dice()
f(l_coin, l_die).log().backward()
plt.bar(arange(0, 6)+1, l_die.grad);


def padconv(x, y):
    "1D conv for count"
    s = x.shape[0] 
    return x.flip(0) @ pad(y, (s-1, s-1)).unfold(0, s, 1).T


def f(l1, l2, l_count):
    s = l1.shape[0]
    d = ones(s) / s
    e1 = d * l1
    e2 = d * l2
    return (padconv(e1, e2) * l_count).sum()


l_coin1, l_coin2, l_count = coin(), coin(), lvar(3)
f(l_coin1, l_coin2, l_count).log().backward()
plt.bar(arange(0, 3), l_count.grad);


l_die1, l_die2, l_count = dice(), dice(), lvar(11)
f(l_die1, l_die2, l_count).log().backward()
l_count.grad
plt.bar(arange(2, 13), l_count.grad);


l_die1, l_die2, o_count = dice(), dice(), ovar(11, 10)
f(l_die1, l_die2, o_count).log().backward()
plt.bar(arange(0,6 )+1, l_die2.grad);


def bern(p):
    return [1.0-p, p]


# p(R)
rain = tensor(bern(0.2))

# p(S | R)
sprink_rain = tensor([bern(0.4), bern(0.01)]).T

# p(W | S, R)
wet = tensor([[bern(0.0), bern(0.8)],
              [bern(0.9), bern(0.99)]]).permute(2, 0, 1)


def f(l_rain, l_sprink, l_wet):
    # r ~ P(R)
    e_r = l_rain * rain
    # s ~ P(S | R=r)
    e_sr = l_sprink[:, None] * sprink_rain * e_r
    # w ~ P(W | S=s, R=r)
    e_w = l_wet[:, None, None] * wet * e_sr
    return e_w.sum()


o_rain, o_sprinkler, o_wet = ovar(2, 1), ovar(2, 1), ovar(2, 1)
f(o_rain, o_sprinkler, o_wet)


l_rain, l_sprinkler, l_wet = lvar(2), lvar(2), lvar(2)
f(l_rain, l_sprinkler, l_wet).log().backward()
l_rain.grad


l_rain, l_sprinkler, o_wet = lvar(2), lvar(2), ovar(2, 1)
f(l_rain, l_sprinkler, o_wet).log().backward()
l_rain.grad


BATCH, DIM, CLASSES = 100, 2, 4
I = eye(DIM)
N = torch.distributions.MultivariateNormal
y = randint(0, CLASSES, (BATCH,))
d_means = torch.tensor([[2, 2.], [-2, 2.], [2, -2], [-2, -2.]])
d_prior = ones(CLASSES) / CLASSES
X = N(d_means, I[None, :, :]).sample((BATCH,))[torch.arange(BATCH), y]

plt.scatter(X[:, 0], X[:, 1], c=y)
plt.scatter(d_means[:, 0],  d_means[:, 1], s= 300, marker="X", color="black");


def gmm(X, l_class, d_prior, d_means):
    x_class = l_class * d_prior
    return (stdN(d_means, X) * x_class).sum(-1)


fig, ax = plt.subplots(nrows=1, ncols=1)
camera = celluloid.Camera(fig)
mu = torch.rand(CLASSES, DIM)
for epoch in arange(0, 10):
    l_class = lvar((X.shape[0], CLASSES))
    gmm(X, l_class, d_prior, mu).log().sum().backward()
    q = l_class.grad
    ax.scatter(X[:, 0], X[:, 1], c=q.argmax(1))
    ax.scatter(mu[:, 0],  mu[:, 1], s= 300, marker="X", color="black")
    camera.snap()    
    mu = (q[:, :, None] * X[:, None, :]).sum(0) / q.sum(0)[:, None]


HTML(camera.animate(interval=300, repeat_delay=2000).to_jshtml())


def HMM(l_O, l_H, params):
    T, E, P = params
    p = 1.0
    for l in arange(0, l_O.shape[0]):
        P = ((l_H[l] * P)[:, None] * E) @ l_O[l] @ T
        p = p * P.sum()
        P = P / P.sum()
    return (p * P.sum())


STATES, OBS = 500, 500
E, T = eye(STATES), zeros(STATES, STATES), 
P = ones(STATES) / STATES
kernel = arange(-6, 7)[:, None]
s = arange(STATES)
T[s, (s + kernel).remainder(STATES)] = 1. / kernel.shape[0]
params = T, E, P


fig, ax = plt.subplots(nrows=1, ncols=1)
camera = celluloid.Camera(fig)

def ovarN(x, N=OBS): return  one_hot(x, N)[None].float()
def lvarN(s, N=OBS): return  ones(s, N, requires_grad=True)

start = lvarN(1000).detach()
start.requires_grad_(False)
for i in arange(0, 5): 
    start[randint(1000, (1,))[0], :] = ovarN(randint(STATES, (1,))[0])
    states = lvar((start.shape[0], STATES))

    # Run and plot...
    HMM(start, states, params).log().backward()
    ax.imshow(states.grad.transpose(1, 0), vmax=0.02)
    camera.snap()


HTML(camera.animate(interval=300, repeat_delay=2000).to_jshtml())


HTML('<link rel="stylesheet" href="custom.css">')

Differential Inference: A Criminally Underused Tool¶

Style¶

Preface¶

Differential Inference¶

Disclaimer¶

Part 1: Counting the Hard Way¶

Problem¶

Observed Coins¶

Latent Coins¶

Counting¶

Constrained Counting¶

Differential Counting¶

Differential Counting 2¶

Problem: Counting with Branching¶

Counting Function¶

Counting¶

Query¶

Constrained Query¶

Part 2: Probabilistic Inference¶

Differential Inference¶

Problem: More Coins the Hard Way¶

Joint¶

Joint Probability¶

Marginal Probability¶

Constrained Joint¶

Conditional¶

Conditional Computation¶

Part 3: Fancy Coins¶

Problem: Conditional Coins¶

Conditional Inference¶

Problem: Coins and Dice¶

Generative Story:¶

Dice from Coin 1¶

Coin from Dice 1¶

Coin from Dice 2¶

Dice Marginal¶

Problem: Summing Up¶

Sum of Variables¶

Sum of Coins¶

Sum of Dice¶

Dice Conditioned on Sum¶

Part 4: Real Models¶

Problem: Graphical Models¶

Conditional Probabilities¶

Bayes Net¶

Joint Probability¶

Marginal Inference¶

Conditional Inference¶

Problem: Gaussian Mixture Model¶

Generative Model¶

GMM - Expectation-Maximization¶

Problem: Hidden Markov Models (HMM)¶

Example: HMM¶

Differential Inference¶

Conclusion¶

What comes next?¶

Thanks!¶