memoir: fewer arrows, more power
authorM. Taylor Saotome-Westlake <[email protected]>
Fri, 24 Mar 2023 16:56:23 +0000 (09:56 -0700)
committerM. Taylor Saotome-Westlake <[email protected]>
Fri, 24 Mar 2023 20:46:29 +0000 (13:46 -0700)
content/drafts/blanchards-dangerous-idea-and-the-plight-of-the-lucid-crossdreamer.md

index fa1ab7a..b832e50 100644 (file)
@@ -550,8 +550,14 @@ I continued to be very distracted the next day, Monday 13 February 2017. I went
 I made another seven Facebook posts. I'm proud of this one:
 
 > So, unfortunately, I never got very far in the _Daphne Koller and the Methods of Rationality_ book (yet! growth m—splat, AUGH), but one thing I do remember is that many different Bayesian networks can represent the same probability distribution. And the reason I've been running around yelling at everyone for nine months is that I've been talking to people, and we _agree_ on the observations that need to be explained, and yet we explain them in completely different ways. And I'm like, "My network has SO MANY FEWER ARROWS than your network!" And they're like, "Huh? What's wrong with you? Your network isn't any better than the standard-issue network. Why do you care so much about this completely arbitrary property 'number of arrows'? Categories were made for the man, not man for the categories!" And I'm like, "Look, I didn't get far enough in the _Daphne Koller and the Methods of Rationality_ book to understand why, but I'm PRETTY GODDAMNED SURE that HAVING FEWER ARROWS MAKES YOU MORE POWERFUL. YOU DELUSIONAL BASTARDS! HOW CAN YOU POSSIBLY GET THIS WRONG please don't hurt me Oh God please don't hurt me I'm sorry I'm sorry."
+That is, when factorizing a joint probability distribution into a Bayesian network, you can do it with respect to any variable ordering you want: a graph with a "wet-streets → rain" edge can represent a set of static observations just as well as a graph with a "rain → wet-streets" edge,[^koller-and-friedman-i] but "unnatural" variable orderings generate a more complicated graph that will give crazy predictions if you interpret it as a _causal_ Bayesian network and use it to predict the results of interventions. Algorithms for learning a network from data prefer graphs with fewer edges as a consequence of Occamian [minimum-message-length epistemology](https://www.lesswrong.com/posts/mB95aqTSJLNR9YyjH/message-length):[^koller-and-friedman-ii] every edge is a [burdensome detail](https://www.lesswrong.com/posts/Yq6aA4M3JKWaQepPJ/burdensome-details) that requires a corresponding amount of evidence just to locate it in the space of possibilities.
 
-[TODO: explain the arrow thing, maybe footnote Koller and Friedman]
+[^koller-and-friedman-i]: Daphne Koller and Nir Friedman, _Probabilistic Graphical Models: Principles and Techniques_, §3.4.1, "Minimal I-Maps".
+
+[^koller-and-friedman-ii]: Daphne Koller and Nir Friedman, _Probabilistic Graphical Models: Principles and Techniques_, §18.3.5: "Understanding the Bayesian Score".
+
+I thought this shed some light on my recent frustrations. People are pretty observant about what other people are like. If prompted appropriately, they know how to anticipate the ways in which trans women are different from cis women. The part of them that talked just didn't see the problem with trying to represent the knowledge using a variable ordering that put "biological sex" closer to last than first. And I didn't think that was what the causal graph looked like.
 
 In another post, I collected links to Bailey, Lawrence, Vitale, and Brown's separate explanations of the two-type taxonomy: