ひとつは学術論文で、もうひとつはABCニューズネットワークがファンドしているポップカルチャー中心のネットメディアFusion。一般においても、学術分野においても、データから求めた解に依存することへ注意が必要だと認識する段階にあるということが見て取れる。
ではひとつめ、Sophie ChouのRace and the Machine
MITの学生(と思わしき)で、ブルームバーグが開いたデータフォーグッドエクスチェンジ(#D4GX)というカンファレンスにて発表したもの。
ペーパーもプレゼン資料も、そんなに時間をかけてつくったものじゃない印象をうけますが、彼女のメッセージをかいつまんで要約すると次のようなことではないだろうか。
ユーザの行動を分析するデータマイニングは物事を断片的に決め付けて、ステレオタイプを助長しがち。人種(race)は文脈や行動、社会の中で変容するものだという構築主義の考え方に則れば、アルゴリズムで人種を断定するのはレイシズム。しかもこれらのデータを元に知識処理をしてステレオタイプを元に増幅させたり、医療、犯罪などの重大な判断を下そうとするものなのだから、もっと注意が必要。よって、社会構築主義的な人種の概念を持つことで偏見をさける新たな方法が必要。
うん、そうだね。と思うがずいぶんさらりとした内容である。
ふたつめ。Fusion.net掲載
「The deception that lurks in our data-driven world(データドリブンな世界に潜む欺瞞)」
こっちのほうが読み応えがあります。というのも、the AtlanticやWiredの編集長してたAlexis C. Madrigalが書いた記事だから。内容はざっとこんな感じ。
毎日、儀式のように私はウソっぱちデータと向き合っている。体重計にのって、自分をデブだと思ったり痩せたと思ったり・・・でも何キロあるからデブなんていうことではないだろう。本当はいろいろな尺度のなかで体重を併せて考えた結果、太りすぎだという応えに行き着くのだから。体重という生のデータは変動するから僕はわざと自分に厳しくしたいときはランニング後汗を書いてすぐに体重計に乗るんじゃなくて、一服しておなかを満たしてから乗るんだ。そうすると、ああまだ重い、がんばって運動しなくちゃ、って自分に言い聞かせることができる。ウソも方便だ。
というナラティブの中に、データと付き合う上で考えるべき3、4つの逸話が詰まっています。かなり簡単に言い換えると次のようなこと。(もちろん私独自の解釈や言い換えが混ざってます)
・権威ある科学雑誌「サイエンス」が調査したところ、同誌で発表された実験結果のうち、もう一回やってみて同じ結果がでたのはたった36パーセントで、データを扱う立派なサイエンティストたちの間でさえゆがみが出てしまっている。その背景にあるのは統計的に有意なデータばかりを使って有意な結果をもたらすp値のハッキングやセレクションバイアスなどがある。
・複雑な世の中を簡易に処理できるよう統計を用いていった結果、森が死んだ。複雑な自然のエコシステムを、長い視野で見ようとせず、文字通り木を見て森を見ない行動。 (この話を読んで私は、ドキュメンタリー「All Watched Over By Machines of Loving Grace - The Use and Abuse of Vegetational Concepts」のことを想起した)
・トラッキングにより分析が可能なウェブ広告は正確だと思ったらおお間違い。ブルームバーグの調査によると、トラフィックのうち多くの割合を非人間であるボット(ソフトウェア)が締めていて、これらの偽トラフィックによって広告費がつりあがっている状態にあり、これが今のウェブを煽動しているから、ろくな内容のない切り貼りの記事をまとめたサイトが広告費で儲かったりしている。
科学者じゃなくて一般ユーザも否応なしにデータ漬けの日々を送らなければいけない今、データとの付き合い方、向き合い方について誰もが考えなければいけない(AND 考えてもわりとやりようが無い)ようになっているのをよくあらわした読み物だったので取り上げてみました。