アーカイブ

情報科学

ここ最近、情報科学がたまらなく面白い。いまさら認識したのかと思われる向きもあろうが、C/UNIX系プログラマー、ネットワーク構築、セキュリティ、業務プロマネ、そして技術ベンチャーとやってきたが、飽きもせずにやってきたのは、それぞれの時代の情報技術(Information Technology)の先端を垣間見ることができるというメリット以上に、情報科学(Information Science)へのあこがれだったんだ、ということ。

情報科学は、情報技術を実際に利用している者の視点から見た様々な問題を扱う。まず技術ありき、のアプローチではなく、まず問題(解決)に着眼するアプローチである。
情報科学 – Wikipedia

関心の根っこは、人が何かの情報に触れるとどういう行動になるんだろう?あるいは、ある行動は、どんな情報に刺激されたものなんだろう?というような、そういうこと。情報そのものをデータとして取り扱うことの楽しさ以上に、何か「効果」を発揮していくところに、非科学的と言ってもいい、人間の介在によるあいまいさとか、ゆらぎとか、あるいはイキオイのようなものが見られる。

これを「情報科学」と呼ぶのだと知ったときはとてもうれしかった!

科学ー何度も実験し、確証のようなものを得ていくプロセス。極めてあいまいな循環であり、ストックとフローの混沌である。これに「情報」というものをかけあわせてフォーカスしたものを情報科学というのであれば、とてつもなくエントロピーが高く感じる。マーケティングもファイナンスも組織マネジメントも、情報科学の適用だと思えば相当面白い。

情報技術的傾向として自分自身について考えるに、、システム屋ゆえだろうか、根深い阻害要因を認識した。たとえをあえて挙げると、直感を信じすぎてデータの隅々に向き合うのをめんどくさいと思うきらいがあること、また自分が仕組みに満足するとそこでおなかいっぱいになり、収束させる傾向があること。これは内部的阻害要因、メンタルブロックと認識した。

あれ?社会一般ってそういうのをどうしてるんだっけ?

そうこうするうち「社会科学技術論」というものに出会った。ここでは、社会的に「これでいい」つまり妥当だと思われることというものをどうやってコンセンサスを取るんだろう?という問題へのアプローチを考えるものだ。たとえば、公害規制、化学調味料の毒性、漏洩放射能の危険レベル、もっと身近に言えば、携帯電話の電磁波レベル、狂牛病対策検査など規制が明確に数値化されてるけど、どうやって決めてるんだろう?というような。

人体実験できるわけでも、何十年もかけて被害を見てから答えを出して良いわけでもない。ここに、科学的実証を前提とする科学の限界がある。また、問題解決のための新しい学説のデビューには、学会ごとに妥当性基準が異なるという構造的な問題がある。これを妥当性境界というんだそうだ。このボーダーが予想外に分厚く、クロストークがなかなかできない。実際、社会コンセンサスは科学者だけでは成り立たない。

だからといって、一般世論による意思決定でも不足だ。山崎はるかさんが群衆の叡智サミット2007のときに持ち出した話で、「これは食べられるかどうか」「この金属に毒性があるか」という問題を解決するのであれば、民衆には血であがなわれた実証をする以外にない。

何もしないわけにいかない。何か決めなきゃいけない。しかも妥当な結論にな!

そこで、社会的妥当性、組織的妥当性、経済的妥当性、科学的妥当性というそれぞれ無視できない妥当性境界を持ち出し、さあどうするよという激論をせざるを得ない。それには、微妙な変化を社会モニタリングすることも必要になる。定性的なものもなんとか定量化して分析したりしなきゃいけない。これは大きな課題である。全員に仕事があるから盛り上がる!

dankogai曰く、バランスを取るのは、あなたの仕事じゃなくてみんなの仕事だそうだが、バランスなんてものはぐらぐらするから面白いのだ。あれ、別に矛盾しないんだっけ。

それぞれの「妥当性」にうまい具合に重なるところがあればそこが合意点のドラフトになりうる。しかし、一見どこにも接点がなければ、エアポケットが生じ、へたすりゃ何年もほったらかしになりかねない。そこで、日本はどうしてるかって、他の先進国はどうしてるんだなんてところで決める傾向があると言われるが、他国がばりばりやってても華麗にスルーしてることもある。

実に面白いと思わない?

私としては、この曖昧な「情報科学」を追求する自分のへたくそな試行錯誤模様を書き残していかなければならないと思い、年末から、tech tech okdt(てくてくおかだっち)なるテクニカルフォーカスのブログを書き始めた。「テクニカル」と聞くとどん引きされる方も少なくないのだが、ここでは、この「情報科学」に重心を置きつつ、ソフトウェア技術からはじまり、社会科学、経営技術なんてのも意識して書いていこうと思う。

あえてはてなを使っているのは、テーマのなじみ感、読者の凝集性の高さかな。こういう話題は濃いところに放り込むのが正解。(不満もあるよ。不満はエネルギーなのでこれまた良い)。はじめたばかりなのに、予想以上にアクセスがあるものだね。

新年早々、tech tech okdtに、駅伝往路を見ながら書いたのをご笑覧あれ。これは、社会動向の数値化から何かの気づきをひねり出す情報科学の試みの本年の「書き初め」としたい。

1.走る人の増。(東洋大往路優勝おめでとう)
2.家計消費の改善
3.美味系消費は好調。カニ、マグロ
4.個人投資家急増ふたたび
5.お手軽海外旅行へ。成田利用は地方空港+ソウルへシフト。
6.自己に投資するサラリーマン
7.ホームレス支援施設の利用増。
8.全国的な高齢者の刑法犯増
9.中国株下落も、まだまだアクティブな中国人。日本への旅行者・日本定住者の増。そしてクレジットカード発行数激増。
10.地方での変動。人口シフト・議員年金・外国人

このご時世に右肩あがりなものを10個、必死こいて探してみた

もちろんツッコミどころ満載だ。視点さえあればネタには事欠かないはずだ。皆さんも楽しんでみられては。

本年もよろしくおつきあいくださいませ。

広告

Screen Shot 2015-09-12 at 13.23.52POPFileはいったいどのようにしてこれほどの高い精度でメールを正しく分類できるのだろうか? その秘密はベイジアンフィルターにある。POPFileはこのベイジアンフィルターという数学理論を採用してメールを解析しているのだ。

ベイジアンフィルターの基礎となっているベイズ理論(Bayes Theory)は、古く18世紀の牧師であり数学者であったトーマス・ベイズ(Thomas Bayes)という英国人によって考え出された原理だ。

ベイズは、「物事を判断する確率は、その物事の観察者にとっての不確かさである」と説き、神の存在でさえ数学的に示すことができると述べたそうだ。この考え方で物事を推定することをベイズ推定(Bayes Estimation)という。

簡単に言うと、新たなできごとを予測する際には、すでに起きている事実と、観察者自身の経験を考慮に入れることにより、かなり正確に推測できる、という考え方である。実生活では当たり前っちゃー当たり前だが、数学的にやるとなると簡単そうには見えない。

たとえば、あなたに宅配便で小ぎれいな小包が届いたとしよう。それが何かうれしいプレゼントか、そうでないかを予測することだろう。単純に確率を述べるなら、いちかばちか、50パーセントという確率だというのもあながち悪いとはいえない。でも、どこか実際的ではない。

実際には、その小包の大きさ、重さ、差出人、内容に関する記載事項などという観察に基づく「事実」と、過去の「経験」に基づく確率、つまりプレゼントだと思ったらそうでなかったという確率、あるいは期待通りだった確率を考え合わせるからだ。これを考慮に入れてはじめて、実際の結果にかなり近い予測が可能となる。

この考え方で正しい分類を予測するために、POPFileは最初にいくらかユーザーのトレーニングを受けると、それらのメールから学習する。

つまり、添付ファイルやHTMLのタグやコメントを取り除き、残されたヘッダと本文をコーパス(corpus)と呼ばれる単語群に分解する。 そして、分類されるメールの共通点を知るために、出現頻度の高いものを重み付けし、こうしてメールにおける各単語の出現と各バケツに分類された確率を計算できるようにコーパスデータベースを構築する。

新たなメールを受け取ると、POPFileはそのコーパスデータベースに基づいて、「バケツ」への分類に影響を及ぼす単語を抽出し、その単語の有無や出現回数などから計算して、いずれのバケツに分類するかを決定する。

その作業の過程で、POPFileは未知の単語にも遭遇するわけで、それによってセルフトレーニングを行うため、ユーザが間違いを指摘しない限り、自然に精度の高いコーパスデータベースができあがっていく。 間違った分類をしたことを指摘される(つまり手動で再分類される)と、POPFileはそのデータベースを訂正する。これにより、POPFileは「観察者の判断」を学習し、分類精度を上げることができるのだ。

ためしにPOPFile UIの「履歴」メニューから、spamに認定されたメールの「件名」をクリックしてみて欲しい。すると、メールヘッダと本文のあちこちがバケツと同じ色にされて表示されている。

さらに、ページの下のほうから「単語の頻度を表示」「単語の確率を表示」というリンクをたどると、各メールの分類に大きな影響を及ぼした単語が順に表示されており、大変興味深い。

POPFileのデータベースにスパムで使われる単語が十分蓄積されていくにつれ、業者はスパムらしからぬ単語を使ってメールを送らない限り、その判定をすり抜けることは難しくなっていく一方だ。

しかし、そのようなメールでは、スパム業者の目的を達することはできないだろう。スパムのフィルタリングの技術が向上するにつれ、彼らのビジネス上の目的が立ち行かなくなり、ついにはスパムメールという手段をあきらめてくれるようになればよいのだが。

(この文章はiNTERNET Magazine 2004/3, p.105に掲載された文に若干加筆したものです)