Copyright (c) of
The University of Tokyo.
All rights reserved.

Last updated: May. 2017

Japanese English

東京大学大学院情報理工学系 研究科創造情報学専攻 兼 数理情報学専攻 山西健司のウェブサイトです。

山西健司プロフィール 研究分野 研究内容の詳細 著作 論文・講演 学会・専門活動 リンク

研究内容の詳細

1.確率的知識の学習理論の研究(1990年-1994年)

統計的学習の3つのモデルの構築
1. 確率的PAC学習モデル Stochastic PAC(probably approximately correct)Model 確率規則の近似学習のモデル
2. 確率的逐次学習モデル Loss Bound Model 確率予測のモデル
3. 確率的識別モデル PAD(Probably Almost Discriminative) Model 識別学習のモデル

それぞれのモデルは、学習の問題を推定・予測・検定といった統計的問題に還元しながら学習に必要なコンプレキシティをも考慮した新しい学習評価のための形式的理論です。またそれらのモデルの中で、有効な推定・予測・検定のための学習アルゴリズムがMDL(Minimum Description Length)principle(記述長最小原理)から統一的に導かれることを示し、その理論的性能を明らかにしました。この結果はMDL原理自体の理論的解明に貢献しています。

MDL原理に基づく学習

図1: MDL原理に基づく学習

例えば、MDL原理を統計的モデル選択に用いるとしましょう。

与えられたデータに対して、何次の多項式を当てはめればよいかといった問題を考えます。次数の低い単純な曲線を当てはめると、例外を多く生み出します。明らかにデータの内在的構造の本質を捉えきれていません。一方で、次数の高い複雑な曲線を当てはめると、データの不規則性に過剰適合してデータの内在構造の本質から遠ざかります。

そこで、曲線の複雑さの記述長とその曲線に当てはまらない例外データの記述長の総和を最小にするように曲線を選ぶことにより、最適な曲線がデータに応じて決定できるのです。

2.確率的コンプレキシティの拡張と機械学習応用の研究(1995年―2007年)

MDL原理の基礎には「確率的コンプレキシティ」(Stochastic Complexity,略して「SC」)とよばれる情報理論的概念があります。これは一言で言うと、「確率モデルのクラスを用いてデータ圧縮する時の最小記述長」のことです。

確率的コンプレキティ

図2: 確率的コンプレキティ

MDL原理によれば、SCを実現するデータ圧縮アルゴリズムそのものが、最も性能の良い機械学習アルゴリズムであると見なされます。すなわち、SCは学習の限界を規定する本質的な量です。ここでは、SCを以下のような形で拡張し、機械学習の文脈の中で、機械学習アルゴリズムの設計と解析における有効性を立証してきました。

SC3つの拡張

1. 拡張型確率的コンプレキシティExtended Stochastic Complexity;ESC 一般の損失に関する統計的決定理論の枠組みへの拡張
2. 動的モデル選択 Dynamic Model Selection; DMS  非定常情報源への拡張
3. 分散協調ベイズ学習方式 Distributed Cooperative Bayesian Learning  分散情報源への拡張

確率的コンプレキシティとその拡張

図3: 確率的コンプレキシティとその拡張

こうした研究は情報論的学習理論とよばれる分野に貢献しています。

3.データ・テキストマイニングの研究(1999年―)

上記の理論をベースにして、データマイニング、テキストマイニングといった分野で機械学習の応用に取り組んでいます。

データマイニングとは、大量のデータからの知識発見です。現在、特に、データの動的でヘテロ(非一様)な性質に対応したマイニングを行うことが最も重要です。このようなマイニングの技術を、動的ヘテロデータマイニング技術とよんでいます。

その中で、特に以下の分野の体系を構築しています。

動的ヘテロマイニング

図4: 動的ヘテロマイニング

1. 異常検知
・ビジネス領域: セキュリティ、詐欺検出、不審行動検出、製造業における障害検知、セットワーク障害検出
・技術: 外れ値検出・変化点検出・異常行動検出、集合型異常検知、隠れ変数マイニング
山西健司著「データマイニングによる異常検知」(共立出版)において、これまでの異常検知に関する研究活動の集大成を見ることができます。

2. 知識構造化
・事業領域: CRM(Customer Relationship Management)、ナレッジマネジメント, CGM(Consumer Generated Medias)分析
・技術: テキスト分類・トピック分析・自由記述アンケート分析

4.Latent Dynamicsの研究(2008年―)

データマイニングにおいて、データの表層的な関係性を調べても必ずしも価値ある知識は発見できません。
データの背後にある潜在世界に注目し、その変化やダイナミックスにこそ貴重な情報が含まれていることがあります。
そのための方法論を確立していこうとするのが、Latent Dynamicsの研究です。

例えば、コンピュータのユーザのコマンド履歴を調べると、どのコマンドの後にどのコマンドが出現するかといった顕在的な情報からは表層的な関係しか得られません。

しかし、その背後にある潜在的情報(プログラム作成、情報流出など)を把握し、その変化をデータから検出することによって初めて、情報犯罪やセキュリティインシデントの検出といった意味のあるデータマイニングにつながってくるのです。

2010年度より東大システム創成の大澤先生、日本IBMの井手さんと共にLatent Dynamics研究会を立ち上げ、Latent Dynamicsワークショップを開催し始めました。Latent Dynamicsをキーワードとする新しい学際的な世界がそこに拡がってゆくことを期待しています。