祭囃子は遠く、

祭囃子は遠く、

無職のハッピーエヴリディを書いていきます。

本気で読んだ論文まとめ

本気で読んだ論文を簡単にまとめていく記事にしたいと思います。あとなるべく前提知識を必要としない感じで書いて資料に詳しい説明を書きたい。

From complex to simple : hierarchical free-energy landscape renormalized in deep neural networks

arxiv.org

DNNモデルを統計力学的に解析して、なぜデータ数に対して多いパラメータを決めることができるのかを調べた論文。

資料

輪講で使った資料を置いておきます。(後半はちょっと失速しているのであとで足したい・・・)

発表資料

背景

  • 現在の機械学習はモデルのパラメータ数に対してデータ数が少ないの学習できている(と信じられている)

設定

  • DNNモデルを対象とし、教師データとモデルの出力が一致する重み空間を解析することで、学習済みモデルの比較をする。
  • 解析計算では解析を可能にするためにデータ間に弱い相関を持たせている
  • "gap"からeffectiveなコスト関数を出してシミュレーションの計算もしている

結果

  • 入力、出力層の近くの重みパラメータはどの重みのサブセットを取ってきてもオーバーラップがそこそこある
  • 対照的に中間層はオーバーラップがなく、特に決まった値を取る必要がない(中間層は適当に決めて良い?)
  • シミュレーションは上の結果を支持する形で得られた。

課題

  • データ間に弱い相関を入れたのがどこまで正当化されるか
  • データ数とニューロンの数の比を保ったまま無限大に飛ばす操作がどこまで正当化されるか

ギモン

  • gapについて、中間層でも符号を揃える必要はあるのか?
  • teacher/student settingのRSB解のもじり方がわからない