2021年7月29日

論文紹介: Pre-training without Natural Images

Deep LearningDataset

cover

LeapMindの花元です。

ディープラーニング、してますか?

ディープラーニングするとき、最も困ることの1つはデータセットを見つけることです。特に、商用利用する場合にはライセンスの問題で利用できるデータセットがかなり限られてしまいます。また、商用利用可能となっているデータセットも、画像の権利関係が不明である等、利用にリスクがあるケースがあり、データセットの選定に苦労している人は多いのではないかと思います。

今回はこのような問題を解決してくれるかもしれないデータセットについて紹介します。

Pre-training without Natural Images

Pre-training without Natural Imagesは、ImageNetのような自然画像からなるデータセットの代替として、人工画像であるフラクタル画像を自動生成するアルゴリズム及びデータセットを提案しています。また、単にパラメータからフラクタル画像を自動生成するのみならず、同一のカテゴリに含まれるフラクタル画像を生成するためのパラメータを生成するアルゴリズムも提案していることから、事実上無制限に画像を生成することが可能となっています。

実験

実験では、CIFAR-10/100等のClassificationタスクについて、1.スクラッチで学習、2.Self-supervisionによるPre-train、3.ImageNet等の自然画像によるPre-trainによる精度と提案手法(本データセットによるPre-train)とで比較しています。

結果として、1.スクラッチで学習したモデルよりも高い精度が得られており、2.Self-supervisionによるPre-train、3.ImageNet等の自然画像によるPre-trainと比較してもタスクによっては高い精度が得られていることが示されています。

また、それぞれのデータセットでPre-trainさせた際の最初の畳込み層を可視化しており、本手法でPre-trainさせた場合、自然画像で学習したものと比較して大きく異なる特徴を捉えていることが示されています。(下図)。

This is a image(https://hirokatsukataoka16.github.io/Pretraining-without-Natural-Images/より引用。(c)及び(d)が本提案手法によるものである)

応用可能性

ここから先は私個人の考えを記述します。本データセットが活用できうるタスクの1つに、異常検知タスクがあると考えています。理由としては、以下の2つが挙げられます。

  1. 提案手法で学習したCNNは、異常検知に必要と考えられる、テクスチャの特徴を抽出することに強い可能性がある
  2. 異常検知タスクにおけるモデルでは、Fine-tuningが不要な可能性がある

1つめに関して、ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustnessでは、ImageNetで学習したCNNが、物体の形状よりも物体のテクスチャを重要視して物体を認識する傾向があることが示されています。ここで、上で示した最初の畳込み層の可視化画像を見ると、Fractal-1K/10Kで学習した畳込み層の方が、ImageNetのものより更に物体のテクスチャを認識するように層が形成されている傾向があるように見受けられます。例えば、Fractal-1K/10Kで学習した層では市松模様のようなテクスチャに発火する層が多くあります。

人間は普通テクスチャよりも形状をヒントに物体を認識する傾向があることから、物体のテクスチャ認識の方により強いバイアスがかかることは一見デメリットのように感じられますが、異常検知タスクにおいてはテクスチャの特徴を抽出できることがメリットとなる可能性があります。例えば、LeapMindではMLF-SCという異常検知手法の研究開発を行っていますが、本手法ではテクスチャの特徴を捉えていると考えられる中間層の特徴を活用することで、より高い異常検知性能を得ることに成功しています。ここで、もしFractal-1K/10Kでテクスチャの特徴をより捉えることができれば、より高い異常検知性能を得られる可能性があります。

2つめに関して、Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detectionのような、Pre-trainモデルを用いて特徴抽出を行い、正常データの特徴分布を用いて異常検知をする手法では、正常データそのものを使ってPre-trainしたモデルや、モデルの出力に近すぎる層(domain-specificになっている層)から特徴を抽出すると、かえって異常検知性能が落ちてしまう可能性が示唆されています。これは、異常検知を行いたい対象と特徴が大きく異なるデータセットでPre-trainした方が異常検知性能が向上する可能性を示しており、人工画像であるFractal-1K/10Kを用いることでさらなる異常検知性能の向上が得られるかもしれません。

まとめ

この記事では自然画像ではなく、人工的に生成したフラクタル画像からなるデータセットを紹介しました。このデータセットを用いることで、データセットの権利に係る問題を回避できるだけでなく、タスクによってはImageNetのような自然画像からなるデータセットでPre-trainした場合よりも高い精度が得られることが論文では主張されています。

また、私個人の考えでは、異常検知タスクにこのようなデータセットが有効ではないかと想定しており、実際に高い精度が得られることを期待しています。