機械学習のための合成データ

合成データとは何ですか？

合成データとは、統計的に記述的な特徴を保持することを目的として、実際のケースから人工的に生成されたサンプルを指します。合成データセットは、データプライバシーを保護するためや、元のデータよりも多くのサンプルを持つデータセットを生成するために、実データを置き換えることを目指しています。合成データは作り物のデータではなく、復元された画像が新しい画像でないのと同様です。合成データを分析することで、実データでは明らかでないパターンを発見することができます。たとえば、解像度の低い画像があり、右下隅に明確に特定できないオブジェクトがある場合、復元ツールを使用することで、そのオブジェクトが犬であることを認識できるかもしれません。同様に、合成データ生成アルゴリズムは、元のデータでは明確でない場合でも、表形式データ内の変数間の関係の性質を理解する手助けをしてくれます。

なぜ合成データはNextBrainにとって重要なのか？

機械学習技術を多くのユーザーに普及させる上での主な障壁はデータです。効果的であるためには、これらの技術は多量のデータを要求します。正確な予測を得るために、分類または回帰問題を解決するために使用されるほとんどのアルゴリズムは、大量のデータを必要とします。しかし、すべてのユーザーが「ビッグデータ」として知られる大量のデータにアクセスできるわけではありません。逆に、ビジネスの世界や専門的な活動、学術界においても、大多数のユーザーは限られた量のデータを扱っています。データへのアクセスは高コストで時間がかかります。

この障壁を克服するためには、ユーザーが利用できるデータをもっと増やす必要があります。これには二つの解決策があります。第一の解決策は、ユーザーが意思決定に利用できる外部データソースへのアクセスを提供することです。私たちはすでにNextBrainでいくつかのコネクタを提供することでこれを実施しています。第二の解決策は、文字通りデータを「発明する」ことです。しかし、私たちはどのようにデータを「発明」するのでしょうか？それは可能です。今ではそれを可能にする技術があります。私たちは解決したい問題を説明するデータのスプレッドシートを持っていると言います。私たちは、そのテーブルには20行と10列があると言います。機械学習技術はこれ以上のデータを必要とします。これらのデータでは、どのアルゴリズムも限界があり、導き出せる結論は疑わしいものになります。しかし、このテーブルに基づいて300行と10列の別のテーブルを作成することを考えてみてください。これにより、アルゴリズムからより現実的な結果を得ることができるようになります。

この魔法はどうやって実現するのですか？

生成対抗ネットワーク、またはGANは、これらの生成アプリケーションの中心にある技術です。GANは2014年にイアン・グッドフェローによって導入されました。このアイデアは、2つの異なるニューラルネットワークを設計し、それらを対抗させることでした。最初のニューラルネットワークは、入力データに統計的に類似した新しいデータを生成することから始まります。2番目のニューラルネットワークは、どのデータが人工的に作成され、どれがそうでないかを識別することを任されています。両方のネットワークは常に互いに競い合っており、最初のネットワークは2番目のネットワークを欺こうとし、2番目のネットワークは最初のネットワークが何をしているのかを理解しようとします。このゲームは、2番目のネットワークが最初のネットワークの出力から来ているデータと元のデータを「識別」できなくなったときに終了します。最初のネットワークをジェネレーターと呼び、2番目のネットワークをディスクリミネーターと呼びます。

NextBrainでは、Wasserstein GAN（Arjovsky et al, 2017）に基づいた独自のGANアーキテクチャをリリースしました。非常に少数のサンプルでトレーニングするために適した特別なアーキテクチャを開発しました。

合成データ生成において最も重要なステップは、実データとの類似性や「近さ」を確認することです。NextBrainでは、合成データが自信を持ってオリジナルデータサンプルを置き換えられることを確かめるために、この比較を行う最先端のツールを開発するために大きな努力をしています (Marin, J., 2022)。

参考文献：

Arjovsky, M., Chintala, S., & Bottou, L. (2017). Wasserstein生成対抗ネットワーク. 国際機械学習会議, 214–223.

Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., & Bengio, Y. et al. (2014). Generative adversarial nets. Advances in neural information processing systems, 27.

マリン, J. (2022). 合成タブラーデータ評価に関する実験的研究. arXiv プレプリント arXiv:2211.10760. アルジョフスキー, M., チンタラ, S., &