my notebook

Auto Encoder は、 Encoder と Decoder の２つのネットワークを使って、入力画像から出力画像を生成するものです。このとき出力画像を入力画像と一致するようにネットワークをトレーニングします。そうやって入力画像からそれとそっくりな出力画像を生成できるようになったら中間生成物である Encoder の出力情報（これを潜在ベクトルと呼ぶ）を利用することを考えます。

Encoder の出力情報（潜在ベクトル）は、入力のそれより少なくなるようにモデルを設計しているので、潜在ベクトルは入力画像の特徴を凝縮した形で表現されていると考えることができます。ならば、潜在ベクトルが似ている画像は、元の画像も似た画像に違いない。この性質を利用して、潜在ベクトルが似た画像を探すことで、画像を分類したり・画像を検索したりすることが実現できる、という発想です。

» Read More

denoising diffusion implicit models wiht kaokore

Denoising Diffusion Implicit Models を試した。このページではデータセットは oxford_flowers102 を使用していますが、それに代えて顔コレおよびポケモンデータセットを使ってトレーニングしてみました。

» Read More

Keras のこの記事 https://keras.io/examples/vision/mnist_convnet/ を参考にしながら、最終的にはこれを TensorFlow.js に移植する試み。

今回は Python でモデルを構築して、実際に手描き数字を推測させてみるところまで進めます。

hand written numbers

» Read More