AIにおける動画解析、動画生成の進化を学び、AIによる動画技術の成長に期待しましょう！！

ChatGPTなど、AIの進化がめざましく、話題になっていますので、AIの進化について学んでいきたいと思います。

動画に関して
フレーム問題
AIによる動画解析の進化に関して
AIによる動画生成の進化に関して
動画AIの進化
まさに成長中の技術
あとがき

動画に関して

ChatGPTの話題が豊富で、「シンギュラリティー」と感じる方は、多いと思いますが、テキストによる自然言語処理・音声処理・画像処理に比べ、動画処理は、さらに難易度があがり、人間のほうが優れています。

課題としては、
１．動画は、扱うデータ量が多い。
２．動画は、中で動く映像にに意味がある。
３．動画処理は、画像の「縦と横」に加え、時間の要素がある。
４．「動画解析（物体認識）」と、「動画生成」両方に課題がある。
ということかと思います。

ここで、AIが苦手な問題として、フレーム問題というのがあります。

フレーム問題

フレーム問題とは、有限の情報処理能力しかないAIには、現実に起こりうる問題全てに対処することができないことを示す問題です。

例えば「ハンバーガーを買え」という問題を要求された場合、AIは、起こりうる無数の出来事から、「ハンバーガーを買う」に関連することだけ抽出し、それ以外のことを無視しなければ行動ができません。

全てを考慮すると無限の時間がかかるため、フレームを作り、そのフレームの中だけで思考するのですが、AIには難しいという問題です。

AIによる動画解析の進化に関して

AIによる動画解析の進化の歴史は、次のようになっています。

1990年代
初期のAIによる動画解析技術が開発される。人間が、手動でフレームを分類し、それに基づいてモデルをトレーニングする必要がありました。

2000年代
動画解析におけるAI技術が進化し、顔検出を高速に行うことができる Viola-Jones、画像処理や物体検出などに利用されるAdaboostが登場しました。

2010年代
ディープラーニングの台頭により、動画解析の精度が飛躍的に向上しました。画像認識でも注目された「AlexNet」が登場することで、動画解析における物体認識やトラッキングの精度が大幅に改善されました。さらに、VGG、GoogLeNet、ResNetなど高精度な物体認識アルゴリズムが続々と登場しました。

動画中に注目すべきフレームを手動で指定するところから始まり、画像認識が成長することで、物体認識ができるようになりました。

AIによる動画生成の進化に関して

AIによる動画生成は、新しい技術となりますが、ベースとなっているのは、画像分類・生成アルゴリズムを元にしたもの（ディープラーニング、CNN、GAN）から生成されます。

有名なものを紹介しておきます。
META社（旧FaceBook）が発表した「Make-A-Video」

Make-A-Video by Meta AI

A state-of-the-art AI system generates high-quality videos from text prompts

画像生成でも有名なStable Diffusionの動画版「Stable Diffusion Video」

nateraw/stable-diffusion-videos – Run with an API on Replicate

Generate videos by interpolating the latent space of Stable Diffusion

スタートアップ「Runway」社の「Gen-2」

Runway Research | Gen-2: Generate novel videos with text, images or video clips

A multimodal AI system that can generate novel videos with text, images or video clips.

AIで写真画像をしゃべらせることができる「Creative Reality Studio」

Creative Reality™ Studio

D-ID's Creative Reality™ Studio is an AI video creator. Use generative AI to produce stunning, future-facing videos feat...

動画AIの進化

動画解析（物体認識）AIの進化は、
　①手動のフレームによる動画解析
　②画像認識を応用した動画解析
　③深層学習による動画解析
動画生成AIの進化は
　①画像認識・生成AIを応用した動画解析
という進化となっています。

動画解析AIは、フレームを見つけ、画像認識をし、深層学習によるアルゴリズムへ進化。
動画生成AIは、画像認識・生成AIを応用した動画生成というように進化しています。

まさに成長中の技術

動画解析（物体認識）AI、動画生成AIの進化について学んだと思います。
動画に関するAIは、現在まさに成長中の技術ですので、次々と新しい技術、サービスが生まれています。
大量の情報が含まれる動画の中から、重要なフレームを見つけ出したり、動画編集を行ったり、テキスト・画像から新たな動画生成する技術は、これからの技術となります。AIの動画解析・生成技術に注目していきましょう！！

あとがき

AIによる動画編集の課題及び、技術の進化についてまとめました。

動画に関しては、ピクセルｘピクセルで正解がない画像に加えて、時間の要素が現われるため、処理量が膨大になってしまうという課題があります。

それを、適切にフレームに絞らないと、考えることが多すぎて思考停止におちいり、止まってしまうというのが、フレーム問題になります。

AIによる動画解析技術は、「フレーム」をうまく処理することがキーとなります。
　①手動のフレームによる動画解析
　②画像認識を応用した動画解析
　③深層学習による動画解析
というように進化しており、「画像認識技術」がまずあり、その後、ディープラーニングを活用するという流れとなっておりますので、正しい流れではありますが、処理速度を早くする技術はまだまだ生まれそうな気がします。

動画生成AIの進化は
　①画像認識・生成AIを応用した動画解析

となっていますが、「Text to Video」だけでなく、「Image to Video」、「Video to Video」もありますのでまだまだ成長が期待できる技術だと思います。

単に動画を作るものだけでなく、人が話しているようなもの、Textから動画を作るものなど様々なものが存在しますので、動画解析、動画生成技術には注目していきましょう！！

なお、本ブログでは、Vrew、D-ID、Flikiなど様々な動画編集ツールの使い方を紹介していますで、ぜひ見ていただければと思います。