AIにおける自然言語処理の進化を学びGPTモデルが本物であることを学びましょう！！

ChatGPTなど、AIがいつの間にか進化しており話題になっていますので、AIの進化について学んでいきたいと思います。AIの歴史は、下記も読んでいただければと思います。

自然言語処理に関して
自然言語AIの進化
人間の脳を超える
あとがき

自然言語処理に関して

AIが扱う自然言語のテキスト処理に関しては、次のように進化しています。

１．ルールベースの手法(1950年代-1990年代)
初期のAIの自然言語処理は、ルールを使用して、テキストを解析し、意味を理解するものでした。1966年にMITのジョセフ・ウェイゼンバウムによって開発されたイライザELIZAは、精神科セラピストのような役割を演じるプログラムでしたが、本物のセラピストと間違う人も現れるほどでした。

２．統計的手法 (1990年代-2010年代)
文書を「単語」を単位として、それをベクトルで表現し、大量の文書を解析し、そのパターンを利用する統計的手法が登場しました。
TF-IDF（Term Frequency-Inverse Document Frequency）は、テキストの重要度を評価するために用いられる方法です。
TF（Term Frequency）：文書中にある単語の出現頻度
IDF（Inverse Document Frequency）：一般的な単語かを表す指標
TFとIDFを掛け合わせた値でテキストの重要度を評価します。

３．深層学習手法 (2010年代-現在)
深層学習ではニューラルネットワークを使用して、高度なテキスト解析が可能になりました。

word2vecは、単語の意味的な関係性を学習することで、単語を数値化されたベクトル表現に変換します。

さらに2017年Googleが発表したTransformerは、並列計算が可能になり、計算が高速化しました。ここが大きなポイントです。

４．事前学習されたモデル (現在)
並列計算で高速化され、大量のテキストデータを使用してトレーニングされたニューラルネットワークのモデルになります。GPT(Generative Pre-Trained Transformer)は、大量のテキストデータを事前学習して、並行処理ができるモデルで、ChatGPTを見てもわかる通り、ほぼ自然言語であるといえます。

自然言語AIの進化

自然言語AIの進化は簡単に言うと、
　①応答内容が決まっている（ルールベース）
　②単語を分析して、出現頻度を分析（統計学的手法）
　③ニューラルネットワークで適切な単語をつなぐ（word2vec)
　④並行処理できるニューラルネットワーク（Transformer）
　⑤大量に事前学習した並行処理できるニューラルネットワーク（GPT）
というように進化しています。ChatGPTが突然出てきたわけではなく、進化していることがわかると思います。

人間の脳を超える

並列処理ができるようになった段階で、処理の性能の競争が起こっているのですが、言語モデルの性能を表す指標に「パラメータ数」というものがあります。
現在、GPT-3の持つパラメータ数は175B（1750億個）で、
次に出るGPT-4は、1T（100兆個）のパラメータを持つといわれています。
100兆個は、脳のシナプス数とだいたい同じ数になります。