一 池田信夫のブログマガジン2025年4月7日号の、「『AI氷河期』がやってくる」の中に、つぎの文章がある。
「たとえば、『バッハの作曲したものと同じような曲を書いてください』とGPTに頼めば、いかにもバッハらしい曲をすぐにつくる。
それはLLMのコア機能が穴埋め問題だからである。GPTはバッハの楽譜をすべて記憶しているから、その一部を削除して『バッハ的な曲にしろ』といえば、確率の高い音符を検索して埋める。こういう作業を繰り返すと、『バッハの曲』という言葉だけで、それらしき音符を並べることができるのだ。」
これは、バッハの曲の楽譜を全て「記憶」していることを前提として、その「一部」削除して「確率の高い」音符の検索・補充を繰り返すと、「バッハ的な曲」になる、ということを意味させていると見られる。
--------
二 単純素朴な疑問は、「真の」バッハ曲から出発していれば、その「一部」の削除と補充を反復しても、「バッハらしい」曲になる可能性が高いことは至極当然だろう、ということだ。最初の楽曲がそもそもバッハであり、(たぶんバッハらしい)「確率の高い」音符の検索・補充をするのだから、「バッハらしく」なるのは当然だという気がする。
こんなことよりも、関心を惹くのは、つぎのようなことだ。
第一に、GPTは、どのようにしてバッハ曲の「楽譜」を「記憶」するのか。
「楽譜」認識作業は、「大規模言語モデル(LLM)」とか「認知言語学」とかの範疇外であるように、素人には思える。
「楽譜」は、意味を持っていても、言葉や文章ではないからだ。
AIはおそらく、「画像」として、バッハの楽譜の全てを「読み取る」。
その画像が(言葉や文章を写真撮影した=画像化した文章の場合のように)意味ある言葉や文章へと「変換」されることはない。
おそらくは、<楽譜>の様式・書き方に関する別の情報と組み合わせることで、特定の「音符」が意味する音の<高さ>・<長さ>等々が「認識」され、別の「音符」との接合・連絡関係もいくつかのレベルで「トータルに」把握される。
ここで問題になるのは、バッハの時代、「楽譜」なるものの書き方・表現方法が一定のものに確立されていたのかどうかだ。詳細は知らないが、今日にたぶんバッハ曲の全てまたはほとんどが演奏されCD化されているようであることからすると、音源は残っていなくとも「楽譜」は残っているのだろう。また、今日に定まっている「楽譜」作成の仕方と異なるものがあったとしても、今日のそれへと「変換」できるのだろう。
--------
第二に、「バッハらしい曲」の「楽譜」が完成したとしても、それだけでは不十分だ。音楽は、その「楽譜」に従って、演奏あるいは「歌唱」されなければならない。
この場合に、バッハまたは「バッハらしい」曲の「楽譜」・「音符」の意味は、今日のそれらと同一なのか、という問題が出てくる。
一定の「音符」の長さや小節の区切りの仕方、半音表記の仕方、「拍子」表記等々は今日と同じだと、かりにしておこう。
しかし、最終的に残るのは、「バッハらしい曲」の「楽譜」上の音符が示す「音」の高さや大きさだ。
重要な問題として、その音符、そして曲全体はいったい何の<楽器>によって「演奏」されるのか、合唱または独唱されるとして、どのような<声>で「歌われる」のか、があるが、ここでは立ち入らない。
現在では、楽譜上のAのライン上の音符の音の高さは、音波数で440khまたはその2乗倍数もしくは1/2乗倍数と国際的に定められている(実際には442khによることも多いとされる)。
17世紀のバッハの時代、「楽譜」表記上の「音符」が示す一定の「音」の<高さ>について、一致があったのだろうか。
この問題は、「曲」の構成要素である「音」の正確な高さ(・長さ)ではなく、「音」が全体として形成する「曲」すなわち「旋律」が重要なのだから、「曲」内の全ての「音」の<相互関係>・<相関関係>が認識できればよい、として解消することはできる。一定の「調」は何か、で判別する、と言い換えてもよい。
--------
だが、第三に、池田信夫は想定していないだろう問題がまだある。
一定の「音符」が示す「音」と別の「音」との<相互関係>に関する理解は今日と同じなのか、という問題だ。
バッハの時代、いわゆるピタゴラス音律を発展させた<十二平均律>はすでに「理論的には」知られていた、という。しかし、ヨーロッパ中心にせよ<十二平均律>が一般的になったのは19世紀前半であって、バッハの時代はまだ一定していなかった。
これは、<音律>の問題だ。つまり、今日の楽譜上で例えばCとその上のEのあいだの音の高さの差、あるいは「音程」は、バッハの時代も同じだったのか、という重要な問題がある。
--------
三 趣味的に叙述を続ける。
ピタゴラス音律では、C-F-Gは、1, 4/3, 3/2 という「調和性」の高い(=周波数の関係を示す数値が簡潔な)「音階」を示す。
十二平均律では、C-F-Gは、1, (2の5/12乗)、(2の7/12乗)という(C=1としての)「音階」になる。
上の二つを少数点表示(下5桁まで)で比較的すると、以下のとおり。
ピタゴラス音律。1, 1.33333, 1.5。
十二平均律。1, 1.33484, 1.49831。
ついで、音律のうち<純正律>では、C-E-G(C=ドだとドミソ)はこうなる。きわめて簡潔だ。
1, 5/4, 3/2。あるいは、4, 5, 6。
十二平均律だと、こうなる。
1, (2の4/12乗), (2の7/12乗)。
上の二つを少数点表示(下5桁まで)で比較すると、以下のとおり。
純正律。1, 1.25, 1.5。(1.25と1.5の比は、1.2)
十二平均律。1, 1.25992, 1.49831。
二例だけだが、これら二つの「音階」または「音程」の違いは、ふつうに 注意深くしていると、素人の私でも聴き分けることができる。
--------
四 要するに、基礎となっている<音律>が分からないと、「バッハらしい曲」の演奏等ができない。
バッハには「平均律クラヴィーア曲集」という曲集があり、これは、12の異なる「基音」にもとづく、各々長調と短調の二種がある総計24曲で成っている。
これでもってバッハは「十二平均律」を確立したとかの「俗説」がある。「平均律」と和訳されている部分はドイツ語でwohltemperirt で、「適正に(ほどよく)調整された」程度の意味であって、「十二平均律」を基礎にしているのではない、と思われる。
「楽譜」が残っていても、当時に演奏された「音源」は全く残っていない。
だから、AIが「楽譜」を認識し作成すると言っても、「音律」が分からないと「演奏」等ができない。
言葉・文章に適したAIと、絵画等の画像や音楽等の音に関するAIとは別に思考する必要があるのではないか。前者ではいわゆる「画素」数の、後者では例えばサンプリング周波数のそれぞれ設定の問題がまずある。これらの問題は、言葉や文章にはない。
—————
「たとえば、『バッハの作曲したものと同じような曲を書いてください』とGPTに頼めば、いかにもバッハらしい曲をすぐにつくる。
それはLLMのコア機能が穴埋め問題だからである。GPTはバッハの楽譜をすべて記憶しているから、その一部を削除して『バッハ的な曲にしろ』といえば、確率の高い音符を検索して埋める。こういう作業を繰り返すと、『バッハの曲』という言葉だけで、それらしき音符を並べることができるのだ。」
これは、バッハの曲の楽譜を全て「記憶」していることを前提として、その「一部」削除して「確率の高い」音符の検索・補充を繰り返すと、「バッハ的な曲」になる、ということを意味させていると見られる。
--------
二 単純素朴な疑問は、「真の」バッハ曲から出発していれば、その「一部」の削除と補充を反復しても、「バッハらしい」曲になる可能性が高いことは至極当然だろう、ということだ。最初の楽曲がそもそもバッハであり、(たぶんバッハらしい)「確率の高い」音符の検索・補充をするのだから、「バッハらしく」なるのは当然だという気がする。
こんなことよりも、関心を惹くのは、つぎのようなことだ。
第一に、GPTは、どのようにしてバッハ曲の「楽譜」を「記憶」するのか。
「楽譜」認識作業は、「大規模言語モデル(LLM)」とか「認知言語学」とかの範疇外であるように、素人には思える。
「楽譜」は、意味を持っていても、言葉や文章ではないからだ。
AIはおそらく、「画像」として、バッハの楽譜の全てを「読み取る」。
その画像が(言葉や文章を写真撮影した=画像化した文章の場合のように)意味ある言葉や文章へと「変換」されることはない。
おそらくは、<楽譜>の様式・書き方に関する別の情報と組み合わせることで、特定の「音符」が意味する音の<高さ>・<長さ>等々が「認識」され、別の「音符」との接合・連絡関係もいくつかのレベルで「トータルに」把握される。
ここで問題になるのは、バッハの時代、「楽譜」なるものの書き方・表現方法が一定のものに確立されていたのかどうかだ。詳細は知らないが、今日にたぶんバッハ曲の全てまたはほとんどが演奏されCD化されているようであることからすると、音源は残っていなくとも「楽譜」は残っているのだろう。また、今日に定まっている「楽譜」作成の仕方と異なるものがあったとしても、今日のそれへと「変換」できるのだろう。
--------
第二に、「バッハらしい曲」の「楽譜」が完成したとしても、それだけでは不十分だ。音楽は、その「楽譜」に従って、演奏あるいは「歌唱」されなければならない。
この場合に、バッハまたは「バッハらしい」曲の「楽譜」・「音符」の意味は、今日のそれらと同一なのか、という問題が出てくる。
一定の「音符」の長さや小節の区切りの仕方、半音表記の仕方、「拍子」表記等々は今日と同じだと、かりにしておこう。
しかし、最終的に残るのは、「バッハらしい曲」の「楽譜」上の音符が示す「音」の高さや大きさだ。
重要な問題として、その音符、そして曲全体はいったい何の<楽器>によって「演奏」されるのか、合唱または独唱されるとして、どのような<声>で「歌われる」のか、があるが、ここでは立ち入らない。
現在では、楽譜上のAのライン上の音符の音の高さは、音波数で440khまたはその2乗倍数もしくは1/2乗倍数と国際的に定められている(実際には442khによることも多いとされる)。
17世紀のバッハの時代、「楽譜」表記上の「音符」が示す一定の「音」の<高さ>について、一致があったのだろうか。
この問題は、「曲」の構成要素である「音」の正確な高さ(・長さ)ではなく、「音」が全体として形成する「曲」すなわち「旋律」が重要なのだから、「曲」内の全ての「音」の<相互関係>・<相関関係>が認識できればよい、として解消することはできる。一定の「調」は何か、で判別する、と言い換えてもよい。
--------
だが、第三に、池田信夫は想定していないだろう問題がまだある。
一定の「音符」が示す「音」と別の「音」との<相互関係>に関する理解は今日と同じなのか、という問題だ。
バッハの時代、いわゆるピタゴラス音律を発展させた<十二平均律>はすでに「理論的には」知られていた、という。しかし、ヨーロッパ中心にせよ<十二平均律>が一般的になったのは19世紀前半であって、バッハの時代はまだ一定していなかった。
これは、<音律>の問題だ。つまり、今日の楽譜上で例えばCとその上のEのあいだの音の高さの差、あるいは「音程」は、バッハの時代も同じだったのか、という重要な問題がある。
--------
三 趣味的に叙述を続ける。
ピタゴラス音律では、C-F-Gは、1, 4/3, 3/2 という「調和性」の高い(=周波数の関係を示す数値が簡潔な)「音階」を示す。
十二平均律では、C-F-Gは、1, (2の5/12乗)、(2の7/12乗)という(C=1としての)「音階」になる。
上の二つを少数点表示(下5桁まで)で比較的すると、以下のとおり。
ピタゴラス音律。1, 1.33333, 1.5。
十二平均律。1, 1.33484, 1.49831。
ついで、音律のうち<純正律>では、C-E-G(C=ドだとドミソ)はこうなる。きわめて簡潔だ。
1, 5/4, 3/2。あるいは、4, 5, 6。
十二平均律だと、こうなる。
1, (2の4/12乗), (2の7/12乗)。
上の二つを少数点表示(下5桁まで)で比較すると、以下のとおり。
純正律。1, 1.25, 1.5。(1.25と1.5の比は、1.2)
十二平均律。1, 1.25992, 1.49831。
二例だけだが、これら二つの「音階」または「音程」の違いは、ふつうに 注意深くしていると、素人の私でも聴き分けることができる。
--------
四 要するに、基礎となっている<音律>が分からないと、「バッハらしい曲」の演奏等ができない。
バッハには「平均律クラヴィーア曲集」という曲集があり、これは、12の異なる「基音」にもとづく、各々長調と短調の二種がある総計24曲で成っている。
これでもってバッハは「十二平均律」を確立したとかの「俗説」がある。「平均律」と和訳されている部分はドイツ語でwohltemperirt で、「適正に(ほどよく)調整された」程度の意味であって、「十二平均律」を基礎にしているのではない、と思われる。
「楽譜」が残っていても、当時に演奏された「音源」は全く残っていない。
だから、AIが「楽譜」を認識し作成すると言っても、「音律」が分からないと「演奏」等ができない。
言葉・文章に適したAIと、絵画等の画像や音楽等の音に関するAIとは別に思考する必要があるのではないか。前者ではいわゆる「画素」数の、後者では例えばサンプリング周波数のそれぞれ設定の問題がまずある。これらの問題は、言葉や文章にはない。
—————



























































