AIコード生成と著作権
2021-07-01T13:31:10+0900
6月30日、GitHub CopilotというAIプログラミングツールのテクニカルプレビューが発表されました。
コメントなどから自動的にコードが生成されるアニメーションは、とてもセンセーショナルで今後のプログラミングのあり方を変えてくれそうな予感がします。AIコード生成は以前からTabnineなどがありましたが、GitHubが参入したことで、今後より一般的に普及しそうです。
そんな中、AIコード生成とGPLライセンスについてのツイートが少し話題になっているのを目にしました。
github copilot はgplのコードを学習してんならgithub copilotが生成するコードはgplなコードのderivative worksでしかあり得ねえだろうが、という指摘がされており一考の価値がある https://t.co/pacomctOzW
— 7594591200220899443 (@shyouhei) June 30, 2021
ライセンス以前にまずAI生成されたコードの著作権が現状どうなっているのか気になったので、調べてみて自分の中で整理したことを記録しておきます。
GPLライセンスの前にまずは著作権 #
ライセンスがどうこういう前に、生成されたコードの著作権が誰のものになるのかを明確化しないと話がこじれてしまいます。
AIがコードを生成するためには、まず誰かが書いたコードがあり、AIがそれを元に学習を行いコードを生成します。学習元のコードは明確に作者がいるため、著作権所有者も明らかですが、それを元に生成されたコードの所有者は誰になるのでしょうか?
ちなみに、GPLラインセンスの話になると、なぜかGPLにたいして過敏に反応する人が見られます。おそらくGPLに親でも殺されたのでしょう。
「GPLだから」とかそういう声があると問題の本質が見えなくなってしまいますので、ここはまず著作権(コピーライト)としてどうなのかで考えるべきです。
著作権とOSSラインセンス #
自分が作った創作物ははコード、イラスト、音楽、その他もろもろのすべてに著作権が発生します。このとき、創作物の作者は著作者といい、創作物を著作物といいます。そして、著作権を持つのは著作者になります。著作権は特許と違って、自動的に発生するため特に何か申請する必要もありません。
もし、誰かが著作物を無許可でパクって公開したりすると、著作者は著作権違反で相手を訴えて公開を差し止めたり、賠償請求ができます。
つまり、他人のソースコードを無許可でコピー(複製)すると著作権違反となってしまうわけですが、いちいち許可を与えるのも面倒な話しです。そこでOSSの世界ではプログラムをもっとよくするため、「この条件を守ってくれたら誰でもコードを自由に使ってくれていいよ」と、著作者があらかじめ明示的に利用を許可できるOSSライセンスという仕組みを生み出しました。
これにより、余計な手間もかからず、著作権違反もさせずに、ソースコードを気軽に公開できるようになりました。
その後、インターネットやGitHubの普及により、いまではあのMicrosoftまでもがOSSを支援するなど、著作権を守りつつ、誰でも多くのソースコードを読める時代になったのです。
AIと著作権 #
AIによる創作物に著作権はあるのか?という議論は色々と行われていますが、日本においてはいまのところ学習済みモデルの著作権は認められていますが、創作物については著作権は認められていません(参考:「AI創作物」の著作権法上の保護)。
また、著作権違反についても、現行法上は人が行うことに限定されているため、AIを著作権違反で訴えることもできません(参考:AI創作物に関する著作権法上の問題点とその対策案)。
一方、英国では「computer-generated works」という形で著作権を認めている(ただし、人格権は認めていない)ため、日本でも今後、何らかの形で著作権を認める方向になるかもしれません(参考:AI 生成物・機械学習と著作権法)。
ちなみに、AIによる創作物の著作権は誰に帰属するかについては、英国ではそのAIを操作して創作物を生成した人や、AIの学習済みモデルを作った人と解釈されているそうですが、色々な点が曖昧となっていて、すべての問題が解決しているとは言いがたいのが現状です。
ひとまず、現状を整理すると日本の場合はAIが生成したコードには著作権がないことになります。
となると、著作権が消滅するケースと、操作者に帰属するケースの2つが考えられますが、このとき具体的に何か問題となるかについて考えてみました。
AI創作物の著作権をまったく認めない場合 #
もし、AIが生成したコードの著作権をまったく認めない場合、著作権のあるコードをAIに学習させて再生成すれば著作権が消滅して著作権ロンダリングができてしまうことになります。
これは学習元となったオリジナルのコード作者からすればだいぶ迷惑な話で、自身が書いたコードが実質複製されたとしても、文句すら言えないということになります。
では、どうやって保護すれば良いのかというと、現状だと特許や商標などのパテントくらいしかないため、パテント地獄の門が開いてしまうことになり、望ましい未来とは言えません。
ただし、現実としては生成されたコードを100%そのまま動かすようなことはまだありえないので、そこに手を加えた人が最終的には著作権を持つことになるのではないかと思います。ですが、その場合は次の問題があります。
AI創作物の著作権は利用者に帰属する場合 #
現状の解釈として一番ありそうなのは、AIコード生成を単なるプログラム支援ツールの一種ととらえて、AIを使ってコードを生成した人が書いた(著作権を持つ)こととして扱うケースです。
この場合は、現状のラインセンス違反と同等になるため、問題としてありそうなのは、知らず知らずのうちにOSSとして公開されているコードとまったく同じ関数をAIが生成してそれを組み込んでしまい、公開した人がライセンス違反のクレームを受けることがありそうです。
まとめ #
AIによるコード生成とその著作権が気になったので少し調べてみたのですが、なかなか解決しなければならない課題が多く、また、いますぐの解決も難しそうに思いました。
ただ、これらの問題はOSSライセンスが登場したときも似たような問題があって今に至るわけですので、今後一歩づつ解決していけばいいだけだと言えます。
現状だと、権利帰属が明確化されていないため、議論が進まなさそうな印象を受けたので、まずはそこから整備していく必要がありそうです。
インターネット革命から約30年、次の革命は何かという話がありましたが、本格的にAI革命がきそうな気した出来事でした。
追記 #
現状はなかなか激しいことになっている様子。これも過渡期のなせるわざですね。
GitHub CopilotでQuine書こうとしたら著作権を奪われました pic.twitter.com/egMROlzLaQ
— Yusuke Endoh (@mametter) July 1, 2021
# Copyright って入力したら勝手に... pic.twitter.com/980Cg5xbee
— mattn (@mattn_jp) July 1, 2021