昨年末、ハーバード大学デザイン大学院(GSD)では、ハイライン(ニューヨークの歩行者空間プロジェクト)に関する展覧会を開催していました(2018年12月20日まで)。
当ブログの読者の皆さんは既にご存知かとは思うのですが、一応、わたくしcruasan、欧米では歩行者に関するビックデータやAI分析、歩行者空間計画のスペシャリストということになっていて、いま現在、世界のどの都市でどんな歩行者空間計画が行われているかについては、それなりに把握しているつもりなんですね。そんな僕の目から見て、ニューヨークのハイラインはバルセロナのスーパーブロックと並ぶ「世界2大歩行者空間化プロジェクトと言っても過言ではないかな、、、」と、そう思っています。
そんな訳で、ニューヨークを訪れる際には必ず現場を歩き回り、街中の何処にどんな公共空間が立ち現れ、それらの空間が市民生活にどの様な影響を与えているのかを注意深く観察してきた訳なのですが、「ハイラインに関する展覧会がうちの近所で始まる!」と聞いたからには行かない訳にはいきません。
←いや、いま住んでるところ、GSDの真横なんですよ(笑)。
という訳で、この展覧会のオープニングセレモニー(11月14日)から、その後の連続レクチャーなど、なにかと足を運んではこのプロジェクトの新しい側面を発見したりして、ここ数週間は非常に楽しい毎日を送らせて頂いていました。
で、何回か訪れる内に、どうやら今回の展覧会の背景には「ハイラインがなにかしらの賞を受賞したらしい」ということが分かってきてですね、、、11月14日に行われたセレモニー(事実上、これがオープニング・セレモニーだったのですが)では、Field OperationsのJames Corner and Lisa Tziona Switkinやディーラー&スコフィディオ(Elizabeth Diller and Ric Scofidio)、そしてニューヨーク市役所の関係者の方々などが登壇者として招かれ、Diane Davisさん(現ハーバード大学デザイン大学院アーバン・プランニング&デザイン学科長)のオープニングスピーチで授賞式の幕が上がりました。で、何気なくその言葉を聞いていてビックリ!
「えー、この賞は優れた公共空間デザインに対してハーバード大学が与えるもので、過去の受賞者にはバルセロナ市なんかがいます、、、」
「え、え、あ、あれ、、、いま、バルセロナって言った???っていうか、この説明、、、どっかで聞いたことがあるような、、、ないような、、、」
とか思って、ちょっと調べてみたら、、、凄いことを発見してしまって2度びっくり!!
この賞の正式名称は「Veronica Rudge Green Prize in Urban Design」と言うらしいのですが、これがなんと、我々が普段呼んでいる「バルセロナのアーバンデザイン賞」だということが発覚してしまったのです!
←多分この記事を読んでる99%の方々は、いったい僕が何を言っているのか、さっぱり意味が分からないと思いますので、ちょっと解説をします。
「バルセロナの専門家」と呼ばれる人達がバルセロナ関連の論文を書く際、その冒頭(イントロダクション)で良く引用するフレーズが幾つかあります。例えば、「(RIBAに関して)それまでは個人にしか与えられていなかった国立英国建築家協会賞(RIBA)が初めてバルセロナという都市に贈られた」だとか、「都市デザインと都市戦略の質という点において、我々(ロンドン)は多分、アムステルダムやバルセロナに20年は遅れている(リチャード・ロジャース)」みたいな。
その中で必ず引用されるのが、「バルセロナの公共空間計画は、1987年にハーバード大学から都市デザイン賞を授与された」っていうフレーズなんですね。
いままで我々はこの「ハーバード大学から贈られた賞」っていう箇所にはあまり注意を払ってこなかったんだけど、、、つまりは、「あー、そういう賞があるのねー」くらいにしか考えてなかったんだけど、今回のハイラインの件を通して、どうやらそれが「Veronica Rudge Green Prize in Urban Design」だということが判明してしまったのです!
←いや、別にそんなことが分かったからって日本の読者の皆さんにはさっぱり関係無いかとは思うのですが、少なくとも、岡部明子さんと阿部大輔さんだけは興奮していることだろうと想像します(笑)。
さて、ここからが今日のメインテーマなのですが、今日のお題は一言でいうと「先週、新しい論文を発表しました!」です。その名も:
「ディープラーニングアーキテクト:人工知能の眼から見た建築デザインの分類」
とあるジャーナルに投稿した論文をarXivにアップロードして発表しました(原著論文はコチラ)。
←えっっと、多分、「arXivとはなにか?」という所から説明を始めた方が良いかと思うのですが、と言うのも、建築・都市計画・まちづくり系の研究者の方々にはあまり馴染みがないかも知れないからです。
arXivとは(一言でいえば)「掲載前の論文をみんなでシャアするサイト」、、、かな(もちろん合法。運営はコーネル大学)。コンピュータサイエンスやバイオロジー系、最近だとディープラーニングみたいに大変ホットな領域なんかだと、「誰が一番早く論文を出したか」っていう時間との戦いになってしまうことが多々あって、雑誌に投稿した後の「レビュー期間」というのは非常に「あたまの痛い期間」だと言わざるを得ないんですね。と言うのも、論文がレビューされている間に、他のグループが同じ様なアイデアで論文を書いて、もっと良いジャーナルに掲載してしまったりだとか、自分達が提案している手法が既に他のグループによって実証されている事実を知らずに、ひたすら時間とお金を掛けて初期テストをしていた、、、なんてことが多々あるからです。
←レビュー中の論文というのは他のジャーナルやウェブに掲載されることが殆どないので、いま現在、どこの誰がどんな論文を投稿してレビューされているのかなどを知ることは大変難しい状況だと言わざるを得ません。その様な状況を少しでも緩和しようという意図で提案されたのがarXivというシステムなんです。
←(ここからは僕の勝手な見解なのですが)科学というのは基本的に「シャアの世界」だと僕は思っています。もちろん「競争」という側面もあるんだけど、それ以上に「既に分かっていること」、「分かっていないこと」を明確にした上で、先人達が築き上げてきた「分かっていること」の上にホンの少しだけ新しい知見を築き上げること、これが科学の基本コンセプトだと思うんですね。
←だからこそ、いま現在、世界の何処で誰が何をやっているのか、どんなことが既に試されていて、どんなことが達成されているのか(もしくはいないのか)を知る事がこの上なく重要になってくるんです。逆に言うと、世界のどっかの誰かが既にやったこと、実証してしまったことをもう一度やる、、、というのは科学的には非常にナンセンスだと僕は思います(再現性を確認するという意味ではアリ)。
←だからこそ学術論文においては「文献レビュー」という作業が必ず必要になってきてですね、、、それを行なった上で、「じゃあ、我々のチームはこういうアプローチでこういう問題を扱っていこう」という基本方針を決めることが出来るからなんですね。ただ、大変残念なことに最近はそこの部分をしっかりとやっていない学術論文を数多く見掛けます。僕に言わせればそれらは「論文」ではなく「感想文」だと思います。
←感想文という形式はそれはそれで1つの非常に価値ある文章の形だとは思いますが、学術論文とは違います。
あー、脱線してしまった。。。
さて、その様な、長—い査読期間によって失われるであろう時間とお金のロスをなるべく避けようという目的のもと生み出されたのがarXivというシステムであり、投稿中の論文や投稿前の論文をアップすることによって、今この時点での科学的知見やアイデアを、「なるべくリアルタイムに近い感覚でみんなでシェアしよう」というコンセプトな訳です(注意:科学者と呼ばれる全ての人達がそうする訳ではありませんし、arXivについては賛否両論あります)。
と言う訳で(繰り返しになってしまいますが)今回発表した論文はarXivバーションであり、ジャーナルに最終的に掲載されたものではないことをここで断っておきます。
さて、今回発表した論文で僕達がやろうとしたこと=「リサーチ・クエスチョン」はなにかと言うと、それは「コンピュータの目には、建築家のデザイン的な特徴はどのように見えているのだろうか?」ということであり、「それら機械の目で見た時の建築家のデザインの特徴と人間の目(歴史家や批評家)との間には一体どのような違いがあるのだろうか?」ということに尽きます。
良く言われるようにディープラーニングが引き起こしたブレークスルーというのは、画像に写り込んでいる物体を認識させる為の特徴量の抽出を「自動化した」ということだと思います。逆に言えばそれまでは全て人間が入力しなければならなかったということなのですが、例えば「この写真に写っているのは猫だよー」ということを機械に教える為には、猫の特徴である「猫には耳が2つあり、、、ヒゲがあり、、、毛で覆われていて、、、」みたいなことを1つ1つ挙げていき、それらを全て機械に教える必要があったんですね。
しかしですね、ディープラーニングにおいては、そのような特徴量を機械が勝手に認識して抽出し、学習しながら自分の知識に変えていくことになります。
例えば、安藤(忠雄)さんの建築の特徴は(1)「打ち放しコンクリート」、(2)直方体や三角形など「厳格な幾何学を用いて」、、、みたいなことが挙げられるかと思うのですが、それらは全て「我々人間の目から見た安藤建築の特徴」なんですね。
←当然ですよね、我々人間が人間の目で見て判断している訳ですから。そしてそこには常に我々の先入観や事前知識、視覚以外の五感に由来する感覚などが含まれています(そして建築ではそれらが非常に重要だとも考えられています)。それらを全て考慮した上で総合的に判断したものこそ、現在我々が知るところの「建築の歴史」となっている訳なんです(というか、僕はその様に理解しています)。
しかしですね、もしかしたら安藤建築の大量の写真をAIに見せてトレーニングしてみたら、彼ら(機械)は我々人間の目では気が付かなかった特徴や、我々の目には見えない「なにか」に注目することによって、「この建築は安藤建築だ」と認識するかもしれません。
←この「かもしれません」というところがポイント。こういうのは実際にやってみないと分からないからです。もしかしたら機械はそういう判断をするかもしれないし、しないかもしれない。もっと言っちゃうと、これをやったからと言って、何かの役に立つのかどうなのかはサッパリ分かりません。
もしかしたら「やっても無駄」な場合だって多々あります。でも、分からないからやるんです。何かしらの発見があるかもしれないから挑戦するんです。
もし役に立つことが分かっていたり、お金儲けが出来ることが分かっているんだったら、それは我々アカデミックの分野にいる人間がやることではないと僕は考えています(個人的に思っているだけです)。そういうことは、他の領域にいらっしゃる方々がされれば良いことだと思うんですね(繰り返しますが、僕が個人的にそう思っているだけです)。
我々アカデミックの分野にいる人間、大学の研究者というのは、「役に立つかどうか分からないこと」、「なんだかよく分からないけど直感が働くもの」、そういうことに取り組むのが我々の仕事だと僕は理解しています。だから僕はいつも言います。この様な研究は「やってみた系」だと。
ああー、また脱線してしまった。
という訳で、取り敢えずやってみることに。まずはデータを揃えなければならないので、プリツカー賞を受賞した建築家を中心に、35人くらいの建築家を選び出し、各々の建築家毎にサンプル写真をグーグルから取得、更に個人的に今まで撮り溜めた建築写真も含め、合計約20,000の写真を用意しました。それをトレーニングデータと評価データに分けて、いよいよ実験開始です!
、、、と思った矢先、いきなり壁にぶち当たってしまいました。。。まあ、最初から分かっていたことではあったのですが、近代建築や現代建築の分類は思ったほど簡単ではありません。
歴史的な建築っていうのは比較的簡単に機械に教え込むことが出来ます。何故なら(良く知られているように)柱や柱頭、窓などに「建築オーダー」と呼ばれる特徴的なデザインが施されているので、それらを機械に教えてやれば良いだけのことなんですね。
その一方で、近代建築や現代建築には基本的に装飾が付いていません(まあ、ある意味、装飾を排除することで発展してきたのが近代建築や現代建築だと言うことが出来るのですが)。また、往々にしてそれらの建築は四角い箱であることが多いし、なにより近代建築、現代建築の大きな特徴の1つである「空間」というのは「物体そのもの」と言うよりは、柱とか壁、天井といった幾つかの空間エレメントに囲まれた結果現れてくるものだと思うんですね。
もっと言っちゃうと、「写真に映り込んでいる物体」という観点で見た場合、「柱」や「壁」というエレメントは、建築である限りどの建築家がデザインしたものであろうと、そう大して変わらないはずです。柱は柱であり、壁は壁ですから。では何処に違いが現れてくるかというと、それら各エレメントの構成や光の取り入れ方、配置や材料なんかによって、その後に立ち現れてくる「空間」にデザイン的な差異が現れてくる訳ですよ。
何が言いたいのか?
←つまりは画像認識技術を考慮した場合、一般的に用いられている「オブジェクト・ベースのアプローチ」では、うまくいかないんじゃないか、、、と、そう思う訳です。
じゃあ、どうするのか?
←こういう時に先行事例を探す訳です!
今回、道標になったのはアートの世界でやられていることだったのですが、、、というか正確に言えば、「アートの世界でやられている」というよりも、「コンピュータサイエンティスト達がアートに関してやっていること」なのですが。。。
実はですね、アート(特に絵画に関しては)、機械によるアーティストの分類という試みが結構やられていて、それこそ「この絵画はピカソだ」とか、「これはルノアールだ」なんていうのは、既に世界中で色んな研究者が成果を発表していたりします。
しかしですね、ちょっと考えてみれば分かる様に、彼らがぶち当たったであろう難問も僕達が直面していることと本質的には同じなんですね。というのも、ピカソが描いた絵画には「ひまわり」が写ってることもあれば、ゴッホが描く絵画にも「ひまわり」が写っていたりするからです。つまりは画家の分類も「オブジェクト・ベースではうまくいかないんじゃないか、、、」ということが直ぐに分かる訳ですよ。
じゃあ、彼らはどういうアプローチを取っているのか?
絵画(アーティスト)に関する画像分類の世界では、その難問を「デザインスタイルにまでレベルを上げてやることによって解決」しています。分かりやすいところで言うと、ゴッホの筆使いなんかは非常に特徴的なので、その画像を大量に集めてきてAIにトレーニングさせてみる、、、とそんな感じです。ちょっと前に話題になったレンブラントのプロジェクトなんかでは、大量のレンブラントの画像を通して、レンブラントの画法(筆使い、構成、色使いなど)をAIに習得させていました。
これらは全て、「オブジェクト・ベース」ではなく、「スタイル・ベース」で機械をトレーニングして、それによって分類しています。
「おおお、そうかー!じゃあ、そういう方向で考えてみようかな、、、」というのが、今回の論文の基本方針です。
←まあ、とは言っても、建築の場合はそんなに簡単ではなく、まだまだ「道半ば」という感じです。今回の論文ではこの辺の考え方やコンセプト、そして実装して得られた「取り敢えずの結果(preliminary resultsと言います)」を纏めて論文にしました。使ってるアルゴリズムや計算式なんかは実際の論文を見てもらうとして、下記ではどんな感じで結果が出たかを簡単にご紹介しようと思います。
今回、我々が得ることが出来た結果は大きく分けて2つ。1つ目はGrad camと言って、機械の目が建築デザインのどの辺りを見て、その写真の特徴を掴み出し他の建築家のデザインと差異化したかという部分です。その例がこちら:
上の例はアルヴァ・アールトの図書館なのですが、AIはこの写真を0.39の確率でアールトだと判断しています。その次にゲーリー(0.28)が来て、その次に坂茂さん(0.21)、そしてチュミ(0.11)という順番になっています。
では、どうしてAIはこの画像をアールトだと判断したのか?ヒートマップの感度を見てみると、AIは天井の丸窓を見ていることが分かります。ゲーリーや坂さんの画像においても、AIは天井に注目していることが分かるんだけど、それはゲーリーや坂さんのデザインの特徴が天井の丸窓っぽいものを創り出しそう、、、もしくはそういう傾向がありそうだとAIが判断したからです。と、まあ、こんな感じで、最近のAIは「機械がどこを見ながら判断したのか」をヒートマップとして示してくれるというところまできています。
そしてこの論文で僕達が示したもう1つの結果(preliminary result)がこちらです:
機械の目から見た時の建築デザインの分類(クラスタリング)なんですね。クラスタリングにはPCA(主成分分析)を使っているのですが、理屈としてはこんな感じ:何万枚という写真を使って我々がトレーニングしたAIは、「ノーマン・フォスターに特化」とか、「アルヴァロ・シザに特化」とか、インプットとして示された画像を分類出来るようにトレーニングしてあります。ディープラーニングで良く使われる指標であるaccurary(正確さ)は73%であり(つまりはどんな画像を放り込んでも、73%くらいの確率できちんと建築家を分類してくれる)、客観的に見てこの数字は非常に良い数字と言えるかと思います。
ちなみに一番成績が良かったのはチュミで90.4%、第2位はライト(87.7%)、第3位はカーン(87.6%)でした。
さて、我々はここで「アルゴリズム、アルゴリズム」と言っている訳なのですが、じゃあ一体、「そのアルゴリズム(モデル)とは具体的にはなんなのか?」と問われれば、それは結局「数字の羅列」なんですね。その数字の羅列が「シザ」に最適化された感じで並んでいたり、「フォスター」に最適化された形で並んでいたり、、、と、そんな感じのイメージを持って頂ければ大丈夫だと思います。
各々の建築家に特化したモデルが「数字の羅列」で与えられているということは、定量化出来るということであり、比べられるということです。では、どういう風に比べるのか?「各々の建築家がどれくらい似ているのか、もしくは違っているのか」—これがクラスタリングという手法なのです。
で、上の図が「機械の目から見た時の建築家のクラスタリング」なのですが、ここには既に幾つか面白いグループ分けを見る事が出来ます。先ずは右下のグループ:フォスター、ロジャース、ピアノが1つのグループに囲まれているのが見えるかと思うのですが、この三人の作風は「テクノ建築」として知られています。
また、もう1つの例としては、左下の方に「ライトと普通の家」のグループがきちんとクラスタリング出来ていることに気が付きます。このグループもそれなりに納得が出来るクラスタリングだと思うのですが、というのもライトがプレーリーハウスというスタイルを確立し、それが合衆国の郊外型ハウジングのモデルになったことは良く知られた事実だからです。
と、まあ、こんな感じでこの図を見ていると、色々な想像力を掻き立てられるのですが、まあ、とにもかくにも僕達がこの論文で示したかったことは、「機械の目で見た時の建築デザインの分類の可能性」です。上述した様に、「機械の目」は視覚情報以外のものからはなんの影響も受けません。「鉄骨が出てきた背景には、他産業の影響があって云々」とか、「シザの建築はアールトの有機的な影響を受けていて云々」とか、そういうことは全く関係がないのです。
建築史家や批評家の方々からすれば、「そんなの片手落ちじゃないか」と言われるかもしれませんし、それはそれでごもっともなご意見だとも思います。だから僕達は、今回我々が示した事がいままでに確立されてきた分析手法を覆すだとか、「それらに取って代わる」なんてことはこれっぽっちも思っていません。
そうではなく、視覚情報だけに頼った建築デザインの分類というのは、いままでの伝統的な分析手法とはまた違った可能性を我々に見せてくれるのではないか?そしてそれらは伝統的な分析手法と補完的な関係性が築けるのではないかと、そう思っています。
何度でも繰り返しますが、我々がやっていることが社会の役に立つか、もしくはなんの役にも立たないのか、それは分かりません。 分からないからやるんです。いままで誰もやったことがないから挑戦してみるんです。その結果、なんの役にも立たないことが分かっても、「あー、そうか」と、そう思うだけです。その時はまた何度でもやり直せばいいだけの話。
と言う訳で、この研究路線はいま始まったばかりであり、これから数年掛けて色々な研究者の方々と協働することによって発展させていこうと、そう考えています。まあ、取り敢えずここに記念すべき世界初の試みが発表出来たという訳で、今週末はコーヒーとクロワッサンで乾杯しよう。
←ぼく、ビール飲めないので(苦笑)。