第40回-松下氏 - 大阪科学賞

第４０回（令和４年度）
大阪科学賞（OSAKA SCIENCE PRIZE）受賞者の横顔

松下　康之　（まつした　やすゆき）

現職：大阪大学大学院情報科学研究科　教授
http://cvl.ist.osaka-u.ac.jp/member/matsushita/

略歴：
１９９８年　３月　　東京大学工学部電子情報工学科卒業
２０００年　３月　　東京大学大学院工学系研究科修士課程修了
２００３年　３月　　東京大学大学院工学系研究科博士課程修了博士（工学）取得
２００３年　４月　　マイクロソフトリサーチアジア
２０１５年　４月－現在　大阪大学大学院情報科学研究科教授
研究業績：実世界の三次元ディジタル化に関する先駆的研究

実世界物体の三次元ディジタル化は、サイバー空間上に実世界を忠実に再現する仮想現実（VR）や、サイバー空間でのシミュレーション結果を実世界に還元するデジタルツインの実現のために欠かせない技術です。これまでの研究で、実世界物体の大まかな三次元形状は容易にディジタル化できるようになってきました。しかしながら、リアリティの再現に重要な物体表面の微細な形状や質感といった情報のディジタル化は困難な問題として残っていました。私たちは、微細な形状や質感のディジタル化を目的として、光源の方向を変えながら複数枚の画像を撮影することで観察される陰影パターンの変化から物体表面上の各点における傾きを推定する「照度差ステレオ法」の研究に取り組んできました。この取り組みの中で、画像中に観察される陰影パターンの変化と反射率に関する事前知識をもちいることで、多様な質感をもつ物体の高精細な三次元ディジタル復元が可能であることを見いだし、「データ駆動型」照度差ステレオ法を提案しました。その一例として、反射率に関する事前知識を深層学習によって学習することにより、陰影パターンの変化と微細な形状＋質感との対応関係を獲得しました。これにより、異なる光源下で得られた画像列を入力として、直接的に深層学習器をもちいて三次元形状と質感を推定できるようになりました。この研究によって、実世界物体の三次元ディジタル化が高度化し、物体表面のザラザラ感などの細かな形状や、光沢などを表す質感までもカメラを通じて獲得できるようになってきています。将来的には、簡便に高精細な三次元形状と質感をディジタル化できるカメラを設計し、誰もが手軽に実世界物体の忠実な三次元ディジタル複製を作れる世界の実現を目指します。
記念講演：「現実世界のディジタル複製を目指して」

＊動画で記念講演をご覧いただけます。
第40回大阪科学賞　記念講演

現実世界のディジタル複製を目指して

大阪大学　大学院情報科学研究科　教授
松下　康之

　私たち人間は視覚を通じてどのように実世界を認識しているのでしょう。能動的に行動するために、私たちは目を通して得られた画像から環境の三次元情報を脳内に構築しています。では、コンピュータやロボットに同様の機能を持たせることはできるでしょうか。このような研究を扱う分野を指してコンピュータビジョンと呼びます。コンピュータビジョンは1960年代に人工知能研究の一部としてスタートし、計算により人間の視覚と同等の機能を実現できるか、さらには視覚機能の本質とは何かを探る情報科学の一分野で、現在も活発に研究されています。

　私たちが実世界の物体を「見る」とき、実際に私たちの目が感じているものは物体から目へ向かって飛び込んでくる光です。その光は、太陽や電灯などの光源から発せられた光の一部が物体表面上で反射したり、透過したり、あるいは物体そのものの発光により生じます。したがって、現実世界の物体の三次元形状や表面の反射率、色などを正しくディジタル化できれば、任意の光源のもとで実際の物体と同じ見た目を持つディジタル複製が作成できることになります。さらに、作成したディジタル複製をコンピュータ上の仮想空間に配置することで、仮想現実（Virtual Reality; VR）や映像制作などに応用することができるようになります。

　それでは、身の回りにある物のディジタル複製を作るにはどうしたらよいでしょうか。もっとも身近で利用できそうなツールとしてディジタルカメラがあります。カメラで撮影することで、現実世界の三次元物体の見た目をディジタル化し二次元画像として記録することができます。複数の異なる視点から撮影した画像を使うと、多視点ステレオと呼ばれる方法を用いて物体の大まかな三次元形状を推定することができます（図１）。この多視点ステレオ法は、同じシーンを異なる視点から撮影し、画像中に観察される物体上のカドや線といった共通の特徴がある部分の三次元位置を三角測量の原理をもちいて推定します。

図1　多視点ステレオによる三次元形状推定

　一方で、私たちは多視点から観察された画像がなくとも、物体の三次元形状を理解することが出来ます。これはなぜでしょうか。私たちの目をカメラとみなすと、二つのカメラによって三角測量により奥行きを理解できることが理由の一つとして挙げられます。しかし、片目だけで見たとしても三次元形状を理解することができるのはなぜでしょうか。私たちは過去の経験から得た知識（事前知識）を使って、三次元形状を理解していると考えられますが、過去に見たことのないもの、例えば氷山のように多様な形をもつものなども写真から形状を理解することができます。この理由ははっきりとはわかっていませんが、物体表面上の見た目の明るさの陰影パターンと事前知識の併用により、私たちは形状を理解していると考えられます。

図２照度差ステレオ法による法線マップの推定（参照球は法線と色との関係を示す）

　私たちは、照度差ステレオによる三次元形状復元の研究に取り組んできました。これまでの照度差ステレオ法は光沢や艶のない拡散反射面を対象としてきましたが、現実世界の物体はツルツルしているものや鈍く光るものなど多様な反射率分布[1] で表される質感を持っています（図３）。このような多様な反射率分布を持つ物体の三次元形状推定は難しい問題として知られていました。私たちの研究では画像中の陰影パターンと事前知識を用いることで、多様な反射率分布を持つ物体の三次元ディジタル復元が計算によって実現できることを世界に先駆けて示しました。その中の一つの例では、事前知識として図３のような多様な反射率分布データを準備し、これらの反射率分布で生成される陰影パターンを深層学習によって学習することで、陰影パターンと法線ベクトルの対応関係を獲得しました。これにより、異なる光源下で得られた画像列から直接的に深層学習器を用いて三次元形状を推定することができることがわかりました（図４）。このようなデータ駆動型の枠組みにより、実世界に存在する多様な物体の三次元形状のみならず、反射率分布も推定可能であることがわかり、実世界物体のディジタル複製へ向けて大きく前進しました。

―――――――――――――――――――――――――――――――――――――――――――――――――
[1] 反射率分布：ある角度の入射光がどの方向へどのくらいの強さで反射するかを示す分布。

図３　多様な反射率分布

図４　データ駆動型照度差ステレオによる三次元形状推定

　私たちが研究を進めている光とカメラを用いるアプローチでは、画像のピクセル[2] 単位の細かさで三次元形状を推定することができるので、高精細なディジタル複製ができるというメリットがあります（図５）。復元できる物体表面上の細かさは、カメラの中のセンサとレンズの解像度に依存しますが、高解像度のものを選ぶことでその分だけ高精細な復元が可能になります。

　以上、現実世界の物体の三次元ディジタル複製について、私たちのこれまでの研究を簡単に紹介しました。新しいデータ駆動型の三次元形状推定技術により、これまでには難しかった物体の三次元ディジタル複製ができるようになってきました。一方で、このようなディジタル複製のための撮影機材は未だに複雑なものであり、また、撮影や計算にかける労力も低いとは言えません。今後は、撮影方法や三次元形状推定方法を進化させて、現在私たちがスナップショット写真を撮るくらいの手軽さで、誰もが三次元ディジタル複製を作れる世界を目指したいと考えています。手軽に三次元ディジタル複製が作れるようになれば、仮想現実やディジタルツインが今よりもずっと加速すると考えられます。また、三次元ディジタル複製は文化財や美術品のディジタルアーカイブ[3] や、商品のディジタル展示などへも応用が期待できます。

―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――
[2] ピクセル：ディジタル画像を構成する最小単位。画素。
[3] ディジタルアーカイブ：文化資産や知的資産を画像や映像、またはその他のディジタル情報として記録・保管すること。　

図５　ディジタル複製の例　　A：多視点ステレオによる形状、B：データ駆動型照度差ステレオ法による形状

　最後に、高校生の皆さんへのメッセージとして情報科学を学ぶことをおすすめしたいと思います。情報科学と聞くとコンピュータや情報リテラシーを学ぶ分野と思われるかたもいるかもしれませんが、情報科学分野においてもコンピュータそのものや情報リテラシーは目的達成のためのツールとなってきています。では情報科学とはどのようなことを学ぶ分野でしょうか。情報科学は、社会や自然、宇宙の事象を「情報」として表現し理解する、そして実現したいことを「情報の動き」として表現し、その仕組みを作ることを目的とする学問です。現在、日常生活においても情報を使うサービスに触れないことは難しいと思います。今後ますます社会の中で情報科学の重要性が高まっていくと考えられますので、皆さんにはぜひとも情報科学という道があることを心に留めておいていただきたいと思います。

謝辞
　これまでの私たちの研究は、大阪大学をはじめとする多くの共同研究者の皆様の多大なご協力によって実現したものです。皆様に深く御礼を申し上げます。また、私たちの研究は科学研究費補助金や財団助成金により支えられてきました。この場をおかりして、心より感謝申し上げます。
用語集

仮想現実
コンピュータ上にディジタルデータとして作られた仮想的な世界を、あたかも現実の世界のように体験させる技術です。

デジタルツイン
デジタルツインとは、現実世界の情報をディジタル複製し、まるで双子であるかのように、仮想空間上に現実世界を再現する技術を指します。デジタルツインによって、現実世界の事象を仮想空間上でシミュレーションすることが可能となり、将来の事象予測や実世界の事象の要因分析ができるようになります。

照度差ステレオ
コンピュータビジョン分野の三次元形状推定技術の一つで、光源方向を変えながら対象物体を撮影した複数枚の画像中の明るさの変化から、対象物体上の面の傾き（法線）を推定する技術を指します。画像上の各場所に対応する面の法線が推定できるので、高精細な形状情報の獲得が可能になります。

反射率
物体に入射する光の強さに対してはね返った光の強さの比を表します。はね返る光の方向を勘案すると反射率分布として表現されます。

データ駆動型
数理モデルに基づいた方法とは異なり、蓄積したデータ（過去の経験や事前知識）を元に解を導くアプローチを指します。数理モデル型アプローチと対比されることが多いですが、多くの問題において数理モデル型とデータ駆動型を協調させることが効果的であることが報告されています。

深層学習
深層学習とは広義の機械学習の一部であり、多層構造のニューラルネットワークを用いた学習の手法を指します。多様な問題設定がありますが、例えば、与えられたデータから特徴を自動的に抽出したり分類したりすることができ、画像認識や自然言語処理などに広く応用されています。
Ｑ＆Ａ
記念講演の際にいただきました質問に対して、松下先生にご回答いただきました。

＜原理に関して＞
多視点ステレオを使うメリットがわからないです。照度差だけでほぼ分かるのではないですか？
組み合わせる事でよりリアルに３Ｄ再現できる…というお話があったと思いますが、微細な部分が異なる多視点ステレオと照度差ステレオのモデルを組み合わせて1つにする時、各部分にどちらを用いるかはどの様に決めるのでしょうか？
多視点ステレオ法と多照明ステレオ法では、得られる法線ベクトルの様な情報量にどれくらいの差があるのでしょうか？また、法線ベクトルから立体の形を作る際、そこには瞬間から全体を推測するための微分方程式や正法波の合成、分解等に使われるフーリエ変換等も使われているのでしょうか？もし、使われているなら、それがどの様なものなのかを知りたいです。（ただし、私は数Ⅲまでしか勉強していないので、上記にしるした2つの分野は深くは知らないので、補足等もくださるとありがたいです）
どうして法線の候補がそんなにたくさん存在するのですか？
法線の候補や質感の候補は人間が与えなければならないのですか？
初歩的な質問ですが、資料図３のように反射率の違いが色に表れるのはなぜですか？
多波長と言うと、色などは分かりそうな気がするのですが、なぜ、深度が分かるのですか？まったく同じでなくても似たようなものであれば、学習から推定できるのですか？
照度差ステレオ法の改善として、事前知識データを入れるとおっしゃっていたと思うのですが、どうやってその知識を入れるのか教えていただきたいです。
素朴な質問になりますが、陰影パターン → 法線マップの深層学習は、どのようなやり方で行われているのでしょうか？何かしらそれに名前がついていたら教えて欲しいです。
データ駆動型照度差ステレオで使用した深層学習では、どの程度の誤差までなら許容されるのですか？
照度差ステレオでは、無地の球体の形状推定が最も難しいのでは？　また、必ず誤差は存在するのではないですか？
隣接した別の物体を、別々の物体として読み込みことは可能ですか？（机の上に置いたコップなど）
グルっとＺ軸に一回転させて立体の形を確定させていましたが、これをＸ軸、Ｙ軸で行った場合、その立体はどの程度正しく読まれるようになるのでしょうか？
＜適用可能な対象について＞
光というものは恐らく私たちが認識できるもので一番速いものだと思うのですが、その技術を星の表面の状態を知るために使えるのでしょうか？　データ駆動型照度差ステレオ法を用いれば地球から遠く離れた惑星の地形なども分かるようになるのでしょうか？
光を発する物体に対してもデータ駆動型照度差ステレオ法によって形状を確定し、「見える」化できるのでしょうか？
データ駆動型アプローチでは質感でごつごつ感などを再現できるとおっしゃっていましたが、どの物質かという特定は可能なのでしょうか？
物体が三次元ディジタル複製でここまでリアルにできるのに非常に驚いたのですが、逆に三次元ディジタルデータで表現される質感・形状から、現実世界の材質や形状を推定し、復元するようなことも将来的には可能なのでしょうか？
ソナーのようなものは使うことはできないのでしょうか？粉末を塗布して形状を決めるのは？
物体に関する様々な情報によって、中身を見ることなく内部構造を再現することは可能なのでしょうか？
応用方法として、透過光を用いたより正確な人体内状況の把握を考え付きましたが、先生はこの技術についてどのような応用方法をお考えでしょうか？
食べ物の香りや川の流れる音なども、写真から読み取って再現することは可能でしょうか？
＜実際の作業・計算時間・機器等について＞
先生のデータ駆動型アプローチでは、今回示していただいたような形状ですと、先生の研究室の環境でどれくらいの時間で複製できるのでしょうか？
三次元復元するのに写真は何枚くらい撮影しますか？
三次元形状を推測するのに写真の画質・新しさなどは関わってきますでしょうか？
照度差ステレオで使う写真を撮る際、その写真がぶれて綺麗に撮影できなかった場合、もう一度撮り直しという状況になることはありますか？
機材の簡素化が課題とありましたが、一家に一台おけるようになるビジョンはありますか？複雑すぎて不可能ということはないですか？
「従来の方法」と「新しい方法」での性能差はよく分かりました。しかし新しい方法は多視点+照度差なので従来より遥かに長い計算時間を要するように感じたのですが、何倍くらいの時間がかかるのですか？
照度差ステレオ法における３Ｄモデルの作成では、異なる光源下で撮影された画像が必要になるとのことですが、どれほどの大きさのものまで３Ｄモデルにすることができるのでしょうか？（人工の光源では照らせないほどの大きさなど）
将来的には実在の建造物を撮影し、入力することでよりリアルなＣＧを作成し、それらを組み合わせて観光のためのヴァーチャル・リアリティを作るようになるかもしれないと思っているのですが、例えば、東京タワーやエッフェル塔などの巨大な建造物を撮影し、コンピュータに計算させるとなると、どのくらいの時間がかかると思いますか？
これほど高度な三次元ディジタル複製だと、多大なデータ容量がコンピュータに必要になってしまうと思うのですが、どうすればクオリティはそのままでデータを収縮することができるのでしょうか？もし、データ容量がそこまで必要ないならば、どのように設定しているのか教えてください。
＜応用について＞
現実感のあるディジタル複製は、私達の生活の中でどのように活かすことができますか？
ディジタルデータなどを利用し、私生活で活用する場面で、映画の３Ｄ制作なども応用できないかと思いました。応用はできますか？また、できるならどのような感じですか？３Ｄ映画は３ＤＸメガネなど必要なくなるのではないのかと思いました。
スポーツ、ゲームのキャラクター、アバター等はとてもリアルですが、このような技術が用いられているのでしょうか？
先生の研究されている三次元ディジタル複製を使って、病院などの医療施設がない遠隔地で起こったケガ等を三次元カメラに写し、早く適切な治療へ結び付けられないでしょうか？
現実をディジタル化する技術がより発展することで、ＶＲの世界をより現実に近づけることや、視力を失ってしまった方々の目の代わりとしてこの技術を用いた人工の目を作ることで、生活の支障を軽減することもできるのですか？
今後の利用について、今後の技術の発展で奥行きのある絵をＶＲにすることができれば、今まで分からなかった平安時代や江戸時代の絵からさまざまな新しいものを復元できるのではないでしょうか？やはり実物がなければディジタル化は難しいのでしょうか？（絵は無理ですか？）
先生はこの技術をどのようなものに利用して欲しいですか？
ディジタル複製が与える社会へのデメリット（良くない点）はあると思われますか？
＜その他＞
人間の奥行きの感じ方（遠近法）はあくまでも脳の働きから出た錯覚ではないでしょうか。つまり人間が知覚する三次元形状さえ本当か分からないのでは？
人の認識は絶対なのでしょうか？　先生にとって「見える」とは？
今、先生が考える「どうして人間ができることをコンピュータがすると難しくなるのか」の答えを教えてもらいたいです。事前知識データとはどのようなものですか？
コンピュータの三次元の形状推定が人間を超えることはあるのでしょうか？
今回は、視覚に注目をあてられていましたが、他の人間の第五感をディジタルツインによって活発にすること（例えば、バーチャルの世界でザラザラしていると思ったものに触れ、ザラザラしていると感じることなど）は現在どこまで可能になっているのでしょうか？また、いつ、どのくらい可能になるとお考えでしょうか？
どのようにして自らの研究分野を決めましたか？

大阪科学賞ホーム

第４０回（令和４年度）

大阪科学賞（OSAKA SCIENCE PRIZE）受賞者の横顔

松下 康之 （まつした やすゆき）

研究業績：実世界の三次元ディジタル化に関する先駆的研究

記念講演：「現実世界のディジタル複製を目指して」

第40回大阪科学賞 記念講演

現実世界のディジタル複製を目指して

大阪大学 大学院情報科学研究科 教授

松下 康之

用 語 集

仮想現実

デジタルツイン

照度差ステレオ

反射率

データ駆動型

深層学習

Ｑ＆Ａ

記念講演の際にいただきました質問に対して、松下先生にご回答いただきました。 ＜原理に関して＞

多視点ステレオを使うメリットがわからないです。照度差だけでほぼ分かるのではないですか？

どうして法線の候補がそんなにたくさん存在するのですか？

法線の候補や質感の候補は人間が与えなければならないのですか？

初歩的な質問ですが、資料 図３のように反射率の違いが色に表れるのはなぜですか？

多波長と言うと、色などは分かりそうな気がするのですが、なぜ、深度が分かるのですか？ まったく同じでなくても似たようなものであれば、学習から推定できるのですか？

照度差ステレオ法の改善として、事前知識データを入れるとおっしゃっていたと思うのですが、どうやってその知識を入れるのか教えていただきたいです。

素朴な質問になりますが、陰影パターン → 法線マップの深層学習は、どのようなやり方で行われているのでしょうか？ 何かしらそれに名前がついていたら教えて欲しいです。

データ駆動型照度差ステレオで使用した深層学習では、どの程度の誤差までなら許容されるのですか？

照度差ステレオでは、無地の球体の形状推定が最も難しいのでは？ また、必ず誤差は存在するのではないですか？

隣接した別の物体を、別々の物体として読み込みことは可能ですか？（机の上に置いたコップなど）

グルっとＺ軸に一回転させて立体の形を確定させていましたが、これをＸ軸、Ｙ軸で行った場合、その立体はどの程度正しく読まれるようになるのでしょうか？

＜適用可能な対象について＞

光を発する物体に対してもデータ駆動型照度差ステレオ法によって形状を確定し、「見える」化できるのでしょうか？

データ駆動型アプローチでは質感でごつごつ感などを再現できるとおっしゃっていましたが、どの物質かという特定は可能なのでしょうか？

ソナーのようなものは使うことはできないのでしょうか？ 粉末を塗布して形状を決めるのは？

物体に関する様々な情報によって、中身を見ることなく内部構造を再現することは可能なのでしょうか？

応用方法として、透過光を用いたより正確な人体内状況の把握を考え付きましたが、先生はこの技術についてどのような応用方法をお考えでしょうか？

食べ物の香りや川の流れる音なども、写真から読み取って再現することは可能でしょうか？

＜実際の作業・計算時間・機器等について＞

先生のデータ駆動型アプローチでは、今回示していただいたような形状ですと、先生の研究室の環境でどれくらいの時間で複製できるのでしょうか？

三次元復元するのに写真は何枚くらい撮影しますか？

三次元形状を推測するのに写真の画質・新しさなどは関わってきますでしょうか？

照度差ステレオで使う写真を撮る際、その写真がぶれて綺麗に撮影できなかった場合、もう一度撮り直しという状況になることはありますか？

機材の簡素化が課題とありましたが、一家に一台おけるようになるビジョンはありますか？ 複雑すぎて不可能ということはないですか？

「従来の方法」と「新しい方法」での性能差はよく分かりました。しかし新しい方法は多視点+照度差なので従来より遥かに長い計算時間を要するように感じたのですが、何倍くらいの時間がかかるのですか？

＜応用について＞

現実感のあるディジタル複製は、私達の生活の中でどのように活かすことができますか？

スポーツ、ゲームのキャラクター、アバター等はとてもリアルですが、このような技術が用いられているのでしょうか？

先生の研究されている三次元ディジタル複製を使って、病院などの医療施設がない遠隔地で起こったケガ等を三次元カメラに写し、早く適切な治療へ結び付けられないでしょうか？

先生はこの技術をどのようなものに利用して欲しいですか？

ディジタル複製が与える社会へのデメリット（良くない点）はあると思われますか？

＜その他＞

人間の奥行きの感じ方（遠近法）はあくまでも脳の働きから出た錯覚ではないでしょうか。つまり人間が知覚する三次元形状さえ本当か分からないのでは？

人の認識は絶対なのでしょうか？ 先生にとって「見える」とは？

今、先生が考える「どうして人間ができることをコンピュータがすると難しくなるのか」の答えを教えてもらいたいです。事前知識データとはどのようなものですか？

コンピュータの三次元の形状推定が人間を超えることはあるのでしょうか？

どのようにして自らの研究分野を決めましたか？

大阪科学賞 運営委員会事務局

松下　康之　（まつした　やすゆき）

第40回大阪科学賞　記念講演

大阪大学　大学院情報科学研究科　教授

松下　康之

用語集

記念講演の際にいただきました質問に対して、松下先生にご回答いただきました。

＜原理に関して＞

初歩的な質問ですが、資料図３のように反射率の違いが色に表れるのはなぜですか？

多波長と言うと、色などは分かりそうな気がするのですが、なぜ、深度が分かるのですか？まったく同じでなくても似たようなものであれば、学習から推定できるのですか？

素朴な質問になりますが、陰影パターン → 法線マップの深層学習は、どのようなやり方で行われているのでしょうか？何かしらそれに名前がついていたら教えて欲しいです。

照度差ステレオでは、無地の球体の形状推定が最も難しいのでは？　また、必ず誤差は存在するのではないですか？

ソナーのようなものは使うことはできないのでしょうか？粉末を塗布して形状を決めるのは？

機材の簡素化が課題とありましたが、一家に一台おけるようになるビジョンはありますか？複雑すぎて不可能ということはないですか？

人の認識は絶対なのでしょうか？　先生にとって「見える」とは？

大阪科学賞運営委員会事務局