• 第40回(令和4年度)

    大阪科学賞(OSAKA SCIENCE PRIZE)受賞者の横顔

     

    松下 康之 (まつした やすゆき)   48歳

     

    現職: 大阪大学大学院情報科学研究科 教授

    http://cvl.ist.osaka-u.ac.jp/member/matsushita/

    略歴:

    1998年 3月  東京大学工学部電子情報工学科卒業

    2000年 3月  東京大学大学院工学系研究科修士課程修了

    2003年 3月  東京大学大学院工学系研究科博士課程修了 博士(工学)取得

    2003年 4月  マイクロソフトリサーチアジア

    2015年 4月 - 現在 大阪大学大学院情報科学研究科 教授

     

     

  • 研究業績:実世界の三次元ディジタル化に関する先駆的研究

     

    実世界物体の三次元ディジタル化は、サイバー空間上に実世界を忠実に再現する仮想現実(VR)や、サイバー空間でのシミュレーション結果を実世界に還元するデジタルツインの実現のために欠かせない技術です。これまでの研究で、実世界物体の大まかな三次元形状は容易にディジタル化できるようになってきました。しかしながら、リアリティの再現に重要な物体表面の微細な形状や質感といった情報のディジタル化は困難な問題として残っていました。私たちは、微細な形状や質感のディジタル化を目的として、光源の方向を変えながら複数枚の画像を撮影することで観察される陰影パターンの変化から物体表面上の各点における傾きを推定する「照度差ステレオ法」の研究に取り組んできました。この取り組みの中で、画像中に観察される陰影パターンの変化と反射率に関する事前知識をもちいることで、多様な質感をもつ物体の高精細な三次元ディジタル復元が可能であることを見いだし、「データ駆動型」照度差ステレオ法を提案しました。その一例として、反射率に関する事前知識を深層学習によって学習することにより、陰影パターンの変化と微細な形状+質感との対応関係を獲得しました。これにより、異なる光源下で得られた画像列を入力として、直接的に深層学習器をもちいて三次元形状と質感を推定できるようになりました。この研究によって、実世界物体の三次元ディジタル化が高度化し、物体表面のザラザラ感などの細かな形状や、光沢などを表す質感までもカメラを通じて獲得できるようになってきています。将来的には、簡便に高精細な三次元形状と質感をディジタル化できるカメラを設計し、誰もが手軽に実世界物体の忠実な三次元ディジタル複製を作れる世界の実現を目指します。

  • 第40回大阪科学賞 記念講演

     

    現実世界のディジタル複製を目指して

    大阪大学 大学院情報科学研究科 教授
    松下 康之

     

     

     

     私たち人間は視覚を通じてどのように実世界を認識しているのでしょう。能動的に行動するために、私たちは目を通して得られた画像から環境の三次元情報を脳内に構築しています。では、コンピュータやロボットに同様の機能を持たせることはできるでしょうか。このような研究を扱う分野を指してコンピュータビジョンと呼びます。コンピュータビジョンは1960年代に人工知能研究の一部としてスタートし、計算により人間の視覚と同等の機能を実現できるか、さらには視覚機能の本質とは何かを探る情報科学の一分野で、現在も活発に研究されています。

     私たちが実世界の物体を「見る」とき、実際に私たちの目が感じているものは物体から目へ向かって飛び込んでくる光です。その光は、太陽や電灯などの光源から発せられた光の一部が物体表面上で反射したり、透過したり、あるいは物体そのものの発光により生じます。したがって、現実世界の物体の三次元形状や表面の反射率、色などを正しくディジタル化できれば、任意の光源のもとで実際の物体と同じ見た目を持つディジタル複製が作成できることになります。さらに、作成したディジタル複製をコンピュータ上の仮想空間に配置することで、仮想現実(Virtual Reality; VR)や映像制作などに応用することができるようになります。

     

     それでは、身の回りにある物のディジタル複製を作るにはどうしたらよいでしょうか。もっとも身近で利用できそうなツールとしてディジタルカメラがあります。カメラで撮影することで、現実世界の三次元物体の見た目をディジタル化し二次元画像として記録することができます。複数の異なる視点から撮影した画像を使うと、多視点ステレオと呼ばれる方法を用いて物体の大まかな三次元形状を推定することができます(図1)。この多視点ステレオ法は、同じシーンを異なる視点から撮影し、画像中に観察される物体上のカドや線といった共通の特徴がある部分の三次元位置を三角測量の原理をもちいて推定します。

    図1 多焦点ステレオによる三次元形状推定

    図1 多視点ステレオによる三次元形状推定

     一方で、私たちは多視点から観察された画像がなくとも、物体の三次元形状を理解することが出来ます。これはなぜでしょうか。私たちの目をカメラとみなすと、二つのカメラによって三角測量により奥行きを理解できることが理由の一つとして挙げられます。しかし、片目だけで見たとしても三次元形状を理解することができるのはなぜでしょうか。私たちは過去の経験から得た知識(事前知識)を使って、三次元形状を理解していると考えられますが、過去に見たことのないもの、例えば氷山のように多様な形をもつものなども写真から形状を理解することができます。この理由ははっきりとはわかっていませんが、物体表面上の見た目の明るさの陰影パターンと事前知識の併用により、私たちは形状を理解していると考えられます。

     

    図2 照度差ステレオ法による法線マップの推定

     

    図2 照度差ステレオ法による法線マップの推定(参照球は法線と色との関係を示す)

     

     

     私たちは、照度差ステレオによる三次元形状復元の研究に取り組んできました。これまでの照度差ステレオ法は光沢や艶のない拡散反射面を対象としてきましたが、現実世界の物体はツルツルしているものや鈍く光るものなど多様な反射率分布[1] で表される質感を持っています(図3)。このような多様な反射率分布を持つ物体の三次元形状推定は難しい問題として知られていました。私たちの研究では画像中の陰影パターンと事前知識を用いることで、多様な反射率分布を持つ物体の三次元ディジタル復元が計算によって実現できることを世界に先駆けて示しました。その中の一つの例では、事前知識として図3のような多様な反射率分布データを準備し、これらの反射率分布で生成される陰影パターンを深層学習によって学習することで、陰影パターンと法線ベクトルの対応関係を獲得しました。これにより、異なる光源下で得られた画像列から直接的に深層学習器を用いて三次元形状を推定することができることがわかりました(図4)。このようなデータ駆動型の枠組みにより、実世界に存在する多様な物体の三次元形状のみならず、反射率分布も推定可能であることがわかり、実世界物体のディジタル複製へ向けて大きく前進しました。

     

    ―――――――――――――――――――――――――――――――――――――――――――――――――

    [1] 反射率分布:ある角度の入射光がどの方向へどのくらいの強さで反射するかを示す分布。

     

    【図3】多様な反射率分布

    図3  多様な反射率分布

    図4 データ駆動型照度差ステレオによる三次元形状推定

    図4  データ駆動型照度差ステレオによる三次元形状推定

     

     

     

     私たちが研究を進めている光とカメラを用いるアプローチでは、画像のピクセル[2] 単位の細かさで三次元形状を推定することができるので、高精細なディジタル複製ができるというメリットがあります(図5)。復元できる物体表面上の細かさは、カメラの中のセンサとレンズの解像度に依存しますが、高解像度のものを選ぶことでその分だけ高精細な復元が可能になります。

     

     以上、現実世界の物体の三次元ディジタル複製について、私たちのこれまでの研究を簡単に紹介しました。新しいデータ駆動型の三次元形状推定技術により、これまでには難しかった物体の三次元ディジタル複製ができるようになってきました。一方で、このようなディジタル複製のための撮影機材は未だに複雑なものであり、また、撮影や計算にかける労力も低いとは言えません。今後は、撮影方法や三次元形状推定方法を進化させて、現在私たちがスナップショット写真を撮るくらいの手軽さで、誰もが三次元ディジタル複製を作れる世界を目指したいと考えています。手軽に三次元ディジタル複製が作れるようになれば、仮想現実やディジタルツインが今よりもずっと加速すると考えられます。また、三次元ディジタル複製は文化財や美術品のディジタルアーカイブ[3] や、商品のディジタル展示などへも応用が期待できます。

     

    ―――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――

    [2] ピクセル:ディジタル画像を構成する最小単位。画素。

    [3] ディジタルアーカイブ:文化資産や知的資産を画像や映像、またはその他のディジタル情報として記録・保管すること。 

     

    図5 ディジタル複製の例

    図5  ディジタル複製の例  A:多視点ステレオによる形状、B:データ駆動型照度差ステレオ法による形状

     

     

     最後に、高校生の皆さんへのメッセージとして情報科学を学ぶことをおすすめしたいと思います。情報科学と聞くとコンピュータや情報リテラシーを学ぶ分野と思われるかたもいるかもしれませんが、情報科学分野においてもコンピュータそのものや情報リテラシーは目的達成のためのツールとなってきています。では情報科学とはどのようなことを学ぶ分野でしょうか。情報科学は、社会や自然、宇宙の事象を「情報」として表現し理解する、そして実現したいことを「情報の動き」として表現し、その仕組みを作ることを目的とする学問です。現在、日常生活においても情報を使うサービスに触れないことは難しいと思います。今後ますます社会の中で情報科学の重要性が高まっていくと考えられますので、皆さんにはぜひとも情報科学という道があることを心に留めておいていただきたいと思います。

     

    謝 辞

     これまでの私たちの研究は、大阪大学をはじめとする多くの共同研究者の皆様の多大なご協力によって実現したものです。皆様に深く御礼を申し上げます。また、私たちの研究は科学研究費補助金や財団助成金により支えられてきました。この場をおかりして、心より感謝申し上げます。

  • 用 語 集

     
    仮想現実

    コンピュータ上にディジタルデータとして作られた仮想的な世界を、あたかも現実の世界のように体験させる技術です。

     

    デジタルツイン

    デジタルツインとは、現実世界の情報をディジタル複製し、まるで双子であるかのように、仮想空間上に現実世界を再現する技術を指します。デジタルツインによって、現実世界の事象を仮想空間上でシミュレーションすることが可能となり、将来の事象予測や実世界の事象の要因分析ができるようになります。

     

    照度差ステレオ

    コンピュータビジョン分野の三次元形状推定技術の一つで、光源方向を変えながら対象物体を撮影した複数枚の画像中の明るさの変化から、対象物体上の面の傾き(法線)を推定する技術を指します。画像上の各場所に対応する面の法線が推定できるので、高精細な形状情報の獲得が可能になります。

     

    反射率

    物体に入射する光の強さに対してはね返った光の強さの比を表します。はね返る光の方向を勘案すると反射率分布として表現されます。

     

    データ駆動型

    数理モデルに基づいた方法とは異なり、蓄積したデータ(過去の経験や事前知識)を元に解を導くアプローチを指します。数理モデル型アプローチと対比されることが多いですが、多くの問題において数理モデル型とデータ駆動型を協調させることが効果的であることが報告されています。

     

    深層学習

    深層学習とは広義の機械学習の一部であり、多層構造のニューラルネットワークを用いた学習の手法を指します。多様な問題設定がありますが、例えば、与えられたデータから特徴を自動的に抽出したり分類したりすることができ、画像認識や自然言語処理などに広く応用されています。