PEOPLE

ヘルステックの未来をつくる今注目の人やサービスをご紹介

音声から気分状態を可視化。日本発のAI技術でグローバルへーーEmpath・ 山崎はずむ氏

2018年5月、ルクセンブルクやシンガポールのテックカンファレンスで続々と優勝を果たした日本のスタートアップ「Empath」。彼らが行っているのは、まだ先行事例の少ない「音声の感情のAI解析」だ。

最高戦略責任者(CSO)の山崎はずむ氏によると、元々はメンタルヘルスケアとして立ち上がった事業であるという。現在は、介護領域で富士通のパートナーロボット「ユニボ」の感情解析に導入されるなど、ビジネスの可能性は着々と広がっている。メンタルヘルスケア分野における音声の感情解析は今後市場にどのような効果をもたらすのか。Empathは、これまでにないアプローチで研究を進めつつ、ヘルスケア領域への音声解析ビジネスの定着化を着々と進めている。

また山崎氏はこれまで、東京大学、アメリカニューヨーク大学での哲学研究を専門としており、ヘルスケアやテクノロジーとは異なる分野の出身だ。スマートスピーカーなど音声デバイスの普及が勢いよく進む中、先見性をもって開発する独自技術で新風を巻き起こす、彼らの取り組みやビジョンに迫った。
 ■目次


いつもと変わらない「おはよう」の挨拶も、ときに普段と違って聞こえることがある。“声”は、その日の体調や気分によって、さまざまなトーンに変化する。発話者がどんな気持ちで、どんなコンディションで言葉を発しているかーー。そんな、掴みどころのない心と体の機微を解析するサービスが登場した。

医療モールを中心に医療・健康サービスを手掛けるスマートメディカル株式会社から独立したスタートアップの株式会社Empath は、音声から気分状態を可視化するエンジン「Empath(エンパス)」を提供している。

創業から1年も経たずに、海外のテックカンファレンスで優勝を果たすなど、業界を問わず最も注目されている企業のひとつだ。

彼らが活躍を目指す領域は、メンタルヘルスケア。これまでにない新しい切り口で事業を進めるEmpathの最高責任者・山崎はずむ氏に、Empathの可能性やグローバル規模での認知を行う取り組みや、それによりメンタルヘルスケア領域での成功を目指す、今後の展望を伺った。

声色を解析し、感情を識別する。音声感情解析システム「Empath」の開発秘話

ーーまず、山崎さんがCSO(Chief Strategy Officer)を務められるEmpathについて、お伺いさせてください。

株式会社Empath CSO 山崎はずむ氏
株式会社Empath CSO 山崎はずむ氏

山崎はずむ(以下、山崎):株式会社Empathは、2017年10月末に法人化した会社です。メンタルヘルスケア向けのサービスについて技術調査を始め、スマートメディカル株式会社からカーブアウトしました。

ICT分野において、メンタルヘルスケアを主たるドメインに定めている企業は多くありません。スマートメディカルとして新しいセクションへ挑戦したいと考えるなかで、音声の感情解析ツール「Empath」の開発に乗り出しました。

ーー感情解析は、海外の先行事例などあるのでしょうか?

山崎:アメリカでは、1970年代から感情解析の基礎研究がされています。「Affective Computing(アフェクティブコンピューティング)」と呼ばれるニッチな分野で、1990年代後半には、MIT Media Lab.(マサチューセッツ工科大学内の研究所)で研究科が立ち上がりました。

プロフェッサーを務めるRosalind Picard(ロザーニピカード)という女性が、研究書『Affective Computing』を上梓していて、ここからMITを総本山とするAffective Computingの研究が広がっていきました。

MIT発の感情解析で有名な企業に、ボストンに本籍を置くAffectivaが挙げられます。同社は音声ではなく、音声よりもポピュラーな、表情からの感情解析を行っていますね。

ーー「Empath」が表情ではなく、音声に注目した理由をお伺いできますか?

山崎:「Empath」の研究開発に乗り出した当時、表情からの解析はすでに競合が揃っていました。なので、まだ陽の目を見ていなかった音声の解析に注目したんです。誰もがスマートフォンを持つようになり、Siriが搭載され始めた頃だったので、音声からモノをコントロールすることが一般的になるだろうと考えました。

ーー研究開発は順調に進みましたか?

山崎:いえ、表情の解析に比べて音声は、どうサンプルデータを集めるか、そしてどうラベリングするかが困難です。

表情の画像データは一般的に結構あるのですが、人の声は、クレンジングされた有効なサンプルデータが少ないので、ラボ環境でゼロから集めなければいけないんです。

さらに大変なのがラベリングです。表情の場合だと、FACS理論といって「どのような表情に対して、どういった感情をラベリングするか」が、ある程度理論化されていました。しかし音声には、まだそうした理論がないんですよね。なので、人工知能を用いたとしても、人力で行わなければならない作業も多いんです。

ーー理論が無いなかで、現在はどのようにラベリングしているのでしょうか?

山崎:「発話者がどう思っていたか」という“主観評価”と、それを聞いた10数名程度の“他者評価”から感情を分析し、ラベリングしています。この作業がかなり人力で行わなければいけない部分が多いんです。今後は自動化したいと思っていますが、今の段階では非常に難しい。

このデータ集めと並行して、人工知能のアルゴリズム自体のブラッシュアップは必須で、日々改善作業が欠かせない状況です。

平常・怒り・悲しみ・喜びーーメンタルヘルスサービスが、医療領域で戦う困難

Empathの機能についてオフィスで話す山崎氏

山崎:平常・怒り・悲しみ・喜びの「基本の4感情」を捉えることができます。それに加え、発声者の気分の上がり下がりを「元気度」として測定します。これは、POMS(Profile of Mood Stated)という気分や感情の心理検査との相関をとってつくってきました。

2016年には経済産業研究所と論文も出させていただいたのですが、うつ病のスクリーニングに際して、他の属性データに音声データを加えた方が、精度が向上するということが分かっています。今後、ある疾患をもった方の音声データが集まってくれば、ある程度その疾患の予兆を出してあげることができるようになるかもしれません。

ーー現在は、「Empath」をどのように利用されているのでしょうか?

山崎:メンタルヘルスでの領域ですと、2017年12月にリリースした富士通さんのロボット「ユニボ」の中に我々のソフトを入れていただいていています。ある自治体で実証実験を行なっており、高齢者で単独で住んでいる方や、サ高住(サービス付き高齢者向け住宅)に住んでいる方とのコミュニケーションをロボットを介して行い、同時に感情解析をしているんです。

たとえば悲しみの状態が続いたり、モチベーションが下がっているようだったら、ケアワーカーさんや管理されている方に対してアラートを流す。実証実験を行いながら、そうした機能をつくれるよう研究中です。

「5秒前に何を思ったか」など、人間は自身の感情を覚えていることはできません。しかし機械でデータを取ることができれば、自分が気づけない日々の変化を可視化することができます。

ヘルスケアビジネス領域での取り組みについて話す山崎氏

ーーヘルスケア分野でビジネスを展開する上で、困難になるポイントはありますか?

山崎:規制が多い領域なので、ビジネスとしてはやはり一筋縄にはいかないですね。「あれがだめだから」、「これがいけないから」からスタートする話がとても多いなと思います。

また、医療機器のレベルまで目指す医療サービスにしていくのか、それとも所謂“ヘルスケア”としてのサービスにしていくのか。それによってR&Dの期間も内容も変わってきます。

我々の音声解析は“気分が分かる”というメンタルヘルスケアなので、いわゆる“医療”ではありません。ただしスマートメディカル自体は医療領域で事業を行っていましたし、我々自身もやはり医療で戦えるようになりたいとは思っていたのですが、難しいですね。医療機器認定を取るのは本当に大変で、時間がかかる事業なので、スタートアップの場合は相当体力がないとやりきれないです。

国内の投資額をみると、シリーズA(ベンチャーキャピタル投資の最初のラウンド)で大体1~3億円、多くて5億円です。対してアメリカは平均額が10億円もあるため、ヘルスケアスタートアップは生まれやすい環境ではあると思います。

ーー御社の場合はどうヘルスケア事業を展開していこうとされているのでしょうか?

山崎:ここ何年かで、メンタルヘルスケアで収益を作ることは非常に難しいことを学びました。いわゆるテクノロジー系のスタートアップは、俊足で駆け抜けてもしだめだったら俊足で後ろに下がって、というのがあると思いますが、医療分野でそれをやろうとすると倫理的な問題が起きます。

そのあたりは我々も懸念していて、いち早くマーケットインしたものの、着実にヘルスケアサービスとして耐えうるものにしたいので、現在は収益の柱になるものとメンタルヘルスケアとは別で切り分けて経営の資本力の基盤を作る時期としています。

“論語と算盤”の両立。ヘルスケア領域でのビジネスは、一筋縄では成功しない

ーーヘルスケア分野での収益に時間がかかるとなると、現在はどのように収益を作っているのでしょうか。

山崎:マーケットサイズが大きく、今注力している分野の一つはコールセンターで用いる感情解析です。どういったときに売り上げの行動が上がるか、感情解析の結果がどうなると離職率が上がるのか、などを分析中です。実際に、お客さんの感情と購買行動との相関を取り、最大成約率を20%上げた実績をつくりました。今後は、感情解析を用いたコールセンターの人工知能を作り自動化し、そこから収益を稼げるようにしたいと思っています。

車のドライバーの感情測定でもお話をいただいています。NTTドコモさんと協同で、運転中の雑音環境の中でも音声で感情解析できる技術を開発し、今年2018年の5月に発表しました。問い合わせが来るきっかけとなったのは、2017年1月の「2017 International CES」でトヨタが「TOYOTA Concept-愛i(コンセプト・アイ)」を発表したことでした。具体的には、ドライバーの感情状態を測定し、それに合わせてエンターテイメントコンテンツのレコメンデーションを行ったり、ドライバーの安全を守るために状態を可視化するなどします。

ーー今後可能性のある分野、検討している分野などはありますか。

山崎:広告分野、つまりボイスコマース分野に関しては、十分可能性があると思います。例えば、今話題のスマートスピーカーを例にすれば、大体のスピーカーは裏側にECが紐づいているんですね。たとえば「Amazon Echo」だと、amazon.comがありますし、Google Homeであれば、Googleに紐づく多数の企業があります。

そこからものが買えるときに、音声の分析からどうやってセールスのコンバージョンレートを上げられるか。ここは、僕らが長期事業戦略としている1番大きい部分です。ボイスコマース領域においてどうやって売り上げを伸ばしていくかは、課題のひとつです。

スマートスピーカーから広告を出す流れが台頭しているので、より広告をパーソナライズするのは1つのフックになりそうですね。そこがうまくいくとボイスコマースの領域に対して差し込みやすくなるはず。

一方、マイクロソフトが開発する声アシスタント「Cortana (コルタナ)」は、メンタルヘルスケアでの利用に関心があるようで、感情解析の研究者も自社内に存在します。

資金調達について話す山崎氏

ーー資金調達を行う際に、重視されているポイントなどはありますでしょうか。

山崎:ヘルスケア領域での事業は時間がかかるため、資金調達は重要ですが、企業を理解し、応援してくれているVCさんと出会えることが大事だと思っています。Empathに投資をいただいているSXキャピタルさんは、技術や論理性だけでなくチーム自体の評価もしてくれます。また、発想自体にも共感してくれます。理解があり、とてもありがたいです。あとは、海外展開も是としてくれるところ。これはかなり大きな点です。

ーーすでに海外でも47カ国に展開されていますし、海外のコンテストで優秀な成績を収めていますよね。

山崎:5月にルクセンブルクでのカンファレンス「ICT SPRING 2018」で優勝したり、同日開催の「Tech in Asia Singapore 2018」では会社の別の人間がピッチをして優勝しました(受賞に関するプレスリリース)。ピッチでの受賞経験は、「この技術が世の中に存在していて、実際に使えているんだ」と見せる意味でも大事だと思っています。

もちろん日本だけでやることが悪いことではないですが、今やっていることは技術的に海外へ出やすいんです。また、海外進出したからこその学びもあり、それを日本にフィードバックできるのはいいですよね。

今後も積極的に海外の先行事例をつくり、音声による感情解析の可能性を広げていきたいです。

山崎 はずむHazumu Yamazaki

株式会社Empath取締役。ニューヨーク大学大学院留学後、スマートメディカルICT事業本部へ参画。主にグローバル・マーケティング、セールスを担当。ICT Spring 2018をはじめ、これまで海外のピッチコンテストで3度優勝している。青山学院大学社会情報学部特別研究員。東京大学大学院総合文化研究科博士課程満期退学。
  • b.hatena
  • pocket