自分がデータ分析/機械学習で成し遂げたいこと


TL;DR

  • Ubie 株式会社に入社して一年くらい経ったので振り返りをする
  • 改めてデータ分析/機械学習で何がしたいのかを考えているが、自分はデータから普遍的な知識を得たい人間で、その観点では(まだまだ先は長いけど)やりたいことができている
  • 人によって目的は色々だと思ういますが、みなさんはどうですか?

Ubie 株式会社に入社して 1 年以上経過したので軽く振り返りをしつつ、そもそも自分はデータ分析/機械学習で何がしたいんだっけというのを改めて言語化してみるエントリ。

ここしばらくは採用の文脈以外で他の会社の人と話すことが少なくて物足りないところもあるので、自分はこうだな〜という意見があればぜひ教えてください。

一年間を振り返ってみる

まず何よりも、勤続一年一ヶ月を達成している自分を褒めたい。凄いぞ自分。偉いぞ自分。

勤続一年一ヶ月という圧倒的事実が示唆しているように、(労働の辛さはもちろんあるのだが)楽しく働けている。 これは主観的にもそうだし、他の人から言われることもあるので客観的にもそうだと言えるだろう。

入社を決めた時のブログエントリ https://yoheikikuta.github.io/blog/2020-03-24-joinning_ubie を今一度読んでみると、「ストーリーを語りたくなるような仕事ができそう」ということで入社を決めている。

どうですか、ストーリー、語れそうですか?(自分への問いかけ)

これに関しては力強く YES という回答なのだが、まだまだ「俺たちの戦いはこれからだ!」という状況なので、先を見据えつつも今やるべきことを着実に進めている。 入社してしばらくは地道なバグの調査・修正とかデータの確認とかでしんどいタスクも結構あったのだが、そういうところをある程度乗り越え、今は有用なデータを蓄積することにフォーカスしつつ同時にそれを活用するというフェーズになっている。

有用なデータを蓄積することは楽しい。 簡単化した例として P(頭痛|髄膜炎) という条件付き確率を求めることを考えてみる。 これは髄膜炎という病気に罹っているときに頭痛という症状を発症する確率を算出することを意味している。 医学的な知識がない人にはこの一つの例であっても想像も難しいレベルだろう。 医師であれば髄膜炎において頭痛は典型的な症状であって高い確率で発現することを知っているが、定量的に表現するということは簡単ではない(一人の医師が見聞きできる症例は限られているし、膨大にある症状と疾患の組み合わせを定量的に表現することは困難である)。 十分な量のデータがあれば、髄膜炎に罹っている患者全体のデータから頭痛症状有りの患者の割合を求めることでこの条件付き確率を求めることができる。 シンプルだが、シンプルであるが故に、データを集めるだけで医師の専門知識を誰にでも利用できる普遍的な知識へと昇華することができる。

実際には、そもそものデータの真正性とか、年齢や性別による差異とか、既往歴や他の症状との関係性とか、気にすべき観点やより現実に即した発展は山のようにある。 まだまだ先は長いが、こういったところを自分たちでデザインして進めていくのは実に楽しい。

入社してから気付いた良さとして、一緒に働く機会がなかなかない業種である医師と同じチームで働けるという点が挙げられる。 自分がほとんど触れてこなかった知識体系について造詣が深い専門家と一緒に働くと新鮮な驚きがあって楽しい。 体調が悪い時に専門家に相談できるというのも優れた福利厚生と言える。 福利厚生と言ってるが、社内医師が善意で相談に乗ってくれているという話で、これは仕事とは直接関係ないプログラミングの問題についてプログラマが答えてくれるようなもの。 自分は胃痛でピロリ菌感染疑いだったとき、とりあえず自分で近場のクリニックに行ったら治療方針がよく分からずイマイチだったが、社内医師に相談しつつクリニックを変えたらあっさりと治療ができた。 医師の専門性などを把握して適切な医療機関にかかるというのは簡単ではないなと実感したので、テクノロジーで人々を適切な医療に案内する、やっていきたいね。

その他にも組織全体に関する業務や採用なども頑張っているが、これは同僚がたくさん情報発信してるので割愛。

いいことばかりを書いたが、満足してないこともある。 自分はデータ分析や機械学習の技術的に進んだ領域にも興味があるが、そういうところはこれまで殆どできていない。 仕事とは別で摂取するしかないなと思って hikifune.fm を始めて補完していた。 ただ、データが集まり人も集まり、この点に関しても色々なことに挑戦できそうな土台ができてきたので、今後は業務でもやっていけそう!

自分はデータ分析/機械学習で何を成し遂げたいのか

やってきた仕事を振り返りつつ、改めてデータ分析/機械学習を通じて何がしたいのかと考えてみると、自分はデータから普遍的な知識を抽出したいという嗜好性が高い。

働き始めのころは今よりも数理的なモデリングへの興味が強く、現実のデータでモデルを作ってそこから意味のある情報を得ることに注力していた。 仕事としてそれを実現するために、モデリング業務を中心に担当してサービスを改善・開発し、一部の内容は論文化したりと頑張っていた。 こういう仕事はやっているとき楽しいと思っていたし、仕事始めのほぼ何も知らなかったところから考えると、相当に色々なことを学ぶこともできた。

しかしながら、この手の仕事を続けていくうちに、自分は本当に何か普遍的な知識を得たのだろうか?という疑問を抱くようになってきた。 発展的なモデルを駆使することでインパクトの大きな成果を出したり新しいサービスが作れたりする可能性は広がるけど、自分の人生の第一義的な目的はそういうものではないと知った。 やはり入力となるデータに普遍的な知識を抽出できるポテンシャルがある領域が望ましい。 そういった知識を積み上げることで、人類の知的財産に少しでも貢献できたな!という自己満足が得たいのである。

一方で、可能なら労働なんてしたくないので金銭的にも十分なリターン(うまくいけば 5~10 年後には賃金のための労働をしなくてもいい)も欲しい。 自分はビジネスで大成功するような才覚はないし、ライフプラン的にも給与所得だけでは難しさもあるので、期待値でいえば成長可能性が高い会社で Stock Option をもらうのが一番よさそう。

こういった諸々の条件を満足し得る会社がどれくらいあるのか知らないが、自分が知る限り最も良い会社が Ubie 株式会社だった(偉そうに言ってるが @masa_kazama に声をかけてもらったおかげで知った。感謝)。 前述の通り医療データには自分が望むポテンシャルが大いにあるし、会社として大きく成長する可能性も秘めている。 当然どちらもうまくいくかの不確実性はまだまだ高いわけだけど、自分たちの力でそれを現実のものにしていこうと一丸となってやっていけるのは楽しい。 もっと頑張っていきたいですね!

たまにはこうやって「自分はそもそも何がやりたいんだっけ」を振り返ってみるのも一興ですね。

ということで、みなさんはどうですか?

ここまで自分の話をしてきたが、これは徹頭徹尾自分の好みであって、何が偉いとかどれが正しいとかこうあるべきとかいうものでは決してない。 何を人生の目的関数とするかは人それぞれなので。 ただし、目的関数に応じて適切な場所で働いた方がよいし、目的関数は時間と共に変わり得るものなのでその変化は認めて追従していった方がよい。

例えば、機械学習を用いることで初めて実現可能となるようなサービスを作りたいと思っている人がいるとする。 その人が日々の仕事ではまず機械学習を使わなくても済む方法を考えているとか、機械学習と関係のないコーディングがメインになっているとかいう状況であれば、目的とマッチしていないので環境を変えた方がいいだろう。

データ分析や機械学習を活かしてサービスを改善したりビジネス的に大きな成果を出したいという人は、データの規模とかそれを効果的に使えるようなビジネスをしている会社に所属した方がいいだろう。 このタイプの人は、入りはデータ分析や機械学習であってもやっていくうちに手法にはそんなに拘りがなくなって何でもやる人になるという印象がある。

大学や研究所だけでなく企業でも研究職がそこそこあるので、研究を生業としてやっていきたいという人は他分野よりはやりやすそうだ。 ただ、機械学習分野は参加人数が多くてカンファレンスに論文を通すために考慮しなければならない点も多いので、職業研究者がどうやって自分が本当にやりたい研究に取り組めるよう工夫をしているかは聞いてみたいところ。

Kaggle のようなコンペ形式のデータ分析/機械学習が楽しいからそれに打ち込む、というのは目的が明瞭だし継続性もあってよさそう。 多くの人が参加してその副次的な価値(コンペで得られた知見は直接関係のない仕事にも有用)を示してきた結果、仕事としても取り組めるような環境も出てきたのはいい話だな〜と思う。

色々な目的関数があると思うので、どういう目的関数でそれを実現するためにいまどこで何をしてるか、というのはぜひ聞いてみたいですね。 一年以上にも渡り他の会社の人と話す機会がなかなかなくて寂しいので、自分はこうだというのがある人は教えて欲しい〜。

自分と似た考えの人で、Ubie 株式会社に興味がある人はお気軽にお声がけください。 自分と似た考えじゃなくてもオッケーです。 つまり興味があれば誰でも!!!

まとめ

仕事を振り返りつつ自分がデータ分析/機械学習で何を成し遂げたいのかを言語化してみた。 自分はデータから普遍的な知識を得たいと思って今の会社で働いているけど、みなさんはどうですか?