概要
COVID-19データサイエンスの取り組みから企業が学ぶべき教訓
データサイエンティストは、クリーニング、統合、モデリングに関する専門知識を駆使して、複雑な問題に光を当てることができます。
パンデミックの中のデータサイエンス
今、データサイエンスが注目を浴びています。もちろん、今に始まったことではありません。2008年と2016年は、データを使って私たちの運命を予測することに世間の人々が興味を持ち、この分野にとっての特別な年でした。2008年は「2008年のデータ戦争で民主党はどのように勝利したか」、2016年では「選挙の判定データはどのように失敗したか」というように、データによる予測がより効果的であることが判明した年でした。2020年、各国政府がCOVID-19(新型コロナウイルス感染症)の拡大を緩和するために取り組んでいる中、一般の人々はデータサイエンスが私たちの生活のすべてに影響と与えていることをさらに強く意識するようになりました。
データの重要性に対する意識が高まると同時に、一般の人々はデータの複雑さも目にするようになりました。さまざまな分野の人々が疫学グラフや「R-nought」曲線をソーシャルメディアに投稿する一方で、これらのデータが何を意味するのか、どのモデルに注目すべきかについて、意見の相違が生じています。
ビッグデータサイエンティストは、以前から企業内では日常的に行われてきたため、このような議論には慣れています。ビッグデータサイエンティストは、これらの議論が平等に扱われている限り、より正確なモデルを開発するためには意見の相違は避けられず、また必要であることも認識しています。
コラボレーションによるイノベーション
Sarah Callaghan(サラ・キャラハン)氏がPatternsジャーナル誌で書いているように、「このようなモデリング作業に協力したいと思っているデータサイエンティストの皆さんには、単にデータを自分の好きな分析ソフトウェアに接続するだけ、ということはしないようにお勧めします。疫学者のような専門的な知識がなければ、結果として出てくる数字は恐ろしいものになる。」でしょう。
キャラハン氏は、データサイエンティストが Kaggle COVID-19オープンリサーチデータセットチャレンジ(CORD-19)に参加することを奨励しています。 これは、ホワイトハウスのOffice of Science and Technology Policy(科学技術政策室)が呼びかけた、COVID-19の優先度の高い質問に対応するための政策です。キャラハン氏は、Kaggleへの挑戦は、「全員がチームとして協力し、それぞれの強みを発揮できる」機会だと付け加えています。
企業の関係者にとって、このような協力的な取り組みは、どのような要因で人々の意見が一致し、実行可能な答えが得られるのかを学ぶ機会となります。100年に一度の難題に取り組むために、このような試みが大規模に行われるのであれば、企業内で効果的な共同データポリシーの制定や取り組みを行うことは、十分に可能でしょう。
ここでは、COVID-19のデータサイエンスの取り組みから企業が学ぶべき具体的な教訓をいくつかご紹介します。
1. すべてのデータを収集する
組織の中心となるリアルタイムデータを継続的に収集することは、簡単なことではありません。感染症が増加する中、テストが不足し、手作業で収集されたコード化されたデータに頼っていたことからもわかるように、大量かつ多様な種類のデータを取り込むためのインフラストラクチャとプロセスが重要です。データを正確に収集しないと、モデルに偏りが生じたり、分析に必要な十分な大きさのサンプルを集めるのに時間がかかったりします。
企業では、一部のデータだけでなく、すべてのデータを分析することが重要です。この原則は、ハイブリッドクラウドデータ分析ソフトウェアVantageを設計する際に、企業のデータの100%を活用する原動力となりました。このレベルの可視性は、企業のリーダーにとって、他の方法では見つけられない関連性を見出すための最良の方法であると考えました。
2. データのオープン化とアクセス性の向上
同じ企業内の組織やチームは、常に自分たちのデータを保護しようとします。しかし、世界的な危機が人々の生活や人生を脅かしている場合、そのような縄張り意識はすぐに消えてしまいます。グローバルなパンデミックがなくても、ビジネスに不可欠なプロジェクトにおいて、同レベルのアクセスとコラボレーションを促進するにはどうすればよいでしょうか。
データをアクセス可能にするには、まずガバナンスが必要です。ガバナンスは、単に整合性とセキュリティを確保するだけではありません。ガバナンスは、より広範なデータ分析管理戦略の一部として構築する必要があります。ビジネスルールや定義基準などのメタデータを管理しつつ、ユーザーが機動的ににデータにアクセスできるようにするために、階層型データアーキテクチャの構築を検討します。たとえば、テクニカルデータサイエンティストには生の非構造化データセットを公開し、ビジネスアナリストにはより構造化され自動化されたインターフェイスを作成することができます。どちらの役割の人も、同じデータを使ってインサイトを発見するために必要な自律性を保ちつつ、データのセキュリティと整合性を維持することができます。
3. コミュニティでのフィードバックと共有の促進
KaggleのCORD-19チャレンジの参加者は、賞金をかけて競い合っているにもかかわらず、データサイエンスプロジェクトを開発する際に他の参加者にとって役立つツールやアプローチについてオープンに話し合っています。また、Kaggleの参加者は、チャレンジをより円滑に進めるために、定期的に主催者にフィードバックを送っています。
企業は、アイデアを共有し、役割を超えて働くことが報われるような、継続的な学習の文化を作ることで、これと同じレベルのコミュニティとサポートを作りだすことができます。テラデータには、Transcendと呼ばれるプラットフォームがあり、共同学習の文化に大きく貢献しています。製品やサービスをお客様のニーズに合わせて最適化するという共通の目的のために、社員はTranscendを使って自社のデータを安全に実験したり、他のチームが試した内容を確認したりしています。
4. データ統合、共有して発見を促す
コミュニティが答えを見出すためには、データの文脈を整理することが重要なステップとなります。ジョンズ・ホプキンス大学のエンジニアは、世界中の症例データをリアルタイムケースで表示するCOVID-19グローバルマップを構築した際に、感染発生の初期段階でこのことを理解しました。
データを、スケールで表示したり、身近な指標と比較して提示したりすることで、データ単体では見えてこない答えが見えてきます。だからこそ、データセットやデータ・タイプを統合し、データサイエンティストがデータの文脈を視覚化して伝えるためのツールを提供することが重要なのです。データサイエンティストは、一見して理解できる分かりやすい データの視覚化(ビジュアライゼーション) を通じて、一般の人々がウイルスの脅威を理解し、その拡散を遅らせる行動を起こすのに貢献しています。
データサイエンティストの責任
データサイエンティストは、エッセンシャルワーカーのようにパンデミックの最前線で働いているわけではありませんが、パンデミックに立ち向かうために重要な役割を担っており、さらに、それは市民としての義務でもあります。データサイエンティストは、データのクレンジング、統合、モデリング、コミュニケーションなどの専門知識を駆使して、複雑な問題に光を当てることができます。データが大きな問題となっている場合(そしてそれは頻繁に起こっています)、データサイエンティストは理解を阻んでいる障害を取り除くことができます。
一方、企業のリーダーは、データから答えを見出すことができる組織内の誰もに立ちはだかる障害を取り除く責任があります。学習文化が盛んな企業では、意味のある変化をもたらす道が開けたときには、多くの人がそれを実行するでしょう。