DV Anna Zapesochini

DoubleVerify (DV) は、10年以上前にアドベリ分野のパイオニアとなり、それ以来、数々の実績を残してきました。そして、進化し続けるデジタルエコシステムに対応するため、現在も最先端技術の開発を続けています。「専門家に聞く」シリーズの第1回は、DVのプロダクトマネジメント担当副社長Anna Zapesochiniに、当社の主要な差別化要因の一つである人工知能(AI)を使ったコンテンツ分類機能について伺いました。

今年初め、AnnaはBusiness InsiderのRising Stars of Ad Techの一人に選ばれました。DVでは、デジタル計測・分析プラットフォームや、ブランドセーフティ、スータビリティ(適合性)のための複数のソリューションを構築してきました。現在は、広告バイヤーのために動画や音声コンテンツを分類するAI搭載ソリューションの開発を主導しています。機械学習技術を活用したコンテンツ分類に関するAnnaと彼女のチームの取り組みについては、以下をご覧ください。

 

この分野で仕事を始めたきっかけは?

人生で最も素晴らしいことがそうであるように、実は前もって計画していたことではありません。私は経済学の学士号を取得し、研究助手として大学でのキャリアをスタートさせました。その後、民間企業に転職し、さまざまなデータ分析業務の経験を積みました。Googleでは、機械学習と人工知能の威力について多くを学びました。そして今、これらの学習とスキルを活かして、DoubleVerifyの製品管理担当副社長として、ブランドセーフティとその分類を担当しているのは幸運です。

 

あなたの仕事には、素晴らしい技術的専門知識が必要です。あなたの仕事を簡単に説明するとしたら、どのようになりますか?

機械学習は、統計学とコンピュータサイエンスを融合させ、コンピュータがプログラムされることなく、与えられたタスクの実行方法を学習することを可能にするものです。私のチームは、コンテンツ分類のための機械学習に注力しています。私たちは、テキスト、ビデオ、オーディオ、画像などのコンテンツのトピックやコンテクストを識別する方法を機械に学習させるための教師のようなものだと考えていただければと思います。

機械が学習できるように、トピックやコンテンツの種類ごとに何千もの例を用いて学習させます。人間の学習と同じように、機械学習でも練習やトレーニングが非常に重要です。機械に「ニュース」を認識させるには、何千ものさまざまなニュースコンテンツの例を与える必要があります。また、機械学習のモデルを堅牢にするために、何がニュースでないかを学習させる必要があります。

そのためには、映画やゲームなど、他の種類のコンテンツの例を与えることが有効です。この部分を正しく理解することは、とても重要です。例えば、ヘイトスピーチを識別するためには、本当に差別的で憎悪に満ちたコンテンツを学習させる必要があります。また、差別と闘うための法的措置や活動に関するコンテンツの例も学習させる必要があります。こうすることで、機械は重要な区別をすることができ、この種のコンテンツはヘイトスピーチと認定すべきではないと学習することができるのです。

 

機械学習モデルの開発には、どのように関わっているのですか?

プロダクトチームとして、どの機械学習モデルが必要かを定義するのを手伝います。動画の画像や動きの意味を理解するために機械学習モデルを学習させるべきか、それとも音声の意味も理解するべきか。映像の音声だけを分析するのか、それともBGMも分析するのか。製品チームは、機械学習モデルの具体的な目標を定め、機械学習を大規模に実現するシステムのスコープを設定しています。

 

機械学習の仕事で一番好きなことは何ですか?

非常に長いリストになりますが、ほとんどの人間ができないことを機械ができるようになったと認識したとき、最大のマジックが起きると思っています。また、機械がより単純なタスク(例えば、ある音楽トラックの作曲者が誰かを認識する)をどのように学習するかを見て、それが人間の学習の仕組みについて何を明らかにするかを考えるのは、信じられないほどクールなことです。

 

あなたの仕事について、人々が驚くようなことは何でしょうか?コンテンツの分類について、人々がよく抱く誤解は何でしょうか?

私の経験では、「コンテンツ分類」という言葉は、多くの人にとって非常にグレーで専門的な用語に聞こえるかもしれません。実際、私たちは、クライアントのニーズに答える最も適切な機械学習モデルを計画するために、実際に何が必要なのかについて多くの興味深い質問をする必要があり、この分野には多くの道徳的・政策的問題が存在します。誤報やヘイトスピーチの定義は些細なことではありませんし、ニュースやフィクションの定義も、現代では一筋縄ではいかないのです。

また、機械学習モデルをトレーニングする際に、どのようにバイアスを回避するかという点でも、魅力的な考察があります。テクノロジーは時に複雑ですが、結局、機械学習製品を作る際にプロダクトやプロダクトポリシーのチームが直面する問題の多くは、技術的というよりも人間的なものです。

 

どんな分野にも課題はあります。あなたの分野での最大の課題は何ですか?DVでは、これらの課題に真っ向から取り組むために、どのような役割分担で仕事をしていますか?

ブランドセーフティ分類の分野での最大の課題は、あるトピックを定義する際に、文化的なニュアンスが大きく異なることです。例えば、何をもって無神経とするか、不快とするかは、世界のさまざまな地域、さまざまな文化によって異なります。私たちは、主要なポリシーや製品について、ローカライゼーションと一般化のバランスをどう取るかを常に考えています。また、DVは「セマンティック・サイエンス」の能力を備えているため、有利な立場にあります。DVには言語学の専門家が揃っており、異なる言語的・文化的文脈の中で専門性を高めるためにモデルを調整することができるのです。

 

DVで働くことの誇りは何ですか?あなたが取り組んでいることの中で、最も誇りに思っていることは何ですか?

DVでは、より安全なオンラインエコシステムの構築に貢献し、偽情報、ヘイトスピーチ、ネットいじめなどの問題に、非常に実践的かつ具体的な方法で立ち向かっているので、DVで働くことを誇りに思っています。さらに誇りに思うのは、ユーザー生成コンテンツの環境におけるこの種の話題の分類は、今日のソーシャルネットワークにとって最も困難な問題のひとつであるということです。私たちのチームがこうした難題に取り組むことで、エコシステムや社会にインパクトを与えることができるのは、非常に誇らしいことです。私たちの製品で提供するソリューションによって、ブランドはキャンペーンにかける費用に自分たちの価値を確実に反映させることができるのです。

 

コンテンツの分類において、最もエキサイティングな開発は何だと思いますか?また、今後期待できることは何でしょうか?

有害コンテンツやセンシティブなコンテンツを識別する製品に加え、ブランド独自のブランド価値(サステナビリティや平等などの問題に関連するもの)がマーケティング費用の構成に適切に反映されるようなソリューションを考えています。

 

機械学習技術についてもっと知りたいという方にお勧めの資料があれば教えてください。

CourseraのAndrew Ng氏の「Machine Learning Stanford」コースは、機械学習についての素晴らしい入門教材です。また、非技術系の人向けのコンピュータサイエンス入門書としては、Brian ChristianとTom Griffithsによる「Algorithms to Live By」がおすすめです。

 

進化するニュースサイクルの中でブランドセーフティとスータビリティ(適合性)を確保するために利用できるツールについてもっと知りたい場合は、当社のガイドをダウンロードしてください。