ブログ Perspectives モバイル不正を考える: 機械学習はアドフラウドの解決策となるか(パート3)

モバイル不正を考える: 機械学習はアドフラウドの解決策となるか(パート3)

機械学習のテクノロジーは、モバイルのアドフラウドを防止するソリューションとなりえるでしょうか?

機械学習がアドフラウドの対処方法として大きな影響を与えることは確かです。機械学習は現在進行形で開発が進められており、その応用には大きな進歩が見られます。しかし、機械学習が確実なソリューションとなるまでには程遠く、その技術にはさまざまな弱点が多く見られます。技術が初期段階である機械学習を使って不正問題に対処するのは無責任であり、予期しない結果につながる可能性もあります。

モバイルフラウドを解説する本シリーズのパート3は、アドフラウド防止の目的で機械学習の技術を導入する際の課題点と、Adjustが現状の技術的な制限を認識した上での取り組みについてご紹介します。このシリーズをまだご覧になっていない場合、パート1はこちらから、また不正検出と不正防止の違いについて取り上げたパート2はこちらからご覧下さい。

理論と応用の分離

現状では、機械学習には根本的な理論上の問題があります。これを例を用いて説明します。

例えば、あなたは川の水を飲みたいと思っています。しかし、その水は様々な水源によって汚染されていて、このまま飲んだら危険であることを示す兆候がいくつか見られました。あなたはまずその水が安全かどうかを確認するべきだと判断し、水の汚染物質を取り除く方法を考えます。これは汚染の正体を把握するだけではなく、それらを全てフィルタリングする方法を考え出すことを意味します。

ある程度の困難を伴いながらも、あなたは高度な機械を開発しました。それはあらゆる潜在的な汚染を検出する方法を学習し、汚染を検出すると警告を発します。

その機械は検出した汚染物質を正確に報告することに優れているので、時間とともに検出数が増え、正確性がさらに高まりました。しかし、これはあらゆるタイプの汚染を網羅していると言えるでしょうか?さらに、安全に飲める水を確保しながらも、汚染を止めることはできるのでしょうか?

機械学習が行き詰まる点

特定の不正手口ではなく、あらゆるタイプのスプーフィングをフィルタリングする目的で機械学習を使用すると、いくつかの問題が発生する可能性があります。これは、不正とは判定しにくいユーザーを含むユーザーデータから、フェイクユーザーのみを除外しなければならないからです。

さらに、不正業者は実際のデバイスデータをファーミングし、SDKから送信されるアトリビューションに使われるデータを含む正規ユーザーの行動を偽装する可能性があります。また、簡単に検出できた不正手口があっても、不正業者はその度に新しい手口を巧妙に作り出します。そして、次に仕掛けられる不正攻撃はより高度になる傾向があります。

機械学習が直面する問題としてまずあげられるのは、既知のユーザーの実際のデバイス情報(OSバージョン、IDFAおよびロケール設定など)を使用した不正手口です。実際には、ダウンロードされていないインストールを実在するデバイス情報を基に偽装した場合、サーバーに過去のデバイスデータが存在するため、機械学習のアルゴリズムは不正を正確に分類するのが困難になります。これは過去のデータをもって、ユーザーが実際に存在することを認知するからです。

さらに、デバイスデータの偽装が不十分なため、将来的には本物のユーザー行動が不正として分類される可能性があります。基本的に、どのデータが本物であり、どれが偽物かが分からないと、ニューラルネットワーク(脳の情報処理ネットワークを単純化した数理的モデル)を最適化させる際に複数の問題が発生します。例えばこれまでに、クライアント自身の測定システムを含む事実上全てのリクエストが「完璧に」見える偽装データが確認されたとします。なりすましユーザーの行動を長期間にわたって検出した後であっても、機械学習が不正を特定するのはとても困難です。

つまり、新しくて馴染みのないシナリオに直面した場合、機械学習はそれほど上手く機能しないということです。そのため、機械学習は現実の世界では信頼性の低い判定基準であり、フィルタリングシステムなのです。次のセクションで詳しくご説明します。

曖昧にされるインストール拒否の根拠

不正防止は、キャンペーンの成果報酬の支払いが行われる際の不正判定基準になる必要があります。しかしながら、ニューラルネットワークは、ユーザーについての情報がほとんどないインストール時に、不正か正規かを判別する必要があります。これに対抗し、機械学習はユーザーの正当性を判断するために、多くのデータにおいて一見あいまいな特性を含む複雑なパターンを検出しようとします。

このような特殊なニューラルネットワークの意思決定を解明しようとすると、結果として頭を悩ませることになります。機械学習は非常に複雑なルールを作成し、一見無関係な識別子の組み合わせを識別することができます。

これについて多くの問い合わせがある場合、拒否の基準として機械学習を多用している不正防止ツールの販売業者は、その根拠をブラックボックスの中に隠してしまっているかもしれません。つまり、そのツールがどう機能するか、その仕組みを全く明らかにしていないということです。

ブラックボックスが良くない理由

不正防止の仕組みを隠すブラックボックスがどうして問題なのか、例を使って説明します。

広告キャンペーンの拒否されたアトリビューションをめぐり、クライアントに交渉するアドネットワークを想像してみて下さい。アドネットワークには拒否されたアトリビューションを説明するためのデータがなく、クライアントの説明に頼るしかありません。そのクライアントが頼っているのは、不正を監視するアトリビューションツールです。これはアドネットワークが気にしない程度の少ないトラフィックなら問題にならないかもしれませんが、ある相当数のアトリビューションに関わる場合なら、その交渉は困難になるでしょう。

不正防止ツール側がアトリビューションを拒否した理由を説明できない(またはしたくない)場合、それは理由ではなく意見となります。意見は議論され、合意に至らないこともあります。こうなると、アドネットワークが全ての不正フィルターを軽視する状況に陥ります。

ここまで、優れた不正防止フィルターには何が必要かに関するAdjustの見解を説明しました。Adjustは、論理的で透明性のある不正防止システムを構築するよう取り組んでおり、拒否の理由が意見となってしまうような上述の問題を回避しています。つまり、アトリビューションの拒否をデータに基づいて主張できるシステムを開発しています。

そのため、Adjustは機械学習を優れた不正検出法として見ている一方、少なくともまだそれだけに頼ってアトリビューションの拒否を判定するべきではないと考えています。現状では、機械学習は判断が難しい例を見逃し、意思決定の背後にあるロジックが意見によって拒否され、結果として透明性の欠如につながる可能性があります。正当なソースからのインストールを拒否せずに不正を防止するフィルターを適切に構築するには、多くの努力をともないます。

前述の例に戻ると、機械学習により「汚染が存在する」ことは確実に判断できますが、水のフィルタリングを開始する準備ができたとは言えません。最も確実な不正対策は、水の調査と適切なフィルタリングを行い、上流に遡って汚染源を特定し、大元で全てを阻止することなのです。

本記事は、アドフラウドの新しい視点を紹介するブログシリーズのパート3です。あわせてパート1パート2もご覧ください。

Adjustの最新情報をお届けします