スクレイピングは、世の中に公開されている情報を自動的に集めていく技術。
価格や市場の調査などをメインに、さまざまな目的で使用されています。
そんなスクレイピングですが、その使い方や用途によっては、違法行為となってしまう場合があることをご存知でしょうか。
これを知らないことで、のちのち取り返しのつかないことにもなりかねないので、著作権法や不正アクセス禁止法など「違法に値しないか」には、常に気を配っておく必要があります。
今回は
- スクレイピングがどんなことで違法になるか
- スクレイピングを正しく使用する方法
などについて解説します。
利用の前にしっかり頭に入れて、正しく便利に使いましょう。
スクレイピング違法は使い方しだい
まず、スクレイピング自体には違法性はまったくないのが現状です。
しかしながら、サーバーに負荷をかけてしまった場合や、個人情報やデータを同意なく取得してしまった場合など、その使い方によっては違法行為に該当してしまいます。
万が一違法行為として認められてしまうと、損害賠償や刑事罰を受ける可能性が高くなるのが実状です。
そのため、著作権法や不正アクセス禁止法に違反しないかどうかを十二分に確認のうえ、注意深く活用することが求められます。
スクレイピングの何が違法になる?
ここでは具体的に、スクレイピングのどんな用途が違法になるのかをまとめました。
個人情報の無断公開や売買
個人情報を許可なく公開したり売買することは、個人情報保護法に違反します。
個人情報保護法では、「個人情報の収集・利用・提供は、本人や運営元の同意を得なければならない」ことが定められているからです。
つまりスクレイピングの事例でいうと、自動で収集することはもとより、それを使って不法に商用利用することが問題となります。
サーバーへの過度な負荷による通信速度の低下
サーバーへの過度な負荷による通信速度の低下も、「不正アクセス禁止法」に違反する可能性があります。
不正アクセス禁止法は主に、他人のコンピューターシステムに不正にアクセスすることに対する違反行為のことです。
スクレイピングはどうしても、たびたび更新されるシステムの情報に繰り返しアクセスする必要があります。
その頻度があまりにも過剰だとサイトのサーバーに悪影響を与えるため、「不正アクセス」として違法に該当してしまうというわけです。
データの無断利用による著作権侵害
スクレイピングは、「集めたデータを無断で使うことによる著作権侵害」につながる可能性も否めません。
今も昔もあらゆるコンテンツが著作物に該当しており、文章や絵画など目に見えるものから、音楽や効果音など目に見えないものまで、その種類はじつにさまざま。
著作権法は、こういった著作物を無許可で利用することを固く禁じています。
参考:著作権法|e-GOV
ここで言いたいことは、スクレイピングで集めた情報が、その著作物に当てはまる可能性があるということです。
スクレイピングで集めた情報の使い道によっては、データの著作権について十分に理解を深めなければなりません。
禁止項目の無視など利用規約への違反
世の中のすべてのサービス(サイトやアプリ)には、必ず利用規約が存在します。
利用規約とは「そのサービスを使うときのルール」を指しているので、当然ながらこの利用規約に違反するスクレイピングは違法です。
たとえば利用規約に、「本サイトから自動でデータ収集するのは禁止です」と記載があるにも関わらずスクレイピングを行ってしまったら、利用規約違反になるので法的措置をとられてしまいます。
情報の使い方次第で違反になったり、そもそもスクレイピング自体がNGだったりと、規約のパターンはコンテンツによってさまざまです。
スクレイピングを行う以上、たとえ面倒でもしっかり規約に記載の内容を読解して理解する責任が伴います。
スクレイピングが制約されているサービスの例
ここでは、実際にスクレイピングを禁止していたり、利用を制約しているサービスをご紹介します。
楽天
大手ECサービスの楽天は、スクレイピングに制約を設けているサービスのひとつです。
利用規約に「自動での情報取得を禁ずる」といった内容が記載されています。
また自社のデータを保護するために、アクセス制限やブロック措置をとることで、外部からのデータ取得や競合他社の価格比較などが制限されています。
ただ公式のAPIを取り扱っているので、データの利用は制限されるものの、そちらを活用したほうが法に触れることなく活用できて安心です。
ヤフーファイナンス
ヤフーファイナンスは利用者のプライバシーやデータの保護を重視するため、不正なデータ収集や競合他社の情報収集を制限しています。
こちらも公式で提供されているAPIを使用することで正確なデータにアクセスできますが、個別のユーザー情報や非公開のデータにはもちろん制限がかかっています。
また有料のコンテンツに投資すれば、株価の情報を自由にダウンロードすることが可能です。
アマゾン
米国の巨大ECサービスであるアマゾンも、スクレイピングを制約しています。
自社の商品情報や顧客データを保護することが、主な目的と考えられています。
アマゾンについても公式で運営されているAPIを使用することで、商品の情報や販売データにアクセスすることが可能です。
ただし、大量のデータ取得や不正な目的での使用は禁止とされています。
YouTube
スクレイピングを成約するサービスのひとつとして、動画投稿サービスで世界最大手のYouTubeも挙げられます。
コンテンツクリエーターのプライバシー、およびコンテンツの保護が主な理由です。
参考:利用規約|YouTube
YouTubeは公式でAPIを運営しているので、法に触れないよう安全に動画やチャンネルの情報を集めたいなら、ぜひこちらを活用しましょう。
ただしAPIを活用する際も、利用規約にしっかり目をとおすことは忘れないようにしてください。
フェイスブック
米国の大手SNSで、世界中にユーザーを抱えるフェイスブックも、スクレイピングに制約を設けていることで知られています。
他のSNSにはない「実名制」という大きな特徴をもつこともあって、個人情報の収集、および不正利用に関する制限は厳しくなっているのが現状です。
フェイスブックは専用のAPIをリリースしており、活用することで特定のデータや投稿情報にアクセスすることが可能になります。
しかしアカウントの所有者や関係者の許可、および適切な認証が必要です。
ツイッター
話題性や拡散力の観点で、世界中からの信用のあるSNSサービスであるツイッターも、スクレイピングには規制をかけています。
公式で運営されているAPIを使えば、ユーザー情報やツイートにアクセスすることが可能になります。
しかしこちらも、もちろん利用者情報の保護やセキュリティの安全性維持には抜かりなく、細心の注意を払っているサービスです。
APIの利用規約には、必ず従いましょう。
スクレイピング違法を避けるために気をつけること
スクレイピングで違法にならないようにするため、以下の点に留意しましょう。
APIが存在するかを確認する
違法になることを避けたいなら、まずはAPIが存在するかを確認しましょう。
APIはサービスの公式なインターフェースなので、適切なデータ取得や利用を行うための方法にほかなりません。
APIの利用規約や制限に従いながら活用することで、公式な手段でデータにアクセスすることが可能。
結果として違法行為を回避し合法的な方法で安全に情報を取得・利用ができます。
またAPIの利用は、サイトやサービスの運営者がデータ保護やセキュリティを確保するための手段でもあります。
robots.txtの記述があるかを見る
robots.txtの記述の確認も、違法を避けるための方法として有効です。
robots.txtはサイトの管理者が設置するファイルのことで、クローラーやスクレイパーに対してアクセス制御の指示を出す役割を果たします。
このファイルには、
- 許可および禁止されたページやディレクトリ
- クローラーへのアクセス制限
などが記述されています。
「運営がアクセスを禁止しているページやデータ」を事前に知ることで、違法な情報収集を防ぐことにつながるでしょう。
対象サイトの利用規約を読む
スクレイピングに携わる方なら、必ず対象サイトの利用規約を読むようにしましょう。
利用規約はサイトの所有者が定めるルールや条件を示しており、スクレイピングに関する明確な指針や制限も記載されています。
これらの規約を確認することで、
- スクレイピングが許されているか
- 利用や頻度に制限はあるか
などを把握することができます。
難しい日本語の羅列なので読むのが億劫、さらに読解も困難ですが、重要な記述の塊といっても過言ではありません。
違法になるともっと煩わしいことに対応しなければならないので、ひととおり読むことを推奨します。
スクレイピングの目的を再確認する
スクレイピングで得た情報の使い方のみならず、そもそもの「目的」が違法に該当するケースもあります。
たとえば違法に該当する目的を挙げなら、
- コピーサイトを生成する
- 不当な買い込みや転売を行う
- 誰かのアカウントを占拠する
などがあります。
スクレイピングのやり方、得た情報の使い方もさることながら、スクレイピングをする「目的」も公益性があることが望ましいです。
なので、行動する前にもう一度、目的を再確認してみましょう。
負荷のかからない適度な接続を心がける
違法を避けるために、負荷のかからない適度な接続を心がけることが重要です。
過剰なリクエストを送ると、サーバーへの負荷によってサイトのパフォーマンスに悪影響を及ぼします。
これによって業務妨害として訴えられてしまう可能性もゼロではありません。
対策としては適度な待機時間を設けたり、リクエストの頻度や同時接続数を常識範囲内に設定することが挙げられます。
または必要なデータを一度にまとめて取得する、「バッチ処理」などの手法を検討するのもいいでしょう。
サイト側の正常な運営を尊重のうえ、節度のある使い方をしてください。
まとめ:スクレイピングは違法に触れないよう正しく使おう
便利なツールであるスクレイピングですが、ここまでで紹介したとおり、使い方によっては違法行為に該当してしまうことも事実です。
合法的かつ倫理的なスクレイピングを実践するためには、
- APIの活用
- robots.txtの確認
- 利用規約の理解
などのポイントに留意することが重要です。
また、根本にある目的も再確認し、適度なアクセス数に絞って活用することも有効な対策となります。
スクレイピングは法に触れないよう、正当な目的をもって正しく便利に使用しましょう。