スクレイピングとはWeb上の情報を自動収集する方法を指していて、業務効率化に尽力しさまざまな分野で応用されています。
しかし「スクレイピングは違法」という声も耳にするため、その安全性について疑問を抱く方がいるかもしれません。
そこでこの記事では、スクレイピングの基本知識から注意点まで詳しく解説します。
プログラミング学習やスクレイピングを利用する一歩となる記事なので、興味のある方はぜひ参考にしてください。
スクレイピングとはなにか?
そもそもスクレイピングとは、Web上の情報の中から情報を自動抽出し、分析・加工することで新たに情報を生み出せる技術のことです。
世界中の莫大なWebサイトにある情報を必要な分だけ収集できる技術で、ビジネス界隈で広く普及しています。
スクレイピングはPythonをはじめとするプログラムによって作られていて、他にもPHPやRuby、JavaScriptなどを用いることもあります。
スクレイピングの基礎について、さらに詳しく知りたい方は以下の記事を参考にしてください。
スクレイピングの活用事例
スクレイピングの活用事例は、例えば企業のマーケティング担当のSNS分析が挙げられます。
企業ブランドや商品をPRするためにSNSを活用するケースが増えていますが、ブランドイメージを落とさないために常に炎上リスクを回避することが大切です。
ユーザーを獲得するためには情報を集めるだけでなく、ブランドとユーザーの親密度を具体的な評価指数に落とし込む必要があります。
スクレイピングは他にも、不動産価格の査定に活用することができます。
不動産検索サイトなどから細かいデータを収集し常に管理することで、急な価格変動があった時にすぐに担当者へ連絡が可能となります。
また集めた不動産データは、エリアごとの価格を可視化することもできます。
その他最新ニュースの集約や金融投資に関するデータ出力など、スクレイピングはさまざまな分野で業務効率化できるツールとして重宝されています。
すぐにスクレイピングをできるようになりたい方、スクレイピング以外にpythonを活用できるようになりたい方はこちらのスクールがおすすめです。
スクレイピングは違法?事例を交えて確認
「スクレイピングは違法」と耳にすることがありますが、実際の所はどうなのでしょうか。
結論からいうと、正しい知識を持たずにスクレイピングを行なうと違法になる可能性があるため、事前の基本知識の習得は必須といえるでしょう。
スクレイピング自体に違法性はない
スクレイピングとはデータ収集することを指していて、それ自体に違法性はありません。
そもそも総務省が消費者物価指数(CPI)の測定にスクレイピングを利用していて、国が活用するツールということもあり違法性はないことは明白です。
参考:総務省|消費者物価指数(CPI)へのウェブスクレイピングの活用について
ただしスクレイピングで得るデータの取り扱いやスクレイピングを行う目的によっては、著作権法や個人情報法に触れてしまうリスクがあります。
スクレイピングで違法になった事例
過去に国内でスクレイピングを行い違法になった事例があります。
2010年3月、愛知県岡崎市図書館の蔵書検索システムに対して1人の男性がスクレイピングを行い、アクセス障害が発生した結果、逮捕されました。
この男性は図書館の蔵書検索システムに不満があり、自ら使いやすいシステムを作ろうと情報を抽出していたようです。
しかしこの行為によって、蔵書検索システムに大きな負荷をかけてしまい、偽計業務妨害容疑で逮捕される結果になりました。
のちに男性は、悪質性がないと判断され起訴猶予処分となりましたが、スクレイピングの誤った使い方で、例え個人であり悪気がなくとも逮捕者が出る程の深刻な問題になることが示されました。
スクレイピングの適切な使用方法や、制約に関する正しい知識の習得が重要であることが明白となった出来事といえるでしょう。
特に初心者で基本ルールを知らないままスクレイピングを利用してしまうのは、危険が伴うといえます。
スクレイピングで禁止されている事項
ここではスクレイピングで禁止されている事項に関して、以下の4点から解説します。
- サーバーに負荷をかけ過ぎる
- 各サイトの利用規約違反
- 不当な目的の為に使用する
- 著作権の侵害
禁止事項を把握し、スクレイピングの基礎を学んでいきましょう。
①サーバーに負荷をかけ過ぎる
本記事で紹介した逮捕者の事例でもあったように、サーバーに負荷をかけ過ぎると違法になる可能性が高まります。
度を過ぎたアクセスにより、アクセス先のシステムに何らかの不具合が生じる恐れがあり、最悪の場合、Webサイトの運営妨害につながります。
ここでサーバーに何度アクセスすれば不具合が生じるといった明確なルールはないため、自然検索の範囲内に納めておくのが安全です。
②各サイトの利用規約違反
会員制のサイトでスクレイピング禁止の規約を設けている場合、違反すれば損害賠償など大きな問題につながります。
Webサービスに登録する際、長文の利用規約を読んだ後「同意する」を選択したことはありませんか。
利用規約にはスクレイピングについて明記されているケースがあり、もし同意したにも関わらずスクレピングをしてしまうと、違法な情報収集となります。
一方で会員登録が必要なく不特定多数の人が閲覧できるサイトは、著作権に関する契約を結んでいないため、基本的に利用規約違反のリスクは生じません。
③不当な目的の為に使用する
スクレイピングが許されているWebサービスでも、法に触れるような目的で使用するのは絶対に辞めましょう。
例えば違法なレベルの買い占め行為やアカウントの乗っ取りなどにも応用できますが、悪用した場合は懲役・罰金などに処せられる可能性があります。
また意図的にコンテンツを盗み出し他社よりも商品価格を下げたり、システムの安定性に悪影響を与え他のサイトの運用費を値上げさせる行為など、自社の事だけを考えて悪質に活用するケースもあるのです。
④著作権の侵害
スクレイピングを行い画像や文章、映像などを勝手に使ってしまうと、著作権法に反する恐れがあります。
そもそも著作権とは、自分が作ったオリジナリティのある創作物を独占的に利用できる権利を指しています。
著作物をビジネスに利用したいなら著作権者の同意を得る必要があったり、基本的マナーとして著作権について把握しておく必要があります。
一方でデータ解析に活用する場合や情報に新たに表現を加える場合は、著作権法侵害に該当しないと言われているので、違いを把握しておきましょう。
以下のサイトで文化庁が著作物を自由に使えるケースを詳しく解説しているので、著作権の基礎習得にご活用ください。
スクレイピングが禁止されるサイトを6つ紹介
ここからはスクレイピングが禁止されるサイトを、以下の6つ紹介します。
- Amazon
- 楽天
- YouTube
- Yahooファイナンス
公式サイトが提供する利用規約とあわせて確認し、理解を深めていきましょう。
①Amazon
Amazon公式サイトの利用規約内には「個人的に利用する権利をお客様に許諾します。しかしロボットなどのデータ収集・抽出ツールの使用は一切含まれません」などと明記されていて、AmazonのWebサイトでは、スクレイピングは許可されていません。
引用:Amazon.co.jp利用規約|利用許可およびサイトへのアクセス
②楽天
楽天ショッピングサービスの利用規約の第7条に、「楽天の事前許可を得ずに、自動化された手段(ロボットなど)を用いて商品を購入、または情報取得することをしてはならない」と明記されています。
つまり楽天市場では、スクレイピングを用いた商品の買い占めや情報取得を認めていません。
③Facebook
Facebookを運営するmetaの公式サイトの一項目に、「Facebook社の事前の許可なく、自動化された手段を用いてアクセスしたり、データを収集したりすることは許されない」と書かれています。
Facebookでは利用者からスクレイピングについて多くの懸念が上がったことを受け、ルールを強化し専任チームを設けて課題に注力されています。
他のSNSやWebサイトよりも個人情報を公開しているため、厳格にルール化されているのでしょう。
引用:Facebook|悪意のあるスクレイピングを防ぐために
④Twitter
Twitterの利用規約には、「Twitterによる同意がないままスクレイピングをすることは明示的に禁止されています」と明記してありますが、robots.txtファイルの定めによる場合はスクレイピングは認められています。
なおrobots.txtについては、本記事の後半で解説します。
ところでTwitterは2023年7月1日にオーナーのイーロンマスク氏によって、「極端なレベルでのデータスクレイピング」また「システムの不正操作」が理由で1日にユーザーが閲覧できるツイート数に制限をかけました。
突然の閲覧制限をかけたことに対してイーロンマスク氏は、数百以上の企業が情報をスクレイピングすることで、サーバーの不安定さやサービスの質の低下につながることへの対策だと説明しています。
Webサービスを運営する側にとって、無償でデータを奪われることはかなりの迷惑行為になるのです。
⑤YouTube
YouTubeの利用規約には、スクレイピングが禁止だとはっきりとは書かれていませんが、「コンテンツのいずれかの部分に対しても、アクセス、複製、ダウンロード、配信、送信、放送、展示、販売、ライセンス供与、改変、修正、その他の方法で使用を行うことは禁止」だと明記されています。
YouTubeは権利所持者が事前に書面で許可している場合は、スクレイピングが認められます。
引用:YouTube利用規約
⑥Yahooファイナンス
Yahooファイナンスの公式サイトのヘルプに、「掲載する株価やその他のデータを、プログラム等を用いて機械的に取得する行為(スクレイピング等)について禁止している」などと明記されています。
不特定多数の人がスクレイピングを行えば、安定したWebサービスの提供に支障が出る懸念があるのが理由です。
もし株価データを公式な手段でダウンロードしたい場合は、Yahooが提供する株価情報提供サイト「VIP倶楽部」を活用するように案内しています。
禁止事項を理解した上で、スクレイピングに挑戦してみたいかたはこちらの記事を参考にしてください。
スクレイピング禁止サイトと許可サイトの識別方法
ここからはスクレイピング禁止サイトと許可サイトの識別方法を確認していきましょう。
サイトの利用規約とスクレイピング
スクレイピングが禁止されているのか許可されているのかを見極める方法として、まずサイトの利用規約を確認する必要があります。
ここまでで述べてきたように、AmazonやFacebookの例のように利用規約に各サイトのルールが明記してあります。
特に初心者の場合、最初にルールを丁寧に学び忠実に守った上で応用していきましょう。
robots.txtとスクレイピング
スクレイピング禁止サイトなのか見極めるには、robots.txtを確認する方法があります。
robots.txtとは、Webサイトを自動巡回するロボットである「クローラー」に対して、どのコンテンツを巡回してもいいのか、巡回してはいけないのかが書き込まれているファイルです。
例えば以下のようなGoogleやAmazonなどの知名度の高いサイトで公開されています。
サイト名 | robots.txtのURL |
---|---|
https://www.google.co.jp/robots.txt | |
Amazon | https://www.amazon.co.jp/robots.txt |
https://facebook.com/robots.txt | |
Apple | https://www.apple.com/robots.txt |
robots.txtに書かれている内容は、例えば「User-agent」は全てのクローラーが対象であること、また「Disallow」はクロールを禁止するパスなどと、表記ルールが定められています。
スクレイピング許可サイトの例
スクレイピングを大々的に許可しているサイトはほとんどありませんが、WebAPIを公開しているサイトなら公式で情報収集が許可されています。
WebAPIとは、Webサービス側が開発者向けに情報を公開している機能を指しています。
例えば先程スクレイピング禁止だと挙げたAmazonやTwitter、Yahooなどは、実は独自のWebAPIを公開していて、公式でサポートされています。
WebAPIは収集したデータを2次利用できたり、アプリケーション開発を大幅に効率化できるメリットがあり、安心して利用可能です。
これまでの説明でスクレイピングに興味を持った方へ、まずはPythonの基礎知識から学んでみてはいかがでしょうか。
よろしければPython初心者向けの、以下の記事も参考にしてみてください。
スクレイピングを利用する際の注意点
最後にスクレイピングを利用する際の注意点として、次の3つを解説します。
- スクレイピングの対象に注意
- 利用規約を守る
- アクセス制限ルールを守る
この記事のおさらいにもなるので、1つずつ復習していきましょう。
①スクレイピングの対象に注意
スクレイピングを行う画像や文章、映像などの著作権には十分に注意しましょう。
著作物の情報収集の全てが禁止されている訳ではなく、例えば集めたデータを分析し新たな創作物を生み出したり、集めた口コミを商品開発に活かしたりすることは、著作権法30条の4「情報解析の用に供する場合」にて認められています。
スクレイピングのルールは難しく、間違えてしまうと法に触れる可能性があるため、初心者の段階で基本的なルールを習得することが望ましいでしょう。
スクレイピングに関しては書籍やWeb教材、ITスクールで学べるので、スクレイピングに取り掛かる前に基本を固めることをおすすめします。
プログラミングスクールの利用に興味がある方へ、社会人におすすめのプログラミングスクールを10校厳選した記事も、ぜひご覧ください。
②利用規約を守る
スクレイピングを行いたいWebサイトがあれば、まずは利用規約を確認するのが基本の流れです。
利用規約にスクレイピング禁止だと明記してある場合、違反になり最悪のケースでは損害賠償を請求される恐れがあります。
もし直接的に書いていなくても、「自動で情報収集する行為は禁止」「ロボットでの買い占めは厳禁」などの文言がないか、利用規約には目を通しましょう。
また特にリスクがあると言われているのが、以下のようなケースです。
- Webサイトにログインする
- 会員登録をする際に「条件に同意する」にチェックする
不特定多数の人が閲覧できないページや利用規約に同意したケースは、違法になる可能性が高いでしょう。
③アクセス制限ルールを守る
アクセス制限のルールとして、robots.txtを確認してコンテンツ巡回のルールを遵守することが大切です。
各サイトの巡回ルール・制限内容をきちんと守らないと、偽計業務妨害罪などの刑法上の容疑がかかる可能性があるので注意が必要です。
他にもWebAPIなら安全に情報収集が可能である一方で、有料であったり利用制限がかかるケースもあり、スクレイピングとどちらを使うのか見極めが必要となります。
まとめ:スクレイピング禁止ルールを守り正しく便利に活用しよう
ビッグデータの活用が期待される昨今、スクレイピングはデータ収集のとても便利な方法として認められています。
一方で著作権やサーバー負荷の問題も抱えていて、ルールを守って活用しないと最悪の場合、法律に触れる可能性があります。
初心者のうちからITスクールやWeb教材などで正しい情報を学び、基礎を固めた上で便利なツールを活用しましょう。