メインメニューを開く

差分

検索エンジン

384 バイト追加, 2 年前
== リーガルリスク ==
=== 深層ウェブ ===
Googleなどのウェブ検索エンジンでは、データベースの検索結果など多くの[[動的ページ]]が検索対象になっていない。このような動的ページは「[[深層Web|深層ウェブ]]」「見えないウェブ」「隠されたウェブ」などと呼ばれている。静的ページの500倍の量が存在し、多くは無料だといわれる。深層ウェブは、一般の検索エンジンなどからデータベースなどを見つけ出すか、直接アクセスした上で、それぞれの検索機能から再度検索しなければならない。<!--
 
このようにWebページが深層と表層に分かれてしまう背景には検索エンジン側が晒される法的リスクがある。深層にあるものは必ずしも検索エンジンから検索されることを前提としていないものも多い。すべての深層データが検索エンジンから検索可能な状態になっていた場合、動的ページの情報提供者の存在意義を脅かす可能性もある。本来であれば非公開とされているようなデータが誤って検索されてしまうという可能性も高くなる。さらに、データベースと連動する動的ページをクローラーが集中的にクロールすると、データベース側の負荷が上がるためサーバ速度の低下やシステムダウンを引き起こす危険が高まる。このようなことから検索エンジンは技術的に深層に入り込めない訳ではなく、あえて避けていると推測することができる。実際、中国の検索エンジン[[百度]]は集中的なクロール活動を続けた結果、多くのサーバ管理者から一斉にクレームを受け、クロール活動を大きく制限せざるを得なかった。
--><!--百度のアクセスはリンクを辿るのではなく、あてずっぽうで力任せにあれこれ絨毯爆撃する、挙句は robots.txt を無視するなどなど、本質的に問題のあるクロールが問題だったのであり「集中的なクロール活動」という曖昧な表現は間違っている。独自研究以前のレベルの記述-->
 
=== 著作権との関係 ===
20,586

回編集