メインメニューを開く

差分

検索エンジン

3,114 バイト除去, 1 年前
独自研究テンプレートを貼付し、不正確な記述を修正・除去
{{出典の明記|date=2015年12月}}
{{独自研究|date=2017年10月}}
'''検索エンジン'''(けんさくエンジン、{{Lang-en|search engine}})は、狭義には[[インターネット]]に存在する情報([[ウェブページ]]、[[ウェブサイト]]、[[画像]]ファイル、[[ネットニュース]]など)を[[検索]]する[[機能]]およびその[[プログラム (コンピュータ)|プログラム]]。インターネットの普及初期には、検索としての機能のみを提供していたウェブサイトそのものを検索エンジンと呼んだが、現在では様々なサービスが加わった[[ポータルサイト]]化が進んだため、検索をサービスの一つとして提供するウェブサイトを単に検索サイトと呼ぶことはなくなっている。広義には、インターネットに限定せず情報を検索するシステム全般を含む。
'''検索エンジン'''(けんさくエンジン、{{Lang-en|search engine}})は、情報の集合体へ[[問い合わせ言語]]で記述されたクエリを送信し答えを得る[[コンピュータプログラム]]で、[[World Wide Web]] において最も多く使用される。[[ウェブ検索エンジン]]は、検索結果としてウェブ上のコンピュータファイルがリストされたページを返す。多くの検索エンジンでは、クエリで "and" "or" "not" などの符号を使用することができる<ref>{{Cite web|url=https://www.britannica.com/technology/search-engine|title=Search engine|author=The Editors of Encyclopædia Britannica|publisher=Encyclopædia Britannica|accessdate=2017-10-18}}</ref>。
 
狭義のウェブ検索エンジンは、'''[[#ロボット型検索エンジン|ロボット型検索エンジン]]''''''[[#ディレクトリ型検索エンジン|ディレクトリ型検索エンジン]]'''、[[#メタ検索エンジン|メタ検索エンジン]]などに分類される。広義それ以外の検索エンジンとしては、ある特定のウェブサイト内に登録されている[[テキスト]]情報の[[全文検索]]機能を備えた[[ソフトウェア]]('''[[#全文検索システム|全文検索システム]]''')などがある。
 
検索エンジンは、'''検索窓'''と呼ばれるボックスにキーワードを入力して検索をかけるもので、全文検索が可能なものと不可能なものとがある。検索サイトを一般に「検索エンジン」と呼ぶことはあるが、厳密には検索サイト自体は検索エンジンでない。
 
== 検索エンジン(狭義) ==
与えられた検索式に従って、[[ウェブページ]]等を[[検索]]するサーバ、システムのこと。検索式は、最も単純な場合はキーワードとなる文字列のみであるが、複数のキーワードに[[論理積|AND(「かつ」、論理積)]]や[[論理和|OR(「または」、論理和)]]等の論理条件を組み合わせて指定することができるものが多い。
 
ロボット型検索エンジンの大きな特徴の一つとして、[[クローラ]](ロボット・スパイダー)を用いることが挙げられる。このことにより、[[World Wide Web|WWW]]上にある多数の情報を効率よく収集(日本の[[著作権法]]では複製)することができる。大規模な検索エンジンでは、80億ページ以上のページから検索が可能になっている。
 
収集したページの情報は、前もって解析し、索引情報(インデックス)を作成する(日本の著作権法では編集)。[[日本語]]などの言語では、[[自然言語処理]]機能が生成される索引の質に影響する。このため、[[多言語]]対応した検索エンジンの方が精度の高い検索が可能となる。
{{国際化|領域=日本|section=1|date=2010年1月4日 (月) 15:00 (UTC)}}
=== 黎明期 ===
日本のインターネット普及初期から存在した検索エンジンには以下のようなものがある。黎明期には、[[豊橋技術科学大学]]の学生が作成したYahoo!や、[[東京大学]]の学生が作成した[[ODiN]]、[[早稲田大学]]の学生が作成した[[千里眼 (検索エンジン)|千里眼]]など、個人の学生が作成したものが商用に対して先行していた(いずれも[[1995年]]に作成、[[日本電信電話株式会社]]の[[NTT DIRCECTORY]]、サイバースペースジャパン(現・[[ウェブインパクト]])の[[CSJインデックス]]は[[1994年]]に作成)。これらは単に実験用に公開されていただけでなく、多くの人に用いられていたものであり、黎明期のユーザにとっては知名度、実用度ともに高いものであった。またMondouなどのように研究室([[京都大学]])で作成したものもあった。
 
=== Yahoo! JAPAN の独走 ===
[[#ロボット型検索エンジン|ロボット型検索エンジン]]は、その原理上インターネット上のコンテンツを[[複製]]して[[キャッシュ (コンピュータシステム)|キャッシュ]]として保存するようになっている。[[著作権]]をたてに、ウェブサイトの閲覧利用[[規約]]等と称して、一切のいかなる複製も禁ずるとするサイト等があり、どういったものかと古くより話題になっていた<ref>たとえば [http://it.slashdot.jp/story/02/03/18/0234235 検索エンジンのキャッシュは著作権侵害か?](2002.3 [[スラッシュドット]]・ジャパン)などを見よ</ref>。
 
また、2006年11月には、日本の知的財産戦略本部コンテンツ専門調査会第3回企画WGにおいて、検索エンジンに関して「[[著作権法]]上、複製、編集には権利者の許諾が必要であり、[[Yahoo!]]、[[Google]]など大手検索システムのサーバーは海外に置かれているのが現状」<ref name="kikaku3-siryou2">{{PDFlink|[http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/siryou2.pdf コンテンツをめぐる課題(参考資料)]}}(2006.11 [http://www.kantei.go.jp/jp/singi/titeki2/tyousakai/contents/kikaku3/3gijisidai.html コンテンツ専門調査会 企画ワーキンググループ(第3回)] - 知的財産戦略本部)</ref>と報告され、これをうけて{{要出典範囲|date=2012年12月|[[経済産業省]]が日本国内でも合法的に検索エンジンサービスが行えるように著作権法の改正や検索エンジンの開発に取り組むと発表し}}、2010年1月の改正で複製が合法とされた。
 
<span id="キャッシュ"></span>なお、この場合の"キャッシュ"とは、検索エンジンの内部使用のための複製や[[要約]](スニペット)作成のための複製である。
このことを拡大解釈したのか、あたかも著作権法のために、日本ではGoogleのような企業が育たなかったであるとか、日本におけるネット検索を妨げたのは著作権法である、といった論が巷に見られるが([[フェアユース]]規定がない等の点は従来より指摘されてはいるが)、このWG報告以前に、著作権法によりネット検索の事業が妨げられた、というような話はない(ネット検索エンジンの勃興は2006年より更に遡ること10年、1990年代中盤で、日本で「千里眼」、米国で「AltaVista」等、ほぼ同時に同様の試みが始まっていた(前述のように、著作権を盾に公開している情報の利用を拒否する主張をする者が居たことは確かだが、判例などの普通に考える所の法的根拠がその時点で存在していたわけがない)。Googleが十分に成長し、日本語サービスを開始したのですら前世紀<ref>http://internet.watch.impress.co.jp/www/article/2000/0803/google.htm</ref>である)。
 
<span id="キャッシュ"></span>なお、この場合の"キャッシュ"とは、検索エンジンの内部使用のための複製や[[要約]](スニペット)作成のための複製であ{{要出典範囲|date=2016年7月|り、一時的にウェブサイトが閲覧しづらい場合のためにユーザーに閲覧させる目的の[[アーカイブ]](グーグルでは"キャッシュ"とも呼ばれる)は、依然として法的には[[グレーゾーン]]である。また、アーカイブは、必ずしも検索エンジンの運営に不可欠とまでは言えず、ウェブサイトを丸ごとアーカイブとして提供する場合には著作権法の2010年改正部分が言う複製の範囲を超えるおそれがある。}}
 
== そのほか ==
|}
[[1995年]]以前のInternet Societyによればインターネットで用いられている言語のうち英語が占める割合は85%とされていたが、その後の[[情報技術|IT]]の進歩や各国のインターネットの普及により多言語化が進み、上表に見られるように[[2000年]]の年末には英語と非英語の言語人口が逆転し、その傾向は継続している。
 
2005年2月2日の時点で、WWW検索エンジンの代表格であるGoogleでは80億を越す8,058,044,651ウェブページが登録されている。検索エンジンの利用者はそれら80億を越すウェブページから求める情報を容易に引き出せると思い込みがちであるが、例えば日本語入力のできないコンピュータなどの端末を用いて日本語サイトを検索することは容易ではない。同様に非英語圏の言語間の検索は中間に翻訳エンジンを介さないと検索作業は難しい。
 
インターネットの多言語化が今後も増加すると仮定した場合、言語間の壁をどのように乗り越えるかは今後の検索エンジンが抱える課題の一つとして挙げることができる。
英語圏でも2013年ごろから「#wikipedia」のような[[番号記号]]を使った広告活動をおこなっている。
 
===検索エンジンの危険性===
検索エンジンの危険性について述べた多くの参考文献や資料が存在する。その一部であるが、検索エンジンの安全性に関する調査報告については、ウイルス対策ソフトなどを提供するセキュリティベンダーの米マカフィーが、2007年6月4日「検索エンジンの安全性に関する調査報告」を発表し「検索エンジンは危険であり、検索エンジンにキーワードを入力して上位に現れるサイトの危険度を調べたら、広告として表示されるサイトは、そうでないサイトの2.4倍も危険率が高い」としている<ref>[http://www.nikkeibp.co.jp/style/biz/skillup/spam/070618_50th/ nikkeibp]</ref>。また、SERPは危険なウェブサイトへのリンクが多い。特に広告をクリックする場合、ユーザーは高いリスクにさらされると警鐘を鳴らしている<ref>[http://www.itmedia.co.jp/enterprise/articles/0605/13/news008.html]</ref>。さらに、検索エンジンの提供サイトの危険度についての調査報告では、同マカフィーが「検索エンジンの安全度調査」を発表し「最も危険な結果が多いのは米ヤフー」としている<ref>[http://internet.watch.impress.co.jp/cda/news/2007/06/05/15941.html]</ref>。
検索エンジンが、利便性が高いが危険性も多く存在する事やその被害例について多くの参考文献や資料が存在する。その一部であるが、
検索エンジンの安全性に関する調査報告については、
ウイルス対策ソフトなどを提供するセキュリティベンダーの米マカフィーが、2007年6月4日「検索エンジンの安全性に関する調査報告」を発表し「検索エンジンは危険であり、検索エンジンにキーワードを入力して上位に現れるサイトの危険度を調べたら、広告として表示されるサイトは、そうでないサイトの2.4倍も危険率が高い」としている。
[http://www.nikkeibp.co.jp/style/biz/skillup/spam/070618_50th/ nikkeibp]
また検索エンジンのキーワード検索結果には危険なリンクでいっぱいであり、
検索エンジンが自分を守ってくれると思ってはいけない。それどころか検索結果ランキングがサイトの安全性を反映していないことも多く、特に検索エンジン広告を訪れる場合、ユーザーは高いリスクにさらされると報告書ではこう警鐘を鳴らしている。
[http://www.itmedia.co.jp/enterprise/articles/0605/13/news008.html]
さらに、検索エンジンの提供サイトの危険度についての調査報告では、
同マカフィーが「検索エンジンの安全度調査」を発表し「最も危険な結果が多いのは米ヤフー」としている。
[http://internet.watch.impress.co.jp/cda/news/2007/06/05/15941.html]
 
== 主な検索エンジンサイト ==
31

回編集