「インターネットアーカイブ」という言葉を耳にしたことはありますか? Webに関わる仕事をしている方や、日頃からインターネットを活用する方なら、聞いたことがある人も多いでしょう。
多くの人は、インターネットアーカイブと聞くと「Webページの情報を保存して、過去の状態をチェックできるサービス」を思い浮かべるかもしれません。しかし、実はこの名称はサービスそのものを指すわけではなく、非営利団体の名前を指します。
インターネットアーカイブは、Webページのアーカイブ閲覧サービスを運営する非営利団体です。1996年にブリュースター・ケール氏によって設立され、「Wayback Machine」という無料ツールを提供しています。このツールを使えば、過去のWebサイトの情報や削除されたページを閲覧することができます。
インターネットアーカイブは、デジタル上で公開された情報やデータを世界中の人々が無料で閲覧できるようにすることを目的としています。現在、保存されているデータ量は8,280億ページを超え、まさに「Webの図書館」としての役割を果たしています。
本記事では、インターネットアーカイブの意味や、過去のWebサイトを確認する方法、削除する方法などについて詳しく解説していきます。また、インターネットアーカイブを活用したSEO対策の方法や、Wayback Machine以外の過去のWebサイトをチェックできるツールについても紹介します。
インターネットアーカイブは、研究者への情報提供だけでなく、Webサイトの変遷を追跡したり、ユーザーにとって使いやすいサイト構成を研究したりするなど、SEO対策を行う上でも非常に有用なツールとなっています。このような多様な活用方法を知ることで、インターネットアーカイブの真の価値を理解し、効果的に利用することができるでしょう。
目次
インターネットアーカイブとは?
インターネットアーカイブ(Internet Archive)は、Webページの情報を保存し、過去の状態をチェックできるサービスを提供する非営利団体のことを指します。多くの人がこの名称をサービスそのものだと誤解しがちですが、実際には団体名を指しています。
1996年にブリュースター・ケール氏によって設立されたインターネットアーカイブは、デジタル上で公開された情報やデータを世界中の人々が無料で閲覧できるようにすることを目的としています。その中核となるサービスが「Wayback Machine(ウェイバックマシン)」です。このツールを使用することで、過去のWebサイトの情報や削除されたページの閲覧が可能となります。
インターネットアーカイブは、Webの図書館のような役割を果たしています。現在、保存されているデータ量は8,280億ページを超え、膨大な情報を蓄積しています。当初は研究者への情報提供を主な目的としていましたが、現在ではSEO対策を行う人々にとっても非常に有用なリソースとなっています。Webサイトの変遷を追跡し、ユーザーにとって見やすい構成や反応の良いサイトのリサーチに活用できるからです。
インターネットアーカイブの存在は、デジタル時代における情報の永続性と accessibility を支える重要な役割を担っています。過去のWeb情報を保存し、誰もが自由にアクセスできる環境を提供することで、インターネットの歴史を記録し、デジタル文化遺産の保護に貢献しているのです。
Webページのアーカイブ閲覧サービスを運営している非営利団体
インターネットアーカイブは、Webページのアーカイブ閲覧サービスを運営している非営利団体のことを指します。1996年にブリュースター・ケール氏によって設立されました。この団体は、インターネット上の情報を保存し、アクセス可能にすることを使命としています。
インターネットアーカイブが提供する最も有名なサービスは、無料で利用できる「Wayback Machine(ウェイバックマシン)」というツールです。このツールを使用することで、過去のWebサイトの情報や、既に削除されたWebページの閲覧などを行うことが可能になります。Wayback Machineは、インターネットの歴史を追跡し、デジタル情報の永続性を確保する上で重要な役割を果たしています。
多くの人々が、Webサイトの過去の状態をチェックできるものを総称して「インターネットアーカイブ」と呼ぶことがありますが、厳密には「Wayback Machine」がその機能を担っているといえます。インターネットアーカイブは、このWayback Machineを含む複数のサービスを提供する非営利団体そのものを指す名称なのです。
Webの図書館のような役割を果たしている
最初は、デジタル上で公開された情報やデータなどを、世界中の人が無料で閲覧できるようにする目的で開発されました。ホームページで確認したところ、現時点で保存されているデータ量は8,280億ページを超えるほどで、Webの図書館のような役割を果たしています。
本来は研究者への情報提供を前提としていますが、Webサイトの変遷を残し続けているそのデータは、ユーザーが見やすい構成や反応の良いサイトのリサーチなど、SEO対策を行おうと考えている人にとっても非常に活用できるようになっています。インターネットアーカイブは、Webの歴史を保存し、過去のインターネットの姿を再現することができる貴重な資源となっています。
さらに、インターネットアーカイブは単なるWebページの保存だけでなく、電子書籍、音声、動画など、さまざまなデジタルコンテンツも収集・保存しています。これにより、インターネットアーカイブは文化的・学術的な価値の高いデジタル図書館としての機能も果たしており、研究者や一般ユーザーにとって重要な情報源となっています。
関連記事:アーカイブ(archive)とは?インターネットアーカイブやメールアーカイブなど基本的仕組みを解説
インターネットアーカイブの提供しているサービス
インターネットアーカイブは、デジタル情報の保存と共有を目的として、多様なサービスを提供しています。これらのサービスは、世界中の人々が平等に情報やデータにアクセスできるよう貢献しています。インターネットアーカイブの主要なサービスには以下の5つがあります。
●Wayback Machine: 過去のウェブサイトの閲覧や削除されたページの確認ができる、最も有名なツールです。
●Archive-It: 専門知識がなくてもウェブサイトやページのアーカイブを作成できる有料サービスです。
●Open Library: 電子書籍を無料で閲覧できるデジタル図書館サービスです。
●Political TV Ad Archive: 政治関連のテレビ広告やソーシャルメディア広告を保存・提供するサービスです。
●Software Archive: 古いソフトウェアやゲームを保存し、エミュレーターで実行できるようにするサービスです。
これらのサービスは、インターネットアーカイブの使命である「普遍的なアクセスを通じた知識の構築」を実現するための重要な手段となっています。特に、Wayback Machineは8,280億ページ以上のデータを保存しており、インターネットの歴史を紐解く上で貴重な資源となっています。
インターネットアーカイブのサービスは、研究者だけでなく、一般ユーザーやウェブ開発者、SEO専門家など、幅広い層に活用されています。例えば、ウェブサイトの変遷を調査したり、過去のトレンドを分析したりする際に、これらのサービスが重要なツールとなっています。
インターネットアーカイブは、デジタル時代における「図書館」としての役割を果たしており、その膨大なデータベースは人類の知識と文化遺産の保存に大きく貢献しています。
Wayback Machine
Wayback Machine(ウェイバックマシン)は、インターネットアーカイブが提供する最も人気のあるサービスです。過去のWebサイトの情報や削除されたコンテンツの閲覧を可能にする強力なツールで、多くのユーザーにとって馴染み深いものとなっています。Wayback Machineの特筆すべき点は、その膨大なデータ量にあります。現時点で保存されているWebページは8,280億ページを超え、まさにインターネットの歴史を網羅する巨大なアーカイブとなっています。
Wayback Machineの優れたクローリング機能により、他のツールでは見つけられない情報も発見できる可能性が高くなっています。このため、研究者やSEO専門家、ウェブ開発者など、幅広い分野の専門家たちにとって貴重なリソースとなっています。
インターネットアーカイブの中核を成すWayback Machineは、無料で利用できることも大きな特徴です。ユーザーは簡単に過去のウェブページにアクセスし、インターネットの進化や特定のサイトの変遷を追跡することができます。また、Wayback Machineは、デジタル保存の重要性を示す象徴的な存在としても認識されており、インターネットの歴史を後世に伝える上で重要な役割を果たしています。
Archive-It
Archive-It(アーカイブイット)は、インターネットアーカイブが提供する有料のWebアーカイブサービスです。専門的な知識がなくても各種データを保存することができ、アーカイブ作成を可能にするツールとして設計されています。Archive-Itが用意した操作画面を使えば、簡単に指定したWebサイトやページを保存することができます。保存されたコンテンツは、いつでも見返したり、全文検索を行ったりすることが可能です。
インターネットアーカイブの一環として、Archive-Itは歴史的に重要なWebページや、一時的な情報を長期的に保存する役割を果たしています。例えば、政府機関のWebサイト、学術機関のページ、ニュースサイトなどが対象となることが多く、将来の研究者や歴史家にとって貴重な資料となります。
Archive-Itの特徴として、カスタマイズ可能な収集スケジュールや、メタデータの追加機能があります。これにより、ユーザーは自身のニーズに合わせてWebアーカイブを構築し、整理することができます。ただし、Archive-Itは有料サービスとなるため、個人での利用よりも、図書館や研究機関、企業などの組織での利用が主となっています。
引用:Archive-It
Open Library
Open Library(オープンライブラリィ)は、インターネットアーカイブが提供するオープンなデジタル図書館サービスです。児童書から学術書まで、インターネットアーカイブ内の幅広い電子書籍を誰でも閲覧できるようになっています。Open Libraryの最終的な理想は、「すべての出版物を誰でも利用できるようにすること」です。この目標に向けて、出版物の情報を収集し、それらへのアクセスを提供しています。
Open Libraryの特徴として、ブラウザ上での読み上げ機能や目次の自動生成機能があります。これらの機能により、ユーザーは効率的に書籍の内容を把握することができます。また、インターネットアーカイブの一部として、Open Libraryは過去の書籍や絶版となった書籍など、貴重な文献へのアクセスも可能にしています。
書籍について情報を集めたい研究者やライターにとって、Open Libraryは非常に使い勝手の良いサービスといえるでしょう。インターネットアーカイブの理念に基づき、知識へのアクセスを民主化し、デジタル時代における図書館の役割を果たしています。
引用:Open Library
Political TV Ad Archive
Political TV Ad Archive(ポリティカルティーヴィ―アドアーカイブ)は、政治のTV広告やソーシャルメディアなどの広告を保存・公開しているインターネットアーカイブのサービスです。このアーカイブは、事実確認と信頼性の高い報道を組み合わせることで、政治や社会情勢に関する信頼できる情報を提供しています。ユーザーは、過去の政治広告キャンペーンや選挙期間中の広告を閲覧することができ、政治コミュニケーションの変遷を追跡することが可能です。また、インターネットアーカイブの特徴である長期保存により、将来の研究者や分析家にとっても貴重な資料となることが期待されています。このサービスは、政治的透明性を高め、有権者の情報に基づいた意思決定を支援する重要なツールとしての役割を果たしています。
Software Archive
Software Archive(ソフトウェアアーカイブ)は、さまざまな種類の合法的にダウンロード可能なソフトウェアと関連情報を保存しているサービスです。ソフトウェアそのものの情報を入手できるのはもちろん、それに関連するニュースの情報などもチェックできます。また、ゲームのソフトウェアについてもさまざまな情報を入手でき、ゲームのハイスコアやスキルのリプレイなども確認できます。
関連記事:Wayback Machine(ウェイバックマシン)とは?使い方や意味を徹底解説します!
Wayback Machineの利用方法
アーカイブサービスの中では最もポピュラーなWayback Machineですが、さまざまなシーンで活用が可能です。ここからはシーン別にWayback Machineの利用方法について解説します。
過去のWebサイトを確認する方法
Wayback Machineで、過去のWebサイトを確認する方法は以下の通りです。
1. 検索窓にURLまたはキーワードを入力
2. キャッシュした日付が棒グラフで画面上部に表示されるため、棒グラフが表示されている年をクリック
3. 調べたい年をクリックすると、カレンダーが表示されるため調べたい月日を指定してクリック(青い丸が付いている日付が、データが保存されている日)
4. 調べたい日をクリックすると、当時のWebサイトの状態を確認できる(リンクもつながっているため、他のページの確認も可能)
手動でWebサイトを保存する方法
Wayback Machineは基本的に自動でキャッシュを行い、Webサイトの情報を収集していますが、キャッシュされるタイミングは不明で必ずしも毎日行われている訳ではありません。そのため、手動でWebサイトを保存することができます。クローラーの巡回頻度が少ない場合、現時点でのキャッシュを残したい場合などに活用すると良いでしょう。手動でWebサイトを保存する方法は以下の通りです。
1. 検索窓に保存したいページのURLを入力し、「SAVE PAGE」をクリック
2. 保存処理が完了
過去のWebサイトを削除する方法
Wayback Machineに保存されている過去のWebサイトやページを削除したい場合は、Wayback Machineを運営しているインターネットアーカイブにメールを送って、削除を依頼する必要があります。
フォームなどは用意されていないため、「info@archive.org」宛てにメールを送るようにしましょう。削除にあたっては、削除したいURLとその削除したいWebサイトの運営者である証明を送る必要があります。また、インターネットアーカイブはアメリカの団体のため、英語で削除を依頼しなければなりません。
クローラーのアクセスを制限する方法
「過去のものは削除をしなくても良いが、今後のWebサイトへのキャッシュは行ってほしくない」ということであれば、クローラーのアクセスを制限する方法があります。
robots.txtに以下のタグを記述してサーバーのトップディレクトリにアップしておきます。
User-agent: ia_archiver
Disallow: /
意味としては、「インターネットアーカイブによるクロールを“Disallow(拒否)”する」ということで、これによって、Wayback Machineには自身のサイトが残らない状態となります。
Wayback Machineで確認できないもの
膨大な量のデータを保存し続けているWayback Machineですが、閲覧できないページやデータもあります。Wayback Machineで確認できないものは主に以下のようなものがあげられます。
● 手動保存が進んでいないWebサイト
● IDなどで制限されたWebサイト
● 削除依頼されているWebサイト
手動保存が進んでいないWebサイト
手動の保存が進んでいないものは、Wayback Machineで確認が行えません。Wayback Machineは基本的に自動でキャッシュを行っていますが、必ずしも毎日行われている訳ではありません。そのため、自動での保存はいつ行われるか分からなくなっています。そのため、Wayback Machineなどのアーカイブに残したい場合は、手動でWebサイトを保存することを推奨します。登録には一定の時間が必要なため、保存されるのには少し時間がかかります。保存が完了していない間は検索をしても表示がされませんが、しっかりと手動保存を進めていくことでアーカイブに残るようになります。
IDなどで制限されたWebサイト
IDなどで閲覧が制限されたWebサイトもWayback Machineで確認が行えません。Wayback Machineのデータは誰でも確認ができますが、Webサイトによっては閲覧に必要なID・パスワードなどを設定しているものもあります。それらはID・パスワードの入力を行って、セキュリティをクリアしなければ閲覧することはできません。
削除依頼されているWebサイト
Wayback Machineが削除依頼を受けているWebサイトは確認ができません。Webサイトによってはさまざまな状況や理由から過去のデータ保存を行ってほしくない人もいらっしゃいます。そのような場合は、Wayback Machineを運営しているインターネットアーカイブにメールを送って削除を依頼することで、Webページの過去のデータを削除することが可能です。削除依頼を受けているWebサイトは、いくら検索をしても閲覧することはできません。
インターネットアーカイブはSEO対策に活用できる
Wayback Machineなどのサービスは、過去のWebサイトの情報や削除されたものの閲覧などを行うことが可能であるという特性から、SEO対策に活用できます。SEOとは検索エンジン最適化の略称で、「Search Engine Optimization」の頭文字をとっています。Googleなどの検索エンジンに評価してもらいやすい構成のWebサイトや、キーワードを含めたWebサイトなどを作成することで、自社のWebサイトを検索結果上位に表示させ、検索によって閲覧するユーザーを増やしていくための施策のことを言います。
主に以下のような点で活用できるでしょう。
● 検索順位の変動時に上位のWebサイトの調査ができる
● トレンドなどをチェックできる
● 過去のWebサイトやページの情報が残せる
● 中古ドメインの質の確認ができる
● URL構造の変化を確認することができる
検索順位の変動時に上位のWebサイトの調査ができる
Googleは定期的にアルゴリズムのアップデートを実施しており、これらのアルゴリズムを分析して結果を出すのは非常に高度なスキルが必要とされます。実際にこれを読んでいる企業のWeb担当者やSEO担当者の方で、「頭を悩ませている」という方も多いのではないでしょうか?
そんな際にWayback Machineなどを活用することで、アップデートにて検索順位の変動時に上位のWebサイトの調査を行うと非常に効果的です。上位に上がったメディアやコンテンツにどのような傾向があるのか、どのような要素があることでGoogleから良い評価を得たのかなどを分析して、それらを自社のメディアに取り入れると非常に効果的だといえるでしょう。
例えば、競合他社のメディアが「A」という要素を追加したことによって検索順位が大幅に上がったとします。そのような場合でも、競合他社の現在のメディアと、Wayback Machineにある競合他社の過去のメディアを見比べることで、「A」という要素を追加したことでGoogleからの評価が向上して上位表示されたという調査を行うことが可能です。このような調査を繰り返して、自社のメディアなどに良い要素を含んでいくことができるでしょう。
トレンドなどをチェックできる
Wayback Machineなどを活用して複数の調査を行うと、Webサイトにおけるトレンドもチェックできるでしょう。
トレンドは急速に変動し、Googleのアルゴリズムのアップデートなどによってすぐ変動していっています。急速な変化のスピードにも対応するためには、結果を残しているであろう上位のWebサイト複数の調査が必要です。上位に上がっているものはGoogleのアルゴリズムのアップデートなどにも施策を行ったり、対策を早急に行ったりしている可能性が高くなっています。Wayback Machineなどを上手く使うことで、複数の調査を行い、アルゴリズムのアップデートに対応した自社の施策やトレンドへの対応を行うことができるでしょう。
過去のWebサイトやページの情報が残せる
Webサイトを運営していると、今後の調査の為に残したいページがあったり、構成を変更してあまり効果が出なかった際に元の構成に戻すために今の構成を記録しておきたかったりなど、運営者ならではの悩みがあります。そのようなタイミングでサービスを活用し、Webサイトのページの保存を行っておくことで、いつでも過去の構成やページを閲覧することが可能となります。
構成を変更して上位に上がったなどの結果が出れば、「どこを変えたことでSEO対策に繋がったのか」「どのような要素で評価が上がったのか」などを、過去の構成を見ながら分析することができるでしょう。分析の結果、要因が把握できれば、その要素をさらに追加したり、他のメディアにも応用したりすることが可能です。逆に構成を変更して検索順位が下がった場合でも、過去の情報を保存しているものが存在するので、その情報を確認しながら元に戻すことができます。
中古ドメインの質の確認ができる
Wayback Machineを活用することで、中古ドメインの質の確認が行えます。
スムーズにSEO対策を行い、なるべく早く結果を出すための1つとして中古ドメインを利用した方法があります。すでに利用履歴のあるドメインを再利用し、運用をすることで以前の評価を引き継いで運用できるという手法です。良いドメインであればドメインパワーが強く、スムーズにSEO対策の効果を上げられる可能性があります。
しかし、その購入した中古ドメインが、過去にGoogleからペナルティを受けていたり、被リンク数が極端に少なかったりすると、効果を上げにくい可能性があります。ジャンルによっては、ペナルティを受けたり、評判が悪かったりする可能性もあるためです。せっかく費用を出して中古ドメインを購入しても、そのような状況を知らずに購入してしまったがために成果があげられないのは避けたいところです。
Wayback Machineを上手く使うことでで、購入を検討している中古ドメインはどのようなコンテンツを掲載しているのか、どのような運用を行っていたのかをチェックすることができ、その中古ドメインがどの程度の質のものかを事前に確認することが可能です。
URL構造の変化を確認することができる
Wayback MachineはWebサイトの構造などだけでなく、過去のURLデータも一緒に保存されているため、URL構造の変化を確認することもできます。変更箇所や変更した時期の確認が可能です。そのため、中古ドメインを使用する際は、Wayback Machineでどの中古ドメインを確認し、ドメインパワーを確認するようにしておきましょう。
関連記事:Alternate(オルタネイト)タグとは! 意味やSEOを意識した上での注意点を解説!
Wayback Machine以外の過去のWebサイトをチェックできるツール
一般的にWayback Machineが最もポピュラーなものではありますが、Wayback Machine以外にも過去のWebサイトを確認できるツールは存在します。他にもさまざまな無料ツールがありますので、自身にとって使いやすいものを見つけてください。ここからは、Wayback Machine以外の過去のWebサイトをチェックできるツールを紹介します。
Stanford Web Archive Portal
アメリカの超名門私立大学であるスタンフォード大学が運営するサービスです。アメリカの大学が運用するサービスで、数はWayback Machineと比較すると少ないですが、日本語のサイトもいくつか収集されているため、日本人にとって利用しやすいものになっています。検索方法やサイトデザインがWayback Machineと非常に似ているので、Wayback Machineの使用経験がある方にとっては快適に使用できるでしょう。Wayback Machineとは異なる情報も収集されているので、2つを使い分けると効果的です。
引用:Stanford Web Archive Portal
Library of Congress
Library of Congressは、アメリカ議会図書館が運営するサービスです。1つのWebサイトに対して、週1回、月1回、四半期に1回といったように、さまざまな頻度で収集を行なっています。また、図書館資料の電子版も一緒に検索することが可能となっているため、図書館資料を利用する人にとっては便利でしょう。
UK Parliament Web Archive
UK Parliament Web Archiveは、イギリスの大英図書館が運営するサービスです。Webサイトの情報はもちろん、サイト内のPDFや画像、映像も収集されています。収集されたデータは、英国図書館や英国図書館分館などの計4館に保存されているため、万が一いずれかの図書館で保存しているデータが消失したとしても、他のデータから復元ができるようになっています。そのため、情報やデータの保管に関する安全性は高いといえるでしょう。
Web魚拓
Web魚拓は、日本の企業である株式会社アフィリティーが運営するサービスです。
Wayback Machineのようにクローリングを行って収集する仕組みではなく、ユーザー自らが保存したいWebサイトを指定してURLを入力することで保存する仕組みとなっています。日本の企業によって作成されているので、保存の進め方も分かりやすくなっています。
ネットを使っていて意外と多いのが「ブックマークしておいて後で見ようと思っていたが、気づいたら閉鎖されていた」というケースです。他にも、ドメインが切れていたり、他のサイトになってしまっていたりなどのケースもあります。Web魚拓を活用すると、サイト内容が変更されたり削除されたりしても、ウェブ魚拓をとった時点の状態をいつでも確認できます。
引用:Web魚拓
WARP
WARPは、日本の国立国会図書館が行っているインターネット資料収集保存事業のサイトです。
掲載されている情報は、日本国内のものに限定されており、対象は国の機関や法人・機構、国立大学、政党などが中心となっています。民間のメディアは、運営者の許諾に基づいて収集と保存がされています。
保存されているWebサイトは、URL・タイトル・公開社名・書誌IDなどから検索でき、小規模なターゲット単位で収集を行なっているため、各ターゲットごとに収集の頻度を決めて運営されているのが特徴といえます。
引用:WARP
関連記事:SEOで最も重要!ドメインパワーのチェック方法と強化対策について
インターネットアーカイブ利用の上での注意点
ここまで解説してきたように、インターネットアーカイブのサービスは非常に重要です。Webの発達が著しい現代では、これらのサービスを活用することでより高い恩恵を受けられるようになるでしょう。ただし、1点注意しておきたいのが、インターネットアーカイブに保存された情報やデータは本来「研究目的での利用」を想定されている点です。
ビジネスに活用する上で利用されることを前提とはしていないため、自社のWebサイト運営への活用やSEO対策などへの活用へは注意が必要です。収集し保存されている情報やデータは、保存しても問題ないか許可が取れているものであったり、著作権が切れたものであったりするため、無償で利用が可能ですが、どのような理由で利用するかは利用者本人の責任に委ねられていることは理解しておきましょう。
まとめ
本記事では、インターネットアーカイブの概要や、過去のWebサイトを確認する方法、削除する方法などについて解説しました。
インターネットアーカイブは、Webページのアーカイブ閲覧サービスを運営している非営利団体のことで、過去のWebサイトの情報や削除されたWebサイトの閲覧などを行うことができる「Wayback Machine(ウェイバックマシン)」などのツールを提供しています。Wayback Machineは現時点で保存されているデータ量は8,280億ページを超えるほどで、この膨大なデータ量を活用することで、SEO対策などにも活用できます。主に以下のような点で活用できるでしょう。
● 検索順位の変動時に上位のWebサイトの調査ができる
● トレンドなどをチェックできる
● 過去のWebサイトやページの情報が残せる
● 中古ドメインの質の確認ができる
● URL構造の変化を確認することができる
ただし、1点注意しておきたいのが、情報やデータは本来「研究目的での利用」を想定されています。どのような理由で利用するかは利用者本人の責任に委ねられていることは理解しておきましょう。
Wayback Machine以外にもさまざまなアーカイブサービスは存在しており、ほとんどのサービスが無料で利用可能です。ぜひアーカイブサービスを利用して、自社のWebサイト運営などに活用してみましょう。