HOME > COLUMN > OReL > July 1, 1991
OReL - July 1, 1991
WWW上の学術文献のための検索サービス構築
July 1, 1991 [ OReL ]
ツイート
国際大学グローバル・コミュニケーション・センター(GLOCOM)は、1997年度の活動プロジェクトの一つとして、WWW上で公開されている社会科学系の学術文献を中心にしたディレクトリを作成している。本稿では、現在、作成中のこのディレクトリについて、開発経緯、コンセプト、現状などについて報告する。
国際大学グローバル・コミュニケーション・センター(GLOCOM)は、1994年度から、日本からの良質な情報発信を促進するという目的の下に、Inforumプロジェクトを進めてきた。このプロジェクトは、GLOCOMが自らの研究成果などのリソースをインターネットを通じて積極的に公開するという側面と、インターネットアクセスを持たない研究者、研究機関のリソース公開を代行するという側面の二つを持っていた。しかしながら、インターネットの普及に伴ない、GLOCOMが情報発信を代行することの社会的意義は相対的に低下している。そこで、GLOCOMのプロジェクトとしては、リソース公開そのものの支援をすることで、日本からの情報提供を行なうのではなく、インターネット上で公開されているリソースの再編集を行ない、そのメタ情報を提供するという方向へ転換することとなった。このような状況の変化を受け、1997年度の活動プロジェクトの一つであるJapan ARC (Academic Resource Channel)の一環として、WWW上で公開されている社会科学系の学術文献を中心にしたディレクトリを作成している。
Japan ARCの学術WWWディレクトリ構築プロジェクトは、データベースそのものの研究ではなく、既存の技術を応用して、どのようなことが可能であるのかを研究するものと位置付けられる。つまり、実験や実証ではなく、一般的な技術を利用して実用段階のディレクトリを作成することが目的である。 この学術WWWディレクトリは、大きく分けて次の二つの目的の下に行なわれている。
一つめの目的は、現在、WWWで公開されている学術論文を収集し、データベース化することで、WWWの学術情報流通インフラとしての機能を充実させようというものである。二つめの目的は、既に存在する学術雑誌や書籍と同等の信頼性をもってWWWが用いられるような、オールタナティブな学術コミュニケーションの環境作りに貢献することである。
学術機関や研究者にとって、インターネットは、コミュニケーションの道具として大きな役割を果たすようになっている。同時に、コミュニケーション以外の目的での利用も一般化し、既に多くの研究機関では、報告書や論文がインターネットを通じて公開されている。しかし、それらは、既に紙媒体によって出版された一次文献の複製であることが多い。敢えて言えば、この意味で、実際の研究活動を発表するための場としては、いまだ発展段階にある。インターネットを通じて複製された文献が公開されることは、それ自体有効な活動であるが、この段階にとどまっていては、インターネットは紙の補助的なメディアであり、その潜在的な力を十分に発揮していない。GLOCOMの学術WWWディレクトリ構築は、インターネットの可能性をさらに引き出そうとする試みである。
よく指摘されているように、日本の学問領域では、インデクスや書誌作成などのメタ情報の管理が十分ではない。また、このような試みも評価されにくい傾向がある。この点からも、積極的にWWW上のリソースのメタ情報管理を進める必要があるであろう。英語圏のWWWリソースについては、次節で述べるようなプロジェクトが既に大きな成果を収めており、GLOCOMのディレクトリもこれらを参考として進めていく。
インターネット上のディレクトリ・検索サービスは、特定領域のリソースを対象とするか(例えば我々の例のように社会科学情報に特化したもの)、一般的なリソースを対象とするか(Yahoo、Lycos、AltaVista)で大きく二つに分けられる。学術情報に関するインターネット上の特定範囲の英語リソースのディレクトリあるいはメタ情報に関するサイトのとして、次のようなものがある。
Virtual Libraryは、オンラインリソースのメタインデクスを、世界各地のWWWサイトが協力して分散的に作成している試みである。ここから入手できる情報は、リソースのメタインデクス(インデクスのインデクス)であることが多い。SOSIGは、イギリスの研究機関が中心となって編成されているプロジェクトであり、インターネット上の社会科学に関するリソースの情報を収集・提供している。Argus Clearinghouseは、リソースの収集が人文・社会科学系の広い範囲にわたっていること、および運営形態が研究機関主体でない(Argus Inc.)ところが異なるが、SOSIGとほぼ同様のサービスを提供している。
WWWのメタ情報ディレクトリを作成する方法としては、現在、次のようなものが主流である。
サーチャー方式は、サーチャーと呼ばれる専門家がWWWのリソースを一つ一つ閲覧し、ディレクトリに登録していくものである。そのリソースの概要やキーワードは、その過程で作成される。Yahooがこのグループでは代表的である。検索ロボット方式は、ロボットを使用し、WWWの中をそのロボットが検索していくものである。Lycos、AltaVista、Infoseekといったサービスが代表的である。WWWアーカイブ方式とは、世界のWWWの全体を一つのアーカイブとしてそのまま保存しようとするものである。このような意欲的な試みとして、Internet Archiveが挙げられる。
学術情報に特化したメタ情報サイトとして上に挙げた三つのサイトは、我々のJapan ARCと同じく、この分類によればサーチャー方式に属する。これらのディレクトリでは、原則としてリソースは全て人手によって収集され、分類されている。特定分野のWWWでは、内容の詳細に立ち入った分類が必要なこと、WWW全体の中から選択的に比較的少数のサイトを探し出す必要があることなどから、サーチャー方式が当面は適当である、というのが我々の結論である。
GLOCOMでは、現在、所内ネットワークを、インターネット系の基幹部分にUNIX、クライアント系にMacintoshを使用したネットワーク構成から、Microsoft Windows NT Server 4.0およびWorkstation 4.0を使用した新しい構成に移行中である。同時に今までUNIXで運用していたWWWホストもWindows NT Serverで動作するInternet Information Server (IIS) 3.0に変更する。本検索サービスは、IISから提供されるWWWページをインタフェースとし、データベースに登録されたリソース情報を提供するものである。リソース情報データベース自体は、Microsoft Access上で作成し、それをWindows NT Serverの標準コンポーネントであるODBCアーキテクチャによってWWW上に提供している。Windows NTの導入により、このようなネットワーク構成を比較的少数の人員で構築し、運営することができるようになったのは、画期的なことである。
データベースは、Microsoft Accessで作成しているが、WWWへ公開するためのディレクトリを作成するのが目的であるため、Access固有の機能は使用していない。WWWとのやり取りは、全てSQL文を利用して記述できる範囲のものにとどめている。したがって、SQL Serverなどへの移行も可能である。 ディレクトリデータベースの各レコードには、所内利用者からのアンケートなどに基づき、次の項目を登録することにした。
この検索サービスは、現在http://www.glocom.ac.jp/arc/orl/index.htmlから利用することができる。
検索の機能自体は極めてシンプルである。利用者は、リソースディレクトリを大分類から一覧するか、ディレクトリを語句によって検索するかのどちらかを選択することができる。検索の語句は、キーワード、著者名、サブジェクト、要旨のどの項目について検索を行なうか選択することができる。また、リソースの種別(文書、電子雑誌、統計資料、WWWサイト)によって検索結果をしぼり込めるようになっている。
既述のように、本サービス構築での中核となるのは、メタ文書情報をいかにして付与するのかという点である。本サービスでは、検索ロボットによらず、人の手によってメタ情報を付与している。
インターネット上で現在、公開されている学術リソースは、一次文献を複製したものであっても、オンライン化されたリソースの本文中に、書誌情報が一定の慣例によって記述されているとは限らない。著者、題目、キーワードなどは、記述されていたとしても、記述のための慣例が定まっているわけではなく、恣意的に行なわれている。 HTMLでは、タグなどの文書のメタ情報を記述するための仕組みも準備されているが、同じような理由から充分には活用されていない。著者や編者の自発的なメタ情報付けには限界があり、少なくとも、現状では、HTMLのタグの利用状況などを考慮すると、自発的なメタ情報付与に期待することは難しい。
ロボットによってインデクスやディレクトリを作成することは、形式的な構造から文書の特徴を抽出することだと言える。これに対して、人手によるインデクシングは、形式的構造に加えて、セマンティクスから文書の特徴を抽出することができる。このディレクトリでは、個々のリソースの種類もデータベースの項目として提供しているが、個別の論文や、電子雑誌中の文献というような情報は、文書のセマンテクスや解釈から導き出される性格のもので、文書の構造に基づいて抽出されるものではない。自動的インデクシングと手動のインデクシングの違いは、解釈のレベルにまで関わるものであって、単に労力や速度についての差異ではない。Japan ARCが目指している検索サービスでは、サーチャーによる作業が極めて重要な部分を成している。
Japan ARCでは、オールタナティブな学術「出版」メディアとしてのWWWの発展に寄与しようという方針を保つために、収集するリソースは主としてWWW上で公開される一次資料を選んでいる。つまり収集の対象となるのは、主としてオンライン化された報告書、論文、統計資料であり、加えて、これらの複合体としての電子雑誌、電子化書籍である。
論文や書籍の要約や、単なる組織紹介にすぎないウェブページは収集の対象とならない。個々のリソースでなく、サイトの情報をデータベースに登録する方法は採っていない。この方法では、そのサイトの内部にどのような文書があるのかを正確に把握することはできないからである。
Japan ARCディレクトリで収集するリソースの領域は、主として社会科学の研究全体と関わりのあるものであるが、その中でもGLOCOMの研究活動領域と深く関わるリソースは特に優先して収集している。
WWW上で公開される「リソース」には、入門的な文書から高度に専門的な論文まで、様々なものが含まれる。Japan ARCのリソースディレクトリの収集の対象となるのは、大学レベル以上の教育・研究にとって価値のあるものである。
WWW上のリソースをどのように評価するかという問題は、我々の試みにおいて最大の課題である。先に例として揚げたSOSIGの場合、validity、authority and reputation、substantiveness、accuracy、comprehensiveness、uniqueness、composition and organizationという基準から、リソースの内容について評価を加えている。Japan ARCでも同様な視点からリソースを選択している。
各リソースのメタ情報の検索・収集については、ジャンプスタートを切るために、現在は、GLOCOMが率先して行なっている。著者本人や第三者に協力を求めて、リソースに関する情報を提供してもらうという方法は、サービス運用が一般に認知されてからなら有効であっても、サービス開始初期の段階では有効でないという判断によるものである。
Japan ARCの検索サービス構築は、現在、その第一段階にある。この段階では、インターネット上の日本語の学術リソースの洗い出し作業が中心となり、当面の目標を1万サイトの分類においている。この意味で、Japan ARCの検索サービス構築の試みは、極めて地味な作業の積み重ねになるが、これは、WWW上のリソースの基礎的な情報を提供しようとするものである以上、避けられないことである。
今後、取り組むべき課題として、以下の諸点を検討中である。第一点は、ロボットによる自動メンテナンスである。リソースの選択、キーワード付け、分類・登録といった作業に関しては、検索ロボットの使用について消極的であるが、URL移動やリソース更新を追跡するという作業については、ロボットを利用してメンテナンスを自動化または半自動化することを検討したい。第二に、Cookieなどの仕組みを利用して、ユーザ各人が自分用にカスタマイズされたインデクスを作成できる仕組みを検討中である。第三は、国外での日本語利用を考えた多言語環境の整備である。
WWWは日々、発展するものであり、我々の基準に合致するリソースの包括的なディレクトリを作成することは定義的に不可能である。また、我々のリソースディレクトリ作成の試みは、中立的ではない。つまり、ある一つの解釈によるディレクトリとならざるを得ないのである。しかしながら、このような特定の価値基準から行なわれる分類作業が、一つの価値である、とも考えられるのであり、我々と同様のディレクトリ作成が複数行なわれれば、利用者は「特定の価値基準間の選択」を行なうことによって便宜を得ることができるであろう。
* なお、本プロジェクトの資金的支援を株式会社アスキーより頂いている。アスキーの西和彦社長に付記して御礼申し上げたい。