HOME > COLUMN > OReL > July 1, 1991
OReL - July 1, 1991
メタデータを利用した学術的WWWディレクトリの構築
July 1, 1991 [ OReL ]
ツイート
インターネットはこの数年のうちに急速に一般に普及し,研究者個人の情報発信の手段としても利用されるようになってきた。研究者が個人で開設するホームページには,論文などの文献リソースが掲載されていることが珍しくない。WWWは一般的なユーザにとっても,研究業績を公開するための代替手段の一つとなりつつある。しかし,既に広く認識されているとおり,WWWから適切に情報を検索することは難しい。これは一つには,インターネットが多くのコンテンツが相乗りするメディアであって,目的に必要な情報だけを区別して取り出すことが困難であることによる。雑多な情報が相乗りすることで,情報の意外な新しい結合が発見されることもあるが,ある領域の情報だけを入手したい場合には逆に弱点となる。
この弱点を部分的にせよ克服するために,国際大学グローバル・コミュニケーション・センターでは,WWW上で公開されている学術文献のうち,人文・社会科学の分野の学術文献を対象にしたディレクトリを作成し,登録文献の検索ができるサービスを行なっている。OReLと呼ばれるこのサービスは,WWW上で提供されている。文献リソースのディレクトリ検索サービスを提供することで,WWWによる学術情報提供の可能性を拡大し,インターネットの発展に寄与することが,OReLプロジェクトの最終的な目標である。
インターネット上の学術文献検索サービスとしては,学術情報センターなど図書館系の目録サービスやディレクトリ・サービスが広く用いられている。このようなサービスとOReLとは,インターネット上でディレクトリサービスを提供するという点では共通するが,サービスの対象とするリソースが異なる。図書館系のサービスがインターネット上に提供するのは,出版メディアで公表された雑誌や図書の目録であるのに対して,OReLが対象にするのはWWW上で公表された文献リソースのディレクトリである。そのため,両者は,対象範囲とする情報空間が異なるが,相補的な関係にある。
OReLによるメタデータ付けは,1997年11月の時点でのDublin Coreのスキーマ 3) を参考にして行なわれている。OReLの目的は,オンライン文献リソースを実際に収集し,ディレクトリとして提供することであったため,メタデータのためのスキーマはできるだけ汎用性のある既存のものを採用する必要があった。Dublin Coreは,ネットワークオブジェクト,特に文書型オブジェクトの属性記述のために提案された一般的な属性項目群であり,OReLの趣旨からも利用しやすいものであったことがDublin Coreを採用した理由の一つである。
Dublin Coreでは,次の15のフィールドが提案されている。
OReLのメタデータは,基本的にはDublin Coreで提案されているフィールドに基づいている。次に,OReLに登録されているメタデータの項目を示す。かっこ内は対応するDublin Coreのフィールドである。現時点では,関係(relation),範囲(coverage),権利処理(rights)の三つのフィールドは未使用である。
一方,外部参照モデルとは,メタデータが,データの著者または管理者とは無関係に作成され,データ本体とは独立して存在する場合のメタデータとデータ本体の関係を表したものである。OReLでは,メタデータから文献リソースに対して参照を行なっているため,メタデータ参照モデルは,外部参照モデルに相当する。
現在のWWWでは,遠隔メタデータをリソースと結び付けるための有効な仕組みは使われていない。例えば,現行のHTMLでは,リンク情報はアンカー要素<a>としてリンク元のリソースに埋め込まれている必要がある。将来的には,XMLのリンク機構(XLinkおよびXPointer)を利用し,遠隔メタデータの処理を一貫した方法が利用可能になると見込まれる。その場合,XMLのリンク機構を使って,リンク元のリソース,リンク先のリソース,リンク情報を別に管理することができるため,OReLのようなメタデータ・モデルに基づいたディレクトリ・サービスは,より柔軟にメタデータを提供することができるだろう。
OReLに登録されていることで,WWWという情報空間に,その文献リソースが存在することが示される。逆に言えば,OReLに登録されているリソースは「必ず」文献リソースであることが保証されるということでもある。OReLの役割の一つは,雑多なコンテンツが相乗りするWWWの範囲を,文献リソースだけを含む情報空間に制限することである。そうすることで,ユーザは論文リソースの所在を探索するプロセスを省略することができる。
所在情報を提供することは,評価付けを提供する側面を同時にもつ。OReLに登録され,WWW上に存在することが示される文献リソースを選択してOReLへ登録することは,リソースを評価し所期の目的に合致するかどうか判断することである。リソースを評価することなくリソースを登録すれば,究極的にはWWW上の全ての文書がOReLに登録されることになり,結果として,情報空間を絞り込み,ワン・ストップで良質な情報へのアクセスを提供するという当初の目的が果たせなくなってしまうことにもなりかねない。リソースの評価付けは,このようにディレクトリ・サイトにとっては非常に大きな問題である。
このため,OReLではリソースの評価付けを独自には行なわず,外部の評価付けを言わば借用し,学会誌や専門書籍として出版された文献を対象にしている。こうすることで,評価に関わる部分を外部化および分散化し,OReLのデータの信頼性を高め,WWWリソースのメタデータの提供に特化することができる。
OReLに登録するメタデータには,コンテンツやコンテクストから導き出すことのできる内在的なメタデータと,コンテンツやコンテクストから導き出すことのできない外在的なメタデータがある。内在的なメタデータとは,題目,著者名,発表年月日などである。外在的メタデータとは,そのリソースに関する評価,格付け,分類などである。
内在的メタデータは,メタデータの登録作業を行なう上で,コンテンツの本体に表示された明示的なメタデータと,コンテンツの内部に直接は含まれていないが,そのリソースが作成された公開されたコンテクストによって含意される暗示的なメタデータに分けられる。例えば,あるURLにはリソースの題目が記載され,著者名が記載されていないとする。リソースの本体に著者名が記載されていなくても,関連するページ(多くの場合は,インデクスページ)を参照することで,著者名を知ることができる。この場合,著者名は含意された内在的メタデータである。現実的には,メタデータをこのように明確に区分することが難しい場合もあるが,理論的にはこのように分けられるだろう。この関係を図1に示す。
[図1]
WWW上の文献リソースには,メタデータが明示的に記されていない場合が多く,OReL構築で中心となる作業は,図1における暗示的内在メタデータを導きだす作業である。文献リソースのページ上に,必要なメタデータ項目が記載されていることも多いが,例えば,インデクスページに,著者名,論文名などのメタデータが記載されていても,論文リソース本体のページにはそれらの情報が示されていない場合がある。このような場合,記載されていない著者名,論文名などの情報は,明示的には記載されていないものの,文献リソースに内在し,コンテクストから判別することが可能である。OReLを作成する場合には,個々のリソース毎にこの暗示的に内在するメタデータを洗い出している。
インデクスのためのページとコンテンツのためのページは,識別子(URL)の観点からは互いに独立したエンティティであるため,これらは意味のある形で結び付けられていない。言うならば,偶然近接したURLを有しているだけである。コンテンツページに書かれていない著者名を,インデクスページから探し出す,という作業も頻繁に発生する。これも,あるリソースのコンテクストから導き出される暗示的なメタデータであると言えるだろう。自動インデクスでは,このような二つのページの関係まで推論して導き出すことはできないため,人手を使った作業が有効に機能する側面である。
ちなみに,これは,現在のHTML/HTTPのWWW環境がもつ制約でもある。この制約により,現在は複数のURLに分割されたオブジェクトの相互の関連性を外部的に示すことができない。XMLのリンク機構を用いると,メタデータと本体の場合と同様,このような独立したURLをもつ二つのエンティティの間のリンク情報だけを切り離して保持することができるため,インデクスページとコンテンツページの間の関係を記述することも可能になる。
また,全文検索型の検索サービスでは,リソースの中に生起する語句をもとにして,「論文」「電子雑誌」「統計資料」というような,リソースの種別による検索を行なうこともできない。これは,あるリソースが「論文」であるかどうかは,本文から推論することはできない外的なメタデータに属するからである。
しかし,OReLが対象としている学術目的の文献リソースの場合,学術文献というリソースの性質上,一般的なWWWリソースと異なり,更新の頻度は比較的低い。OReLを運営している間,URLが移動したリソースは若干みられたものの,細かな修正を除き,内容が大幅に更新されている文献リソースは見当たらなかった。このようなリソースの性質のため,OReLでは,人手によるデータベースの管理を行なっているものの,WWWの頻繁な更新に対応できないという問題点を結果的に回避している。
以上,WWW上の文献リソース検索サービスであるOReLについて紹介した。OReLは,汎用性のある形でメタデータを記述してはいるが,現時点では他の類似のサービスとの相互運用を実現しているわけではない。これは,今後解決していくべき課題である。その場合,OReLは,他のデータベースを集約するサービスとしてではなく,将来的にはこれらのサービスを統合するメタサービスの一つのコンポーネントとして位置付けたいと考えている。