HOME > COLUMN > OReL > July 1, 1991

OReL - July 1, 1991

メタデータを利用した学術的WWWディレクトリの構築

July 1, 1991 [ OReL ] このエントリーをはてなブックマークに追加

メタデータを利用した学術的WWWディレクトリの構築

上村 圭介
国際大学グローバル・コミュニケーション・センター


0. はじめに
国際大学グローバル・コミュニケーション・センターは,WWWリソースのインターネット・ディレクトリであるOReL(Online Resource Locator)をWWW上で構築・運用している 1) 2)。このディレクトリは,学術目的の論文などのWWW上に散在するリソースを見つけ出し,そのリソースについての書誌情報データ(メタデータ)をデータベース化し,ホームページ上から検索することができるようにしたサービスである。本稿は,このOReLの構築の経緯をメタデータとの関連から紹介するとともに,構築の際に留意した点について検討する。
1. OReLの経緯および目的
OReLプロジェクトは,国際大学グローバル・コミュニケーション・センター(略称グローコム)InfoJapanプロジェクトとして1994年度に開始され,「日本からの良質な情報発信を行なう」ことを目的とした(このプロジェクトは,株式会社アスキーからの研究協力によって実現した)。プロジェクト開始当時は,社会科学系の研究機関でインターネットアクセスを有するところが少なかったこともあり,InfoJapanにおける「日本からの情報発信」は,情報発信を「代行する」という側面が強かった。インターネットが普及するにつれ,情報発信の代行という目的の意味は弱まり,1997年にはこの方針を転換した。つまり,情報発信の代行ではなく,発信された情報の「選択」を行なうことによってインターネット・ユーザに対し日本からの良質な情報へのアクセスを提供するという方向を目指すことになった。

インターネットはこの数年のうちに急速に一般に普及し,研究者個人の情報発信の手段としても利用されるようになってきた。研究者が個人で開設するホームページには,論文などの文献リソースが掲載されていることが珍しくない。WWWは一般的なユーザにとっても,研究業績を公開するための代替手段の一つとなりつつある。しかし,既に広く認識されているとおり,WWWから適切に情報を検索することは難しい。これは一つには,インターネットが多くのコンテンツが相乗りするメディアであって,目的に必要な情報だけを区別して取り出すことが困難であることによる。雑多な情報が相乗りすることで,情報の意外な新しい結合が発見されることもあるが,ある領域の情報だけを入手したい場合には逆に弱点となる。

この弱点を部分的にせよ克服するために,国際大学グローバル・コミュニケーション・センターでは,WWW上で公開されている学術文献のうち,人文・社会科学の分野の学術文献を対象にしたディレクトリを作成し,登録文献の検索ができるサービスを行なっている。OReLと呼ばれるこのサービスは,WWW上で提供されている。文献リソースのディレクトリ検索サービスを提供することで,WWWによる学術情報提供の可能性を拡大し,インターネットの発展に寄与することが,OReLプロジェクトの最終的な目標である。

インターネット上の学術文献検索サービスとしては,学術情報センターなど図書館系の目録サービスやディレクトリ・サービスが広く用いられている。このようなサービスとOReLとは,インターネット上でディレクトリサービスを提供するという点では共通するが,サービスの対象とするリソースが異なる。図書館系のサービスがインターネット上に提供するのは,出版メディアで公表された雑誌や図書の目録であるのに対して,OReLが対象にするのはWWW上で公表された文献リソースのディレクトリである。そのため,両者は,対象範囲とする情報空間が異なるが,相補的な関係にある。

2. OReLのデータベース構成
OReLでは,文献リソースの著者名,題目,URLなどのメタデータだけをデータベースに登録しており,文献リソースそのものは収録しない。インターネット上で文献リソースを集積するサイトもあるが(BibEcなど),OReLは,あくまでも情報源へのアクセスをワン・ストップで提供するためのサービスである。OReLに登録された文献リソースの本文を入手するためには,URLによってアクセスすることができる。

OReLによるメタデータ付けは,1997年11月の時点でのDublin Coreのスキーマ 3) を参考にして行なわれている。OReLの目的は,オンライン文献リソースを実際に収集し,ディレクトリとして提供することであったため,メタデータのためのスキーマはできるだけ汎用性のある既存のものを採用する必要があった。Dublin Coreは,ネットワークオブジェクト,特に文書型オブジェクトの属性記述のために提案された一般的な属性項目群であり,OReLの趣旨からも利用しやすいものであったことがDublin Coreを採用した理由の一つである。

Dublin Coreでは,次の15のフィールドが提案されている。

  • 題目(title)
  • 著者または作成者(creator)
  • 主題またはキーワード(subject)
  • 概要(description)
  • 発行者(publisher)
  • 他の関係者(contributor)
  • 日付(date)
  • リソースの種別(type)
  • 形式(format)
  • リソースの識別子(identifier)
  • 出典(source)
  • 言語(language)
  • 関係(relation)
  • 範囲(coverage)
  • 権利処理(rights)
Dublin Coreは,ネットワークで提供されるリソース記述のスキーマを必要十分な形で提示したものではない。高度な知識と経験を積んだ専門家によるカタログ化の利点,リソース提供者が自由にリソースを公開できるインターネットの利点の両方をふまえつつ,専門家でないリソース提供者であってもメタデータを提供しやすい程度にまで簡略化されたスキーマである。Dublin Coreの15のフィールドはメタデータ記述における最小限のフィールドを示すものであって,必要に応じたフィールドを追加することが可能である。

OReLのメタデータは,基本的にはDublin Coreで提案されているフィールドに基づいている。次に,OReLに登録されているメタデータの項目を示す。かっこ内は対応するDublin Coreのフィールドである。現時点では,関係(relation),範囲(coverage),権利処理(rights)の三つのフィールドは未使用である。

名称(DC.Title)
文献リソースの名称。日本語および英語。
著者(DC.Creator)
文献リソースの著者。複数存在する場合には,複数を列挙。日本語および英語。
翻訳者(DC.Contributor)
文献リソースを翻訳した人物。複数存在する場合には,複数を列挙。
記述言語(DC.Language)
文献リソースが記述された言語。翻訳リソースの場合には,翻訳版で用いられている言語。
研究領域(DC.Subject)
OReLでのリソースの大分類のために使用する。このフィールドは,必ずしも伝統的な学問分類には従っておらず,OReLで独自に割り当てられる。
主題(DC.Subject)
その文献リソースが扱うテーマのためのフィールド。このフィールドは,社会科学であれば,Social Sciences Indexなど,その文献リソースが関係する分野における標準的な語彙を用いて記述している。
キーワード(DC.Subject)
そのリソース中の主要な語句または概念。
概要(DC.Description)
文献リソースの要約または概要。
URL(DC.Identifier)
インターネット上の一意識別子であるURLのためのフィールド。
種別(DC.Type)
その文献の種類を表すためのフィールド。単独の文書,電子ジャーナル,報告書のオンライン版の別などがこのフィールドを用いて表される。
データ形式(DC.Format)
オンライン化に用いられたデータ形式。主要な形式は,HTML,PDF,Plain Textなど。
公開年月日(DC.Date)
そのリソースが公開された年月日。
出典(DC.Source)
そのリソースが最初に公開された出版メディア(該当するものがある場合)。また,リソースの内容に直接関わるメタデータではないが,データの新規登録や更新などのOReLの管理用に次のフィールドを設けている。
登録番号
各登録リソースに対して自動的に与えられる一意の番号。
登録年月日
リソースの登録を行なった年月日。
登録者名
リソースの登録を行なった人物の氏名(WWW上の登録フォームを使用して,インターネット上から登録した場合)。
登録者電子メール・アドレス
リソースの登録を行なった人物の電子メール・アドレス。
公開フラグ
リソースを公開/非公開にするためのフィールド。
消滅フラグ
リソースが消滅した場合に使用するフィールド。
OReLでは,ホームページ上でOReL管理者以外のユーザからのリソース登録を受け付けている。登録者名・登録者電子メールのフィールドは,この場合に使用され,リソースの登録を行なったユーザの氏名および電子メールを入力する。公開フラグは,登録リソースを公開するか否かを指定するための項目である。外部から登録があった場合も,自動的にすべてのリソースがOReLの登録リソースとしてホームページ上で公開されるのではなく,運営側が,誤記などがないことを確かめた上で公開されることになっている。また,登録段階ではアクセスできたリソースが,その後アクセスできなくなる場合がある。この場合,一旦,公開フラグを使用し,ディレクトリに表示されないようにする。長期間アクセスができなくなったリソースは,消滅したものとみなし,アクティブなデータベース項目からは除外する。消滅フラグはこのために使用する。
3. OReLのメタデータ参照モデル
OReLは,前述のとおり,登録リソースのメタデータだけをデータベース内に保持しており,本文のデータを保持していない。このため,リソースとメタデータは,常に別々の場所に位置していることになる。このような場合,リソースとメタデータの関係を示すため,参照によって両者を結び付けなければならない。参照には,データ本体からメタデータを参照する場合と,メタデータからデータ本体を参照する場合との二つの場合が考えられる。Warwick Frameworkでは,後者の参照モデルとして次の二つをあげている 4) 。
  • 外部参照モデル(externally-referenced metadata)
  • 内部参照モデル(internally-referenced metadata)
「内部参照モデル」とは,メタデータによって記述される情報が,データの著者または管理者によって作成され,データ本体の一部として含まれる場合のメタデータとデータ本体の関係を表したものである。HTMLのメタ要素<meta>を利用した場合や,図書の奥付けの書誌情報は内部参照メタデータである。

一方,外部参照モデルとは,メタデータが,データの著者または管理者とは無関係に作成され,データ本体とは独立して存在する場合のメタデータとデータ本体の関係を表したものである。OReLでは,メタデータから文献リソースに対して参照を行なっているため,メタデータ参照モデルは,外部参照モデルに相当する。

現在のWWWでは,遠隔メタデータをリソースと結び付けるための有効な仕組みは使われていない。例えば,現行のHTMLでは,リンク情報はアンカー要素<a>としてリンク元のリソースに埋め込まれている必要がある。将来的には,XMLのリンク機構(XLinkおよびXPointer)を利用し,遠隔メタデータの処理を一貫した方法が利用可能になると見込まれる。その場合,XMLのリンク機構を使って,リンク元のリソース,リンク先のリソース,リンク情報を別に管理することができるため,OReLのようなメタデータ・モデルに基づいたディレクトリ・サービスは,より柔軟にメタデータを提供することができるだろう。

4. OReLの管理
前述のとおり,OReLに登録されるすべてのリソースは,人手で探し出され,メタデータ記述とともにデータベースに登録される。OReLの管理者は,定期的にWWWを巡回しOReLの趣旨にかなう文献リソースを探し出し,OReLデータベースに登録するという極めてマニュアルな作業を行なっている。このような作業は一見非効率であるが,後述するとおり,検索エンジン型のディレクトリは,情報検索ノイズが高いだけでなく,文脈から導き出せないメタデータを取り出すことが難しい。OReLの理念である良質な情報へのアクセス提供を行なうためには,マニュアルの作業は,必要なプロセスである。
OReLは,登録するメタデータについて,文献リソースの所在に関する情報(「あるかないか」という情報)と,文献リソースの特徴に関する情報(「どこにどのようなものがあるか」という情報)の二つを理念的には区別している。

OReLに登録されていることで,WWWという情報空間に,その文献リソースが存在することが示される。逆に言えば,OReLに登録されているリソースは「必ず」文献リソースであることが保証されるということでもある。OReLの役割の一つは,雑多なコンテンツが相乗りするWWWの範囲を,文献リソースだけを含む情報空間に制限することである。そうすることで,ユーザは論文リソースの所在を探索するプロセスを省略することができる。

所在情報を提供することは,評価付けを提供する側面を同時にもつ。OReLに登録され,WWW上に存在することが示される文献リソースを選択してOReLへ登録することは,リソースを評価し所期の目的に合致するかどうか判断することである。リソースを評価することなくリソースを登録すれば,究極的にはWWW上の全ての文書がOReLに登録されることになり,結果として,情報空間を絞り込み,ワン・ストップで良質な情報へのアクセスを提供するという当初の目的が果たせなくなってしまうことにもなりかねない。リソースの評価付けは,このようにディレクトリ・サイトにとっては非常に大きな問題である。
このため,OReLではリソースの評価付けを独自には行なわず,外部の評価付けを言わば借用し,学会誌や専門書籍として出版された文献を対象にしている。こうすることで,評価に関わる部分を外部化および分散化し,OReLのデータの信頼性を高め,WWWリソースのメタデータの提供に特化することができる。

OReLに登録するメタデータには,コンテンツやコンテクストから導き出すことのできる内在的なメタデータと,コンテンツやコンテクストから導き出すことのできない外在的なメタデータがある。内在的なメタデータとは,題目,著者名,発表年月日などである。外在的メタデータとは,そのリソースに関する評価,格付け,分類などである。

内在的メタデータは,メタデータの登録作業を行なう上で,コンテンツの本体に表示された明示的なメタデータと,コンテンツの内部に直接は含まれていないが,そのリソースが作成された公開されたコンテクストによって含意される暗示的なメタデータに分けられる。例えば,あるURLにはリソースの題目が記載され,著者名が記載されていないとする。リソースの本体に著者名が記載されていなくても,関連するページ(多くの場合は,インデクスページ)を参照することで,著者名を知ることができる。この場合,著者名は含意された内在的メタデータである。現実的には,メタデータをこのように明確に区分することが難しい場合もあるが,理論的にはこのように分けられるだろう。この関係を図1に示す。

[図1]

WWW上の文献リソースには,メタデータが明示的に記されていない場合が多く,OReL構築で中心となる作業は,図1における暗示的内在メタデータを導きだす作業である。文献リソースのページ上に,必要なメタデータ項目が記載されていることも多いが,例えば,インデクスページに,著者名,論文名などのメタデータが記載されていても,論文リソース本体のページにはそれらの情報が示されていない場合がある。このような場合,記載されていない著者名,論文名などの情報は,明示的には記載されていないものの,文献リソースに内在し,コンテクストから判別することが可能である。OReLを作成する場合には,個々のリソース毎にこの暗示的に内在するメタデータを洗い出している。

インデクスのためのページとコンテンツのためのページは,識別子(URL)の観点からは互いに独立したエンティティであるため,これらは意味のある形で結び付けられていない。言うならば,偶然近接したURLを有しているだけである。コンテンツページに書かれていない著者名を,インデクスページから探し出す,という作業も頻繁に発生する。これも,あるリソースのコンテクストから導き出される暗示的なメタデータであると言えるだろう。自動インデクスでは,このような二つのページの関係まで推論して導き出すことはできないため,人手を使った作業が有効に機能する側面である。

ちなみに,これは,現在のHTML/HTTPのWWW環境がもつ制約でもある。この制約により,現在は複数のURLに分割されたオブジェクトの相互の関連性を外部的に示すことができない。XMLのリンク機構を用いると,メタデータと本体の場合と同様,このような独立したURLをもつ二つのエンティティの間のリンク情報だけを切り離して保持することができるため,インデクスページとコンテンツページの間の関係を記述することも可能になる。

また,全文検索型の検索サービスでは,リソースの中に生起する語句をもとにして,「論文」「電子雑誌」「統計資料」というような,リソースの種別による検索を行なうこともできない。これは,あるリソースが「論文」であるかどうかは,本文から推論することはできない外的なメタデータに属するからである。

5. 結論に代えて
OReLは,WWWサイトのYahoo!と同様,人手によってWWW上にある学術リソースを検索し,メタデータを与えてデータベースに登録している。OReLのような手動インデクス型のサービスは,データの登録に多くの人手を要するため,更新が頻繁に行なわれるWWW全体をインデクス化の対象とすることには向かない 5) 。WWWの全体からまんべんなく検索を行なうのであれば,自動検索エンジンを使用した全文検索型のサービスのほうが有効である。

しかし,OReLが対象としている学術目的の文献リソースの場合,学術文献というリソースの性質上,一般的なWWWリソースと異なり,更新の頻度は比較的低い。OReLを運営している間,URLが移動したリソースは若干みられたものの,細かな修正を除き,内容が大幅に更新されている文献リソースは見当たらなかった。このようなリソースの性質のため,OReLでは,人手によるデータベースの管理を行なっているものの,WWWの頻繁な更新に対応できないという問題点を結果的に回避している。

以上,WWW上の文献リソース検索サービスであるOReLについて紹介した。OReLは,汎用性のある形でメタデータを記述してはいるが,現時点では他の類似のサービスとの相互運用を実現しているわけではない。これは,今後解決していくべき課題である。その場合,OReLは,他のデータベースを集約するサービスとしてではなく,将来的にはこれらのサービスを統合するメタサービスの一つのコンポーネントとして位置付けたいと考えている。

参考文献
  1. Online Resource Locator(OReL) http://www.glocom.ac.jp/arc/orel/
  2. 山内 康英・上村 圭介. WWW上の学術文献のための検索サービス構築. 画像電子学会第9回メディア統合技術研究会(1997)
  3. Dublin Core Metadata Element Set: Reference Description. 1997. http://purl.org/metadata/dublin_core_elements/
  4. C. Lagoze, C. A. Lynch, and R. Daniel, Jr. "The Warwick Framework:", A Container Architecture for Aggregating Sets of Metadata. 1996(日本語訳 http://www.y-adagio.com/public/reports/oedc/1997/clsa.htm)
  5. 杉本 重雄. ディジタル図書館に関する最近の話題から. ディジタル図書館. Vol. 10, No. 782(1997)


Keisuke Kamimura
kmmr@glocom.ac.jp