栄研スタッフによる解説論文集

ホームへ戻る
栄養学研究におけるWWWの有用性について

廣田 晃一 (国立健康・栄養研究所 健康栄養情報・教育研究部)


はじめに

バベルの塔が崩れたかのような情報の混乱が起こっている。ワールド・ワイド・ウェッブの開発はインターネット上における爆発的な情報量の増加をもたらしたが、そのためにかえって望んだ情報が見つけ出せないという弊害ももたらした。実際WWW上には、種々のレベルの情報が混在しており、科学情報に限ってみても、NatureやScienceといった専門研究者向けの科学雑誌から、まったくの啓蒙記事までが同じ土俵の上に載っている。しかもそれらはあらゆる国の言葉で書かれているのである(検索サービスは言語ごとに分かれているので通常これを意識することはあまりないが、試みに外国の検索サービスを利用してみてほしい)。

WWWを有効に活用することは、栄養学研究者にとってはかりしれない利点をもたらしてくれるものと思われるが、現時点では多くの問題があることもまた事実である。本稿では、これらの問題点を明らかにし、今後の改善策について考察する。


WWWの仕組みと検索サービスの問題点

WWWに載っている索引化可能な情報の総量は現在既に8億ページ、テラバイト(約64億字)にも達すると試算されている1)。しかし、最大の検索エンジンでもその16%が検索可能になっているに過ぎないとも言われ、その全貌を見極めるのは容易ではない。

当初、WWWはネットワーク上の新技術に過ぎなかったが、既存のメディアがこぞってこの未開拓の技術に飛びついた結果、極めて多数の情報が氾濫することになった。現在もなお混乱は続いており、それは少しも収拾の方向へ向かっていない。

この混乱の一因は、WWWが一部の専門家に独占されない極めて容易な記述言語(Hyper Text Markup Language、HTML)2)を持っていたことである。当初、HTMLは簡単な見出しを付けたり、画像を載せたりすることしかできず、表組みさえも困難な極めてプリミティブな言語であったが、このことが幸いして、いままでワープロしか触ったことのなかったコンピュータ初心者にも容易に扱うことができた。このことに加えて、それまでの類似のプロトコル(ネットワーク上の情報通信につかう約束事をまとめたもの。WWWはhypertext transfer protocol、http、を用いて実際の通信が行われる)では許容していなかった個人のディレクトリ(サーバ上の登録された個人が自由にファイルを置けるハード・ディスク上のスペース)への直接の無名アクセス(パスワードが不要)が可能になる仕組みを組み込むことによって、事実上ネットワークに繋がれたコンピュータにアクセス権を持つ全ての個人から不特定多数への情報発信の可能性が開かれた(図1)。

このような自由度の高さからくる情報の混乱は当初から予想されており、早くから学術文献における抄録誌(2次文献誌)の役割を持つYahooのようなディレクトリ・サービス(どこにどのような情報があるかを人手で整理して提供するもの)が人気を集めていた。また、現在の検索サイトの主流である、自動化プログラム(ロボット)によるWWW上の情報の自動収集・索引化も行われるようになった。

WWWはもともとリンクの形で文書間の相互参照を行うための仕組みであったことから、Yahooのようなディレクトリ・サービスは理にかなったものであり、特定の主題に限ったものなら、個人レベルからもっと組織的なものまで、ひょっとすると1次情報と同じくらい提供されたが、WWW上の情報が印刷物のように残る情報ではないために不断のアップデートが必要であり、また情報の選別が必要であるため、爆発的に増加する情報量に対処しきれずに今にいたっている。

これに対して、ロボットを用いて情報収集を行う検索エンジンは、情報に含まれる単語を主として索引化して提供するため、コンピュータに対する一定の素養と、コンピュータ・パワーそのものが必要で、ディレクトリ・サービスのように気軽にだれもが提供できるものではなかったが、なによりも爆発的に増加する情報量に対処可能であったため、現在もWWW上の情報検索の主流を占めている。

しかし、上述のように、検索ロボットによる情報収集も既に限界に達しており、しかも、索引化された情報には全く無意味に思える重複やアクセスできなくなっているリンクなどディレクトリ・サービス以上に無駄が多い。

WWWの基盤となっているインターネット上のコンピュータは固有のアドレスを必要とし、その数にも上限(43億台に少し欠ける。WWWサーバの実数は現実にはもっとずっと少ない)があることから、その全てを自動的に検索・索引化する検索ロボットと実際の検索を行う検索エンジンを運用することは理論上不可能ではない。しかし、現実にはこれを運用するためのコンピュータの能力と検索サービス会社の資本力に限界がある。

またたとえそれが現在可能であったとしても、検索ロボットはWWWに含まれる多様なレベルのそれこそ玉石混交の情報を選り分ける「眼」をもっていないという問題がある。ある分野に不案内な個人が参考書を頼りに書いた文章と、専門研究者が何年にもわたって調査・実験を行った結果を記述した文章を同列に扱っても、あまり意味のあることとは思われないが、検索サービスは、これをWWW上の情報という意味で全く同列に扱う。研究者にとっての有用な情報は主として後者になるが、検索サービスでこれらを区別して検索することはできない。せいぜいできるのは大学の公的WWWサイトにあれば信頼性があり、民間のプロバイダのWWWサイトにあれば信頼性がないというような判断を下すようにすることだが、いうまでもなく、在野の個人がいつも信頼できない素人というわけではないのである。


検索サービスを用いた情報収集の検討

ところで、実際に検索サービスを用いた情報の検索は、それほど問題のあるものなのだろうか。「糖尿病」(diabetes、diabète)という単一のキーワードを用いて、既存の検索サービスによる検索を行ってみた。調査は、国立健康・栄養研究所のコンピュータを用いて平成10年4月から11月にかけて行った。

ホームページ(HP、または単にページ)と呼ばれる長さ不定のファイルの集合体がWWWを構成する主たる情報群である。コモン・ゲートウェイ・インターフェイス(CGI)と呼ばれるHP以外のデータを繋ぐプログラムも汎用されるが、CGIも(動的に生成する場合もあり、既存のファイルを選択する場合もあるが) かならずHPの形で結果を返すという意味では、単純化してHPの集合がWWWを構成すると考えても良いだろう。

HPの内容を主として栄養学研究者にとっての有用性によって分類すると以下のようになる。

  1. 学術雑誌の論文、手紙、ニュース等(およびその抄録、検索エンジン)
  2. 学術書籍(およびその抄録、検索エンジン)
  3. 雑誌、書籍以外の研究成果の公表(学会発表等の再録も含む、およびその抄録)
  4. WHO、厚生省、学会等関連団体の発表等
  5. 新聞、一般雑誌の科学記事(啓蒙記事を含まない)
  6. 解説、啓蒙的な文章(新聞、一般雑誌記事を含む)
  7. その他(専門語辞典、関連機関リスト、関連研究者リスト等)

これらのうち、研究者にとっては、1-4の情報(専門情報)がまず重要であろう。また研究者が栄養学とその関連領域全てに精通していることは(期待はされていても)現実的ではないことから、5-7の情報(一般有用情報)も同様に重要である。ところが、既存の検索エンジンでは、この二つを有効に分けて検索する方法もそれ以外の情報から区別する方法も確立されていない。そこで、筆者は試みに検索結果のうち、実際にアクセス可能な全てのHPにアクセスし、1-7の情報の提供を行うHPのみを有用HPとして選別した。

日本国内の検索サービスは、調査の時点(平成10年11月20日)では31あり、検索結果を単純に足し合わせた総数は96,991件であった。ただし、これはサービス間の重複を考慮していないので、実数はもっとずっと少なくなると予想される。この検索結果からアクセス可能な全てのHPにアクセスし、134件を有用HPとして選別した。同様にアメリカ、イギリス、オーストラリア、フランスについても、各々の国内にある複数の検索サービスにアクセスして検索結果総数を算出したところ、アメリカ(17サービス、1,185,601件、うち有用HP248件)、イギリス(10サービス、4,256件、うち有用HP4件)、オーストラリア(9サービス、688,283件、うち有用HP35件)、フランス(17サービス、10,111件、うち有用HP62件)であった。

外国に検索サービスの総数(特にアメリカ)が少ないのはおそらく調査が十分でなかったためと思われるが、それでもアメリカと日本の検索結果総数の差は極めて大きい。おそらく、アメリカの検索サービスが英語で書かれたHP(日本、ヨーロッパを含む)全てを対象にすることが多いためとも思われるが、詳しい調査は行っていない。

今回対象にしたもののうちで、英語圏以外の国は日本とフランスだけであったが、ともにかなりの割合で有用HPが見つかった。結果には示さなかったが、ドイツ、スペイン、イタリアといった国々においても、既に日本と同様に各国語によるHPが一般的となっている。すぐ後で触れるように、実際有用HPといっても、1-4に属する専門性のある有用サイトは(国内では)極めて限られているので、英語圏の情報だけを(日本語に加えて)考慮していれば十分なのかもしれないが、例えば厚生省の発表資料がほとんど日本語だけで提供されている実状を考えると、各国の英語になって翻訳されない情報が全て無視して差し支えないものとも思われない(研究分野によって異なるだろう)。もちろんその言語を読めなければ意味をなさないが、各種の翻訳ソフトや翻訳サービスも一般化してきている現在、あるキーワードによって、各言語ごとに適切な訳語で検索が行われ、その結果が使用者の言語で返ってくるような検索サービスがおそらく今後数年間のうちに現れる可能性はある(実際Alta Vistaはこのような方向に進みつつあり、既にオンライン翻訳サービスを数ヶ国語について実現している。ただし検索は各国語ごとに行う必要がある)。

次に、日本国内の有用HPに限って、さらに内容の専門性(専門情報、一般有用情報)によって分類整理したところ、わずかに18件のみが、論文、学会発表予稿、学会発表スライド、厚生省の生活習慣病に関する意見具申全文というような専門研究者にとっても有用なHPであり、それ以外の大部分は、一般向けの平易な解説記事であった。そこで、18件の情報を実際に検索サービスによってどの程度検索できるのかを知るために、もう一度31の検索サービス全てについて、検索結果の3ページ目までにこの18件がどのくらいの割合で出現するかを調べたところ、3.3-10%という結果であった。検索サービスの検索結果はページあたり通常10-20件であり、従って30-60件の情報にアクセスして1-6件の専門性の高い有用HPが見つかるということであり、極めて効率が悪いと言わざるを得なかった。

栄養学研究者が「糖尿病」というキーワードを用いて検索を行うとき、期待するのは糖尿病(の予防や食事療法)に関係する新しい知見(1-5の情報)であって、糖尿病にも効き目のある紅茶きのこの値段や糖尿病患者の日常生活の記録であるとは考えにくい。糖尿病治療専門病院の住所でもないだろう。だが、現在の検索サービスではこうした情報が等しく検索結果として出てきてしまう。勿論それら全てに逐一アクセスしていけば、いつかは目指す情報に行き当たるかもしれないが、キーワードが「糖尿病」というような広く人口に膾炙した単語であればあるほど、何万、何十万という検索結果が返ってくることになる。現実にそれら全てにアクセスすることは検索エンジンの制限もあって(結果総数と実際にURLを教えてくれる結果の数は極端に異なることがあるので)不可能でもあり、また上に見たように実際にアクセスしても10件に1件しか有用情報がないのではまったく時間の無駄というものである。全てにアクセスできない情報はさらに絞込み検索を行うしかないが、内容の専門性というような観点に基づいた絞込みは難しく、一般的でない特定の専門用語の含まれるもの、という風にしか限定していけないが、これでは「糖尿病に関連する研究者にとって新しい知見」を一回の検索で探し出すことはできず、用いる専門用語に限定された情報ごとに個別に検索していくことになる(その後の検討で、「糖尿病」に「研究」あるいは「大学」という語句を組み合わせることでより専門性の高いHPを検索できることが明らかになったが、これらの語句を含まないHPは抜け落ちてしまう。また検索サービスには各々特徴がありひとくくりに論じることに問題がないわけでないことは付記しておく必要がある)。勿論、この方法ではその用語そのものを使用していない情報にはアクセスできず、検索エンジンに固有のワイルド・カード等を駆使して、できる限り取りこぼしのないようにするにしても、やはりかなりの情報を取りこぼしてしまう可能性が大である。

無料という点では検索サイトと同様のアメリカ国立医学図書館の文献検索システム(MEDLINE)では、単語そのものではなく、固有のキーワードの集合から複数の最適なものを個々の情報に付加することによって類義語による情報の取りこぼしを防ぐ仕組みがあり、またこのキーワード自体が階層的に組み立てられているので、より広範囲を包含する上位概念のキーワードを用いればより広い範囲の関連文献を、また下位概念のキーワードを用いることで、より限定された主題に関する文献のリストを得ることができる。これも実際には完全無欠とはいえないが、検索サイトよりははるかに容易にまた確実に目指す情報に到達できる(国内にも文献検索サービスが存在するが有料である)。

しかし、この方法をWWW上の8億ページの情報に適用するのは、経済的な問題や、はたしてそれだけの意味があるのか疑問であるということもあり、現実的ではない。

実際、WWW上には、種々のレベルの情報が混在しており、科学情報に限ってみても、NatureやScienceといった専門研究者向けの科学雑誌から、まったくの素人が他の素人のために書いた(それはそれで意味があり、そのことを否定するものではない)啓蒙記事までが同じ土俵の上に載っており、これら全てが同列に扱われること自体が最大の問題と思われるのである。その結果、上述のように有用HPに行き着くためには、ある種の技術が要求され(検索技術や各検索サービスの癖を理解すること等)、それなしには、極めて無駄な時間を費やしてしまうこともまれではない。そして、それらを習得したとしても、図書館で学術雑誌を何冊か読む以上の情報が見つけられるかどうかは疑わしいのである。


栄養学関係雑誌のサイト

とはいえ、上記の話は、一般の検索サービスを用いることを前提にしたものであった。前節の最後に触れた文献検索システムであるMEDLINEは、いくつかの無料のHPによって自由に検索が可能(PubMed、GratefulMed等)である3)。また、学術雑誌も次々にWWW上に公開されるようになっており、中には無料で論文全文や抄録がよめるようになっているものもある。従って、現在では図書館に学術雑誌を見に行くようにWWWを利用することも可能なのである。ただし、全ての学術雑誌がWWWで情報を公開しているわけではないことと、公開していても有料であるものが多いことから、図書館と全く同じというわけには行かないのだが。問題なのは、雑誌ごとの検索はできても、複数の雑誌にまたがる検索は、結局MEDLINEに収録されるのを待つしかないということである。現時点では旧来の(インターネットに依存しない)サービスに付随する商業的な面を無視することはできず、将来の改善を待つしかないのかもしれないが、インターネットへの依存性が高まりつつある現在、早急な改善が望まれるところである。

栄養学関連の学術雑誌のWWWでのサービスの現状については、少し古くなったが、Brownの報告4)がある。


将来の展望

WWWは現在も尚急速な発展を続けている。もうすぐテレビやラジオの番組がWWW上で見られるようになるだろう(CNNなどの一部は既に利用可能であるし、映画の予告編なども既に見ることができる)。立体空間のリアルな再現性に欠けるため彫刻や陶器などの立体物、あるいはにおいなど既存のコンピュータでの再現が不可能なもの以外は早晩全ての情報がWWW上に載ると考えても間違いないだろう。これは結局500年前に発明された印刷術の辿った道を拡大再生産しているようなものである。ということは、こうした情報の多くもまた古紙回収場に積まれたメートルいくらの紙くず(それらが全て本当に誰にとっても「くず」なのかどうかは古本業者のみぞ知る)同然になる可能性があるということである。だが、せっかく貴重な時間を使って仕上げた文章やその他の情報が無駄になることを望む人はいない。利用する側にとっても、無駄な時間は使いたくないのが道理である。

そこで、最後に、どうすればもっと効率の良い情報の授受が可能になるかを考えてみることにする。

前節で述べたように、既存の文献検索サービスHPや学術雑誌HPにアクセスすることによって、従来図書館に行かなければできなかった文献検索が机の上から自由にできるようになりつつあり、特に英語を主体とした文献の抄録だけでも無料で容易に読めるようになっているのは、研究の効率化という面で極めて大きなWWWの功績である(以前からオンラインの文献検索は可能ではあったが、そのためには事前登録や煩雑な命令語を学習し、さらに高い料金を払わなければならなかった)。

これらと、それに類するサービスだけを用いて、他の情報は無視してしまうのが、現時点では研究者にとってもっとも効率の良いWWWの利用法である。実際にそう割り切って使っている研究者は筆者の周りにも多い。

しかし、インターネットの利点は決してそこだけにとどまるものではないだろう。WWWは印刷技術の単なる焼き直しなのではない。マルチメディアという名前(それ自体はアップル社のCEOが自社コンピュータの宣伝用に考え出した文句だと記憶するが)でひところ盛んに喧伝された映像や音声を伴う情報の授受を世界中どこにいてもリアルタイムに可能にするだけでなく、それを誰もが容易に双方向に行えるようにする仕組みであり、その結果、誰もが自分の言葉で語り始めた(そして混乱が起こった)。既存の文献検索サービスや出版社による情報発信は、その「誰もが」の一部なのであって決して「全て」ではないのである。

研究活動は、研究を行い、その成果を公表することで成り立っている。成果の公表は学会での口頭発表か学術雑誌への投稿論文の形で行うのが一般的である。しかし、投稿論文が印刷物の形で世界中に広まること前提にしているのに対し、口頭発表の多くも予稿集の形で印刷されはするものの、学会員以外に配布されることはまれで、演題ごとのページ数も限られ(1演題につき1〜1/4ページ程度)、文献検索の対象になりにくかった。しかし、このような限られた範囲にしか配布されていない冊子であっても、ひとたびWWW上に載せられれば、学術雑誌と全く同様に検索対象とし得るのである。多くの研究者がこれに気づいており、最近では徐々に学会の予稿集を学会が自らのサイトで公開したり、研究者自身が個人的に自らのサイトに公開(これは著作権上あるいは問題があるかもしれない)したりし始めている。確かにこうした形の情報公開には、現時点ではまだまだ問題があるのも事実であろう。WWWにしか公開されない情報は、そのことだけで学術的な価値が低いとみなされる危険性があることも否めない。しかし、それ以上に問題なのは、たとえ公開したとしても、それの存在することを広く知らしめる方法のないことである。上述のように検索サービスでは有用HPを探すだけでも大変なので、その中からさらに自分の必要とする情報を見つけるのはほとんど至難の業である。

これには、もうひとつ別の問題もある。それは、記述言語の問題である。科学の世界では英語が事実上の公用語となっているが、国内の学会では日本語と英語の双方が用いられ、実際にはほとんど全てが日本語で行われる。当然予稿もほとんど日本語である。これは日本だけの特殊事情なのかもしれないが、フランスでもドイツでも、明らかに自国語でのHPの方が英語版のもの(おそらく翻訳したもの)より充実している例はいくらでも見出せることから、彼らにとっても自国語で書くほうが自然なのだろう(当然という気がする)。逆に英米の研究者は日本語で書かれたHPはそのままでは表示させることさえ困難である。これではいくらWWW上に日本語で書かれた情報を公開しても、事実上英語が支配する世界ではあまり意味のないことかもしれない。しかし、全てを英語で書けというのでは無謀に過ぎるだろう。

これらは、情報発信する側にとっては勿論のこと、WWWに印刷媒体以上の可能性を期待している利用する側、ひいては研究者全体にとっても頭の痛い問題であろう。単にインターネットの技術上の問題にとどまらず、研究成果の公表自体に対する考え方の変更をも余儀なくされるからである。これはこの小論の範囲を越えてしまうので、ここでは技術的な可能性だけを見ることにする。 前者の問題は、まず、学術書が一般書とは区別されて流通しているように、栄養学なら栄養学に特化した検索サービスが提供されることで幾分かは解決されるであろう。しかし、検索ロボットあるいは検索エンジンにそれが栄養学専門HPであることを知らせることが困難であるからこそ、なかなか有用HPに行き着けないという問題が起こっているのは上述したとおりである。これは実は以下に述べる方法で解決可能なのだが、それをするのがかなり面倒だということと、取り決めがなにもない現状で個人が行っても効果が少ないということからあまり利用されていない。

少し専門的な話になるが、HPを記述するHTMLにはからくりがあって、実際にHPのソースを見るとわかるが、ブラウザの画面上には現れない文字をHPの中に含ませることが可能なのである。これは、例えばのような記述で、HPの内容を示すものであったり、使用したHP作成ソフトの名称であったりする。このメタ・タグやプログラム言語が基本的に備えている「注釈文」の仕組み(プログラムを理解し易くするためにある)をHTMLが持っていることから、これを利用して例えばHPの内容についての細かい分類や作成日、バージョン情報などをブラウザの画面上からは見えないように書いておけるのである(ソースを表示すれば誰でも見れらる)。ブラウザはこの部分は通常ほとんど無視してしまうようになっているが、検索ロボットはこの部分も解析するので、検索サービスの利用者はこれを利用することができる。このメタ・タグの使用を推進しようという動きはDublin Core (http://purl.oclc.org/)のように英語圏ではかなり以前からあったが、これには項目や用語の統一が必要であってかなり煩雑な感があるのは否めない。これの発展形でもあるXMLともども、これからの普及を待つというところだが、そのためには、学会等による統一規則の成文化がぜひとも必要であり、かえってそのために自由な情報発信によってボトム・アップで発展してきたインターネットにはなかなかなじみにくいのかもしれない。

後者の言語の問題については、既に述べたようにコンピュータ上における自動翻訳が真に実用レベルに達することで自然に解消されると思われるが、それがいつのことなのか少々心もとない気もする。これよりも容易に実現可能と思われるのは、検索に用いた単語あるいは文を検索時に各国語に翻訳して検索してくれるしくみである。日本語で日本語と英語を同時に検索してくれるサービスは現在すでにあるし、おそらくその他の言語と英語のものもあるのではないだろうか。これで検索結果の見出しだけでも翻訳されていればWWW上の言語の壁はかなり低くなるのではないだろうか。実際にそれら外国のHPを読むためにはその言語を知っている必要があるとしても、関係のあることがわかっていれば意欲もわいてくる。しかし、そのためには検索サービスの精度向上も同時になされる必要があることはいうまでもない。


まとめ

WWWは、栄養学研究者にとって現状でもそれなりに便利なツールとして手放せないものになっているが、潜在的な可能性からいって、従来には考えられなかったグローバルな情報授受の手段として今後ますます発展することが期待される。しかし、そのためには幾つかの問題を抱えており、その主たるものは、情報検索サービスの効率の悪さと、言語の壁である。これらは栄養学に限った問題ではないが、栄養学が食文化という人間の極めて人間的な問題を扱い、社会学的なアプローチも必要とされる分野であるだけに、特に言語の問題の解決は今後の発展に大きく寄与しうると思われる。


謝辞

WWW上の情報検索サービスの調査検討にご協力いただきました昭和女子大学の釜島智美さんに感謝いたします。


文献

1)Lawrence, S. and Giles, C.L.: Accessibility of information on the web.  Nature, 400, 107 (1999).

2)Raggett, D. and Jacobs, I.: HyperText Markup Language Home Page. (1999, September 14) [WWW document]
http://www.w3.org/MarkUp/
(visited 1999,September 20).

3)National Library of Medicine: Search MEDLINE: PubMed and Internet Grateful Med (1999) [WWW document]
http://www.nlm.nih.gov/databases/freemedl.html
(visited 1999, September 20).

4)Brown, C.M.: Where to find nutritional science journals on the world wide web. J. Nutr., 127, 1527-1532 (1997).


  健康情報データベースから関連項目を検索
  PubMedから関連項目を検索

 (c) All Copyrights reserved 2002 National Institute of Health and Nutrition