株式会社 日立製作所中央研究所(所長:西野壽一、以下「日立」)は、このたび、国立情報学研究所と共同で、1千万件規模の大規模文書データベースから文書をキーとして、関連する文書を即座に検索可能な文書検索エンジンを開発しました。大規模な文書データベースを持つ特許や科学技術文献検索に有用な方法です。本研究は、経済産業省所管の特別認可法人である情報処理振興事業協会(IPA)で実施した平成13年度「独創的情報技術育成事業」の一環として実施しました。また、検索エンジンの開発に際しては、東京工業大学、北陸先端科学技術大学院大学、国文学研究資料館の協力を得ました。
知的財産権や、科学技術の分野では、新規性や類似性を検証するために高い精度で文書検索することが要求されています。しかし、従来用いられているキーワード検索法では、キーワードの組み合わせに
よって検索結果が異なるので、重要な文書が検索されないという不安がありました。そこで、キーワードではなく、自分の書いた文書や、調べたい文献をそのまま"キー文書"として検索する方式が期待されていますが、従来技術では、計算量の大きさが障害となり、実用に耐える速度で検索できるデータベースは数万件規模でした。
今回、日立は1千万件規模のデータベースから、即座にキー文書で文書を検索する次のような新しい文書検索エンジンを開発しました。
(1)
|
連想検索方式の適用:キー文書に含まれる特徴的な単語50〜200個を自動選出し、それらの出現頻度や単語同士の関連性などの情報(牽引データ)を使った計算(連想計算)をする検索方式です。キーワード検索に比べ致命的な検索漏れを防ぐと同時に、内容的に関連する文書に絞り込むことが可能です。
|
(2)
|
索引データの高速利用技術:連想検索に用いる索引データを最大限に圧縮し、計算機上で高速利用できる方式を開発しました。10〜20万件規模のデータベース(新聞1年分相当)でも、パソコン上で利用できます。
|
(3)
|
分散処理型の検索エンジン:1千万規模のデータベースに対応するために、PCクラスタ上(PCを複数台組み合わせたもの)で動作することができる"分散処理型"の連想検索エンジンを開発しました。データベース規模に応じてシステム規模を拡張することで、大規模データ検索を可能にします。
|
今回開発した、検索技術により、PCを8台〜16台接続したPCクラスタを構築すれば、1千万件規模の文書データベースで即座に連想検索を行うことができます。今回開発した連想検索技術を幅広く利用していただくために、情報処理振興事業協会(IPA)ではインターネット上での無償公開を行います。
(URL http://geta.ex.nii.ac.jp/)
本開発の連想検索エンジンは、東京大学医科学研究所・ヒトゲノム解析センターがインターネット上で行なっているデータ公開サービスの一つ、「分子生物学関連データベース」の検索エンジンとしてご利用いただいています。
|
【脚注】 |
1) |
現状の概念検索方式では、あらかじめ決めた数100次元の単語セットの上で文書をベクトル表現して類似検索を行ないますが、本連想検索では数10万、場合によっては数100万種すべての単語を使って文書をベクトル表現できるため、より高精度の類似検索が行なえます。(数100次元では技術文献で重要な専門語はすべて捨てられてしまいます。) |