ページの本文へ

Hitachi

ソフトウェア

データ統合の開発基盤(ETLツール) DataStage:FAQ:QualityStageについて

QualityStageV08-50よりDataStageと開発画面が統合されました。
DataStageの基本的な機能を使って名寄せのためのQualityStageジョブを開発できます。
QualityStageはDataStage製品の一部の位置づけですので、基本事項についてはDataStageのFAQをご参照ください。ここでは、名寄せに関するQualityStageの独自機能についてのFAQを掲載します。

Q1. QualityStageを導入するメリットは何でしょうか?

QualityStageを導入すると、手作りの開発では実現しにくい高精度な名寄せ処理を実現できます。 QulaityStageでは住所データ・名前データ(企業名/個人名)を標準化するためのルールセットを提供します。このルールセットでは、住所の県名/市町村名/丁目/番地などのデータを切りだして表記を統一したり、企業名から「株式会社」や事業部名を切りだしたり、個人名の姓と名を切り分けたりといった処理をするためのルールを定義しています。ルールセットを用いて、通常のプログラムでは作成することが難しいデータクレンジングの処理を実現します。

また、クレンジング後のデータからデータの類似性を定量化し、高得点のデータを重複データとして関連づけ、関連づけられた重複データから最適な唯一のデータを選択するといった機能を持ちます。
詳細は、QualityStageの機能をご覧ください。

Q2. どんな名寄せでもQualityStageは使えますか?

どんなデータでもQualityStageの機能は使えますが、QualityStageの提供する4つの機能(「QualityStageの機能」参照)のうち、標準化は「住所」「名前」「電話番号」のデータクレンジングのための機能です。そのため、「住所」「名前」「電話番号」のデータを名寄せのキー項目として使用し、そのデータの中身に表記の揺らぎがある場合が主なQualityStageの適合場面です。

Q3. QualityStageを使用すれば、どのくらい名寄せの精度が高まりますか?

名寄せするデータの中身に依存します。対象のデータがQulatiyStageでどのくらいの精度で標準化されるか、事前に分析する必要があります。分析のための機能(「QualityStageの機能」のデータ傾向分析の機能)を使い、2週間〜1カ月程度の調査・分析フェーズでの検証期間で評価していただくことをお勧めします。

Q4. QualityStageを導入すると、名寄せ処理の完全自動化ができるのでしょうか?

QulaityStageでは、データの類似性のを定量化します。高配点のデータを同一データとみなす(名寄せする)ことを自動化することもできますが、大事なデータを扱う場合は最後は人の確認が必要なケースが多いです。QulaityStageでは同一データの候補を高精度に抽出するところまでを自動化する使い方をお勧めします。

7ページ中7ページ