ページの本文へ

日立グループの
製品・サービス

日立グループの
企業情報

データ統合の開発基盤（ETLツール） DataStage：機能紹介：QualityStageの機能紹介

データ傾向分析
標準化
データの関連づけ
最適データの選択

名寄せを行う際、その精度に多大な影響を及ぼすデータの揺らぎ。例えば住所データでは、カナ住所と漢字住所のほか、全角・半角や新旧漢字の混在、都道府県データの入力漏れ、番地やマンション名の入力の有無など、データの揺らぎは多岐にわたります。
名寄せツール「QualityStage」は、住所データや名前データの表記の揺らぎを解消し、顧客データの品質を上げる4つの機能を提供。各機能を利用しながら、DataStageの開発画面から効率的な名寄せジョブ開発が可能です。

名寄せジョブ開発

データ傾向分析

単語の出現頻度やパターンなどのデータ傾向の分析を行います。
お客様のデータ品質を定量的に確認し、名寄せのためのキー項目として使用できるかを調べます。

データ傾向分析

出現頻度／パターンの分析 －調査からわかる内容（例）

23％の電話番号フィールドが空欄
70％の郵便番号が空欄
郵便番号の27％が5桁表示
約17％が無効（“999”や“000”）の値
18種類の電話番号の表記パターンが存在
1500種類の住所の表記パターンが存在

ページの先頭へ

標準化

データ構造やデータの揺らぎを吸収し、統一的な表記に変換します。
漢字の表記を統一したり、住所データを定型的なカテゴリに再配置することで、データを比較できる形式に変換します。

標準化処理

一般プログラムでは対応が難しい標準化の処理

名前辞書を使って、”姓”と”名”を分割。
旧漢字と新漢字を統一。
表記パターンを解析し、住所データを細かく再分配。
市町村データから都道府県データを補完。
カタカナ住所を漢字住所に変換。

ページの先頭へ

標準化では、日本語の名前／住所などを標準化するためのアルゴリズムである「ルールセット」を各種提供。また、お客様のデータがルールセットで正しく標準化されたかをレポートする機能を提供します。

標準化結果の分析

標準化結果の分析を実施

標準化のルールセットを適用した結果、お客様の実データが、正しく標準化されているかを確認できます。

ページの先頭へ

データの関連づけ

データの類似性を定量化し得点をつけ、高得点のデータを重複データとして関連づけます。高得点のデータを重複データとみなすためのカットオフ値を設定できます。

データの関連づけ

データ類似性を定量化

比較対象の項目を選択。ウェイト比較法を用いて、データの類似性に得点をつける。

重複データの判断

重複データと判断できる高得点のデータにカットオフ（足切り）値をつける。実データの得点分布を視覚的に確認できるマッチングデザイナを提供。

ページの先頭へ

最適データの選択

重複データの特定後、どのデータを残すかの選定を行うための柔軟なルールを設定できます。

最適データの選択

選定ルールを柔軟に設定

レコード単位、またはデータ項目単位に選定ルールを設定。
選定ルールは、データ頻度、データ近時性（例：日付）、値の存在、または長さに基づき決定することが可能。
複数のルールを設定することが可能。

ページの先頭へ