Treasure Data にデータを取り込んだ後、ペアレントセグメントの作成を開始する前に、データをクリーニング、正規化、エンリッチ、統合できる多数の機能とツールがあります。
データのクエリについては、データクエリを参照してください。
Treasure Data にデータをインポートした後、結果に予期しないデータや不正確なデータが表示される場合があります。これはインポート設定を変更することで修正できる場合もありますが、データをクリーンアップまたは正規化するために追加の処理を実行する必要がある場合もあります。一般的なクリーンアップアクティビティには次のようなものがあります:
- 重複排除: Treasure Data のデータベースインスタンスで重複する列または行を削除します。
- データ正規化
- Treasure Data で類似のデータタイプがどのように表現されるかを標準化します。たとえば、電話番号は 555-567-8911 または 5555678911 または 00 1 555 567 8911 としてさまざまにインポートされる可能性があります。したがって、特にキーまたは ID 統合として使用する予定がある場合は、すべてのデータベースで電話番号の表現を標準化する必要があります。
一般的に、企業は次の理由でデータを変換したいと考えています:
- 他のデータと互換性を持たせるため
- 別のシステムに移動するため
- 他のデータと結合するため
- データ内の情報を集約するため
組織がさまざまなソースからデータを取り込むと、データ変換を使用してデータを単一のデータベースに統合します。次はいくつかのユースケースの例です:
- データを新しいデータストアに移動している場合。たとえば、クラウドデータウェアハウスに移動しており、データタイプを変更する必要がある場合。
- 非構造化データまたはストリーミングデータを構造化データと結合して、データを一緒に分析したい場合。
- ルックアップの実行、地理位置情報の追加、タイムスタンプの追加など、データにエンリッチメントのための情報を追加したい場合。
- 異なる地域の売上データを比較したり、異なる地域の売上を合計したりするなどの集約を実行したい場合。
- プライバシーを保護するためにデータをマスクしたい場合。フィルター機能を使用すると、あるデータソースから別のデータソースにデータを取り込む際に機密データをマスクできます。
関連トピック:
セグメンテーションは、顧客またはアカウントプロファイルのコレクションをフィルタリングするアクティビティです。通常、これはデータオーケストレーションの最後のアクティビティであり、データがクリーニング、変換、エンリッチされた後に行われます。
このセクションでは、類似の好み、嫌い、または人口統計データを持つ顧客アカウントプロファイルのコレクションであるペアレントセグメント(またはマスターセグメント)を作成するプロセスについて説明します。