次の方法で共有


データ マイニングの準備のチェックリスト

データ マイニング アドインを使用すると、モデルの作成と実験が非常に簡単で楽しみますが、反復可能で実用的な結果を得る必要がある場合は、基本的なビジネス要件の策定とデータの取得と準備に十分な時間を確保する必要があります。 このセクションでは、調査の計画に役立つチェックリストと、一般的な問題について説明します。

データ準備のチェックリスト

明確に定義された出力を特定しました。
結果を使用する方法の計画を立てる。 モデルの種類によって出力が異なります。 時系列モデルは、将来の系列の値を生成します。この値は、簡単に理解して操作できます。 他のモデルでは複雑なセットが生成され、最も価値を生み出すために主題の専門家が分析する必要があります。

  • どのような出力が必要ですか?

  • 出力を 1 つの列または値、またはその他の操作可能な結果として定義できますか?

  • モデルが役に立つことを知るための基準は何ですか?

  • これらの結果をどのように使用して解釈しますか?

  • 新しい入力データを予想される結果にマップできますか?

私は入力データの意味、データ型、および分布を知っている。
ソース データを調べて理解するには少し時間がかかります。 モデルをレビューするユーザーは、使用された入力データの種類を理解し、データ型と変動性、およびバランスと品質を解釈する方法を理解することが重要です。

  • データの量はどのくらいですか? モデリングに十分なデータはありますか?

    それは膨大な量である必要はありません - 小さく、バランスが良いことができます。

  • 複数のソースのデータか、1 つのソースか。

  • データは既に処理され、クリーンになっていますか? より多くの入力データを使用できますか?

  • データが切り捨てられたり、要約されたり、変換されたりする方法など、受け取る前に操作された方法を知っていますか?

  • 入力データには、トレーニングに使用できるいくつかの結果例がありますか?

データ整合性のレベルと必要なレベルを理解しています。
不適切なデータは、モデルの品質に影響を与えたり、モデルがまったく構築されないようにしたりする可能性があります。 データの分布と意味の両方と、それがどのようにこの状態になったかを十分に理解している必要があります。 ラベル付け、数値データ型の切り捨て、または集計によって、データを簡略化することが可能か適切なのかを理解する必要があります。

  • データ ラベル: 明確で正しいかどうか。

  • データ型: 適切であり、変更されていますか?

  • 間違ったデータを並べ替えたり、クリーンアップしたり、破棄したりしましたか?

    重複がないことを確認しましたか?

  • 欠損値はどのように処理しますか? 欠損値には意味がありますか?

  • ソースを検証して、インポート プロセスでエラーが発生した可能性があるかどうかを確認しましたか?

    入力はどこに格納されますか? 利用可能な期間はどのくらいですか?

    データ ディクショナリはありますか? 作成できますか?

  • データ セットを結合した場合、同じデータを表す複数の列を確認しましたか?

ソース データの格納場所、ソース データの格納元、およびソース データの処理方法を把握しています。 このプロセスは、必要に応じて簡単に繰り返すことができます。
1 回限りのデータ セットは実験に適していますが、モデルを運用環境に移行する場合は、クリーニング プロセスを運用データに適用する方法について事前に検討する必要があります。 また、運用データがある場合は、データを取得する前に変更された可能性がある方法を知る必要があります。丸められたか、要約されたかを確かに知る必要があります。

  • 実験を繰り返せるようにしますか?

  • データ分析をサポートする形式でデータを準備するために使用するツールは何ですか? 自動化できますか、または Excel でレビューとクリーンアップを行う必要がありますか?

  • 別のシステムからデータをソーシングする場合、適用されたフィルターをキャプチャして追跡できますか?

  • データ処理フレームワークでは、機械学習アルゴリズムの適用、テストの実行、結果の視覚化を行うこともできますか?

予測の必要な細分性に合意し、それらの単位を出力するようにデータが変更されました。
データを準備する前に必要な結果の粒度を決定します。たとえば、日単位または四半期ごとの売上予測が必要ですか? 異なるレベルの概要を処理するために、同じデータに対して異なるデータ構造を設定することを検討してください。

  • 現在の測定単位または時間単位は何ですか?

    結果で使用する単位は何ですか?

  • すべての入力データに対して基本単位 (例: 日/時間/分/命令呼び出し) を定義できますか?

    上位のユニットにロールアップしますか?

  • カテゴリには一貫したラベルが付けられていますか? カテゴリを追加または削除するのは簡単ですか?

私たちの実験的な設計は反復可能で再現可能です。
結果を分析して検証するための戦略を検討し、データ スナップショットをキャプチャして、データへの影響をトレースできることを確認します。 ランダム シードを使用する場合、結果は微妙に異なる場合があります。 これにより、モデルの比較と検証が困難になる可能性があります。

  • データに対して多くのカスタム変更を行った場合、次にモデルを構築する場合はどうなりますか?

  • 入力を処理して目的の出力を取得するために使用する必要がある手動の手順または承認されたプロセスが既に定義されていますか?

  • モデルのためにシードを使用することに決めましたか?

結果を検証するためのドメイン知識を持っているか、アドバイスできる分野の専門家にアクセスできます。
時間をかけて変数、モデル、結果を検証します。 専門家の助けを借りて、相互作用と結果を評価します。 ただし、仮定が証拠を覆さないようにしてください。 新しい予期しない結果に対してオープンにしてください。

  • データのフィルター処理と入力ノイズの削減に役立つドメイン知識はありますか。

  • ドメインの専門家は、結果を解釈し、改善を提案するのに役立ちますか?

こちらもご覧ください

データ マイニングのデータの選択