次の方法で共有


ショートカット ファイル変換

ショートカット変換では、生ファイル (CSV、Parquet、JSON) が 差分テーブル に変換され、ソース データと 常に同期 されます。 変換は Fabric Spark コンピューティングによって実行され、OneLake ショートカットによって参照されるデータがマネージド Delta テーブルにコピーされるため、従来の抽出、変換、読み込み (ETL) パイプラインを自分で構築して調整する必要はありません。 自動スキーマ処理、ディープ フラット化機能、および複数の圧縮形式のサポートにより、ショートカット変換により、ETL パイプラインの構築と保守の複雑さが解消されます。

Note

ショートカット変換は現在 パブリック プレビュー 段階であり、変更される可能性があります。

ショートカット変換を使用する理由

  • 手動パイプラインなし - Fabric はソース ファイルを自動的にコピーして Delta 形式に変換します。増分読み込みを調整する必要はありません。
  • 頻繁な更新 – Fabric はショートカットを 2 分 ごとにチェックし、変更をほぼ即座に同期します。
  • オープンおよび分析対応 – 出力は、Apache Spark と互換性のあるエンジンがクエリを実行できる Delta Lake テーブルです。
  • 統合ガバナンス – ショートカットは、OneLake 系列、アクセス許可、および Microsoft Purview ポリシーを継承します。
  • Spark に基づく – スケールに合わせて変換します。

Prerequisites

Requirement Details
Microsoft Fabric SKU(製品識別コード) Lakehouse ワークロードをサポートする容量または試用版。
ソース データ 同種の CSV、Parquet、または JSON ファイルを含むフォルダー。
ワークスペース ロール 共同作成者 以上。

サポートされているソース、形式、および変換先

OneLake でサポートされているすべてのデータ ソースがサポートされています。

ソース ファイル形式 行き先 サポートされている拡張機能 サポートされている圧縮の種類 注記
CSV (UTF-8、UTF-16) Lakehouse / Tables フォルダー内の Delta Lake テーブル .csv,.txt(区切り記号),.tsv(タブ区切り),.psv(パイプ区切り), .csv.gz、.csv.bz2 .csv.zip、.csv.snappy は現在サポートされていません
Parquet Lakehouse / Tables フォルダー内の Delta Lake テーブル .parquet .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd
JSON Lakehouse / Tables フォルダー内の Delta Lake テーブル .json,.jsonl,.ndjson .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 .json.zip、.json.snappy は現在サポートされていません
  • Excel ファイルのサポートはロードマップの一部です
  • 非構造化ファイル形式 (.txt、.doc、.docx) をサポートするために使用できる AI 変換と Text Analytics のユース ケースが公開され、今後より多くの機能強化が行われます

ショートカット変換を設定する

  1. Lakehouse で、 ショートカット変換 (プレビュー) である [テーブルの新しいテーブル ショートカット] セクション を選択し、ソース (Azure Data Lake、Azure Blob Storage、Dataverse、Amazon S3、GCP、SharePoint、OneDrive など) を選択します。

  2. ファイルの選択、変換の構成、ショートカットの作成 – CSV ファイルを含むフォルダーを指す既存の OneLake ショートカットを参照し、パラメーターを構成し、作成を開始します。

    • CSV ファイルの区切り記号 – 列を区切るために使用する文字 (コンマ、セミコロン、パイプ、タブ、アンパサンド、スペース) を選択します。
    • 先頭行をヘッダーとして 使用 – 最初の行に列名が含まれているかどうかを示します。
    • テーブル ショートカット名 – フレンドリ名を指定します。Fabric によって /Tables の下に作成されます。
  3. ショートカット管理監視ハブで更新を追跡し、透明性を確保するためのログを表示します。

Fabric Spark コンピューティングでは、データが Delta テーブルにコピーされ、[ 管理] ショートカット ウィンドウに進行状況が表示されます。 ショートカット変換は、Lakehouse アイテムで使用できます。 これらは、 Lakehouse /Tables フォルダーに Delta Lake テーブルを 作成します。

同期のしくみ

初期読み込みが完了した後、Fabric Spark のコンピュート:

  • ショートカット ターゲットを 2 分ごとにポーリングします
  • 新しいファイルまたは変更されたファイルを検出し、それに応じて行を追加または上書きします。
  • 削除されたファイルを検出し、対応する行を削除します。

監視とトラブルシューティング

ショートカット変換には、インジェストの状態の追跡と問題の診断に役立つ監視とエラー処理が含まれます。

  1. レイクハウスを開き、変換にフィードするショートカットを右クリックします。
  2. ショートカットを管理を選択します。
  3. 詳細ウィンドウでは、次の情報を表示できます。
    • 状態 – 最後のスキャン結果と現在の同期状態。
    • 更新履歴 – 行数とエラーの詳細を含む同期操作の時系列リスト。 変換の状態を表示するための
  4. ログの詳細を表示してトラブルシューティングを行います。トラブルシューティングを行うために 'ログ ファイル' にアクセスする方法を示すスクリーンショット。

Note

このタブから変換を一時停止または削除することは、ロードマップの今後の機能の一部です

制限事項

ショートカット変換の現在の制限事項:

  • CSV、Parquet、JSON ファイル形式のみがサポートされています。
  • ファイルは同一のスキーマを共有する必要があります。スキーマのずれはまだサポートされていません。
  • 変換は 読み取り最適化されます。テーブル上で直接 MERGE INTO ステートメントまたは DELETE ステートメントがブロックされます。
  • Lakehouse アイテムでのみ使用できます (ウェアハウスまたは KQL データベースでは使用できません)。
  • CSV でサポートされていないデータ型: 混合データ型列、Timestamp_Nanos、複合論理型 - MAP/LIST/STRUCT、生バイナリ
  • Parquet でサポートされていないデータ型: Timestamp_nanos、INT32/INT64、INT96、未割り当て整数型 - UINT_8/UINT_16/UINT_64、複合論理型 - MAP/LIST/STRUCT)
  • JSON のサポートされていないデータ型: 配列内の混合データ型、JSON 内の生バイナリ BLOB、Timestamp_Nanos
  • JSON での配列データ型のフラット化: 配列データ型は差分テーブルに保持され、Spark SQL と Pyspark を使用してアクセスできるデータが保持され、さらに変換するために Fabric Materialized Lake Views をシルバー レイヤーに使用できます
  • ソース形式: CSV、JSON、Parquet ファイルのみが現在サポートされています。
  • JSON での深さのフラット化: 入れ子になった構造は、最大 5 レベルまでフラット化されます。 入れ子を深くするには、前処理が必要です。
  • 書き込み操作: 変換は 読み取り最適化されます。変換ターゲット テーブルの直接 MERGE INTO ステートメントまたは DELETE ステートメントはサポートされていません。
  • ワークスペースの可用性: Lakehouse アイテムでのみ使用できます (Data Warehouse や KQL データベースでは使用できません)。
  • ファイル スキーマの整合性: ファイルは同じスキーマを共有する必要があります。

Note

上記の一部のサポートを追加し、制限を減らすことは、ロードマップの一部です。 今後の更新については、リリース通知を確認してください。

クリーンアップ

同期を停止するには、lakehouse UI からショートカット変換を削除します。
変換を削除しても、基になるファイルは削除されません。