ショートカット変換では、生ファイル (CSV、Parquet、JSON) が 差分テーブル に変換され、ソース データと 常に同期 されます。 変換は Fabric Spark コンピューティングによって実行され、OneLake ショートカットによって参照されるデータがマネージド Delta テーブルにコピーされるため、従来の抽出、変換、読み込み (ETL) パイプラインを自分で構築して調整する必要はありません。 自動スキーマ処理、ディープ フラット化機能、および複数の圧縮形式のサポートにより、ショートカット変換により、ETL パイプラインの構築と保守の複雑さが解消されます。
Note
ショートカット変換は現在 パブリック プレビュー 段階であり、変更される可能性があります。
ショートカット変換を使用する理由
- 手動パイプラインなし - Fabric はソース ファイルを自動的にコピーして Delta 形式に変換します。増分読み込みを調整する必要はありません。
- 頻繁な更新 – Fabric はショートカットを 2 分 ごとにチェックし、変更をほぼ即座に同期します。
- オープンおよび分析対応 – 出力は、Apache Spark と互換性のあるエンジンがクエリを実行できる Delta Lake テーブルです。
- 統合ガバナンス – ショートカットは、OneLake 系列、アクセス許可、および Microsoft Purview ポリシーを継承します。
- Spark に基づく – スケールに合わせて変換します。
Prerequisites
| Requirement | Details |
|---|---|
| Microsoft Fabric SKU(製品識別コード) | Lakehouse ワークロードをサポートする容量または試用版。 |
| ソース データ | 同種の CSV、Parquet、または JSON ファイルを含むフォルダー。 |
| ワークスペース ロール | 共同作成者 以上。 |
サポートされているソース、形式、および変換先
OneLake でサポートされているすべてのデータ ソースがサポートされています。
| ソース ファイル形式 | 行き先 | サポートされている拡張機能 | サポートされている圧縮の種類 | 注記 |
|---|---|---|---|---|
| CSV (UTF-8、UTF-16) | Lakehouse / Tables フォルダー内の Delta Lake テーブル | .csv,.txt(区切り記号),.tsv(タブ区切り),.psv(パイプ区切り), | .csv.gz、.csv.bz2 | .csv.zip、.csv.snappy は現在サポートされていません |
| Parquet | Lakehouse / Tables フォルダー内の Delta Lake テーブル | .parquet | .parquet.snappy,.parquet.gzip,.parquet.lz4,.parquet.brotli,.parquet.zstd | |
| JSON | Lakehouse / Tables フォルダー内の Delta Lake テーブル | .json,.jsonl,.ndjson | .json.gz,.json.bz2,.jsonl.gz,.ndjson.gz,.jsonl.bz2,.ndjson.bz2 | .json.zip、.json.snappy は現在サポートされていません |
- Excel ファイルのサポートはロードマップの一部です
- 非構造化ファイル形式 (.txt、.doc、.docx) をサポートするために使用できる AI 変換と Text Analytics のユース ケースが公開され、今後より多くの機能強化が行われます
ショートカット変換を設定する
Lakehouse で、 ショートカット変換 (プレビュー) である [テーブルの新しいテーブル ショートカット] セクション を選択し、ソース (Azure Data Lake、Azure Blob Storage、Dataverse、Amazon S3、GCP、SharePoint、OneDrive など) を選択します。
ファイルの選択、変換の構成、ショートカットの作成 – CSV ファイルを含むフォルダーを指す既存の OneLake ショートカットを参照し、パラメーターを構成し、作成を開始します。
- CSV ファイルの区切り記号 – 列を区切るために使用する文字 (コンマ、セミコロン、パイプ、タブ、アンパサンド、スペース) を選択します。
- 先頭行をヘッダーとして 使用 – 最初の行に列名が含まれているかどうかを示します。
- テーブル ショートカット名 – フレンドリ名を指定します。Fabric によって /Tables の下に作成されます。
ショートカット管理監視ハブで更新を追跡し、透明性を確保するためのログを表示します。
Fabric Spark コンピューティングでは、データが Delta テーブルにコピーされ、[ 管理] ショートカット ウィンドウに進行状況が表示されます。 ショートカット変換は、Lakehouse アイテムで使用できます。 これらは、 Lakehouse /Tables フォルダーに Delta Lake テーブルを 作成します。
同期のしくみ
初期読み込みが完了した後、Fabric Spark のコンピュート:
- ショートカット ターゲットを 2 分ごとにポーリングします。
- 新しいファイルまたは変更されたファイルを検出し、それに応じて行を追加または上書きします。
- 削除されたファイルを検出し、対応する行を削除します。
監視とトラブルシューティング
ショートカット変換には、インジェストの状態の追跡と問題の診断に役立つ監視とエラー処理が含まれます。
- レイクハウスを開き、変換にフィードするショートカットを右クリックします。
- ショートカットを管理を選択します。
- 詳細ウィンドウでは、次の情報を表示できます。
- 状態 – 最後のスキャン結果と現在の同期状態。
-
更新履歴 – 行数とエラーの詳細を含む同期操作の時系列リスト。
- ログの詳細を表示してトラブルシューティングを行います。トラブルシューティングを行うために
Note
このタブから変換を一時停止または削除することは、ロードマップの今後の機能の一部です
制限事項
ショートカット変換の現在の制限事項:
- CSV、Parquet、JSON ファイル形式のみがサポートされています。
- ファイルは同一のスキーマを共有する必要があります。スキーマのずれはまだサポートされていません。
- 変換は 読み取り最適化されます。テーブル上で直接 MERGE INTO ステートメントまたは DELETE ステートメントがブロックされます。
- Lakehouse アイテムでのみ使用できます (ウェアハウスまたは KQL データベースでは使用できません)。
- CSV でサポートされていないデータ型: 混合データ型列、Timestamp_Nanos、複合論理型 - MAP/LIST/STRUCT、生バイナリ
- Parquet でサポートされていないデータ型: Timestamp_nanos、INT32/INT64、INT96、未割り当て整数型 - UINT_8/UINT_16/UINT_64、複合論理型 - MAP/LIST/STRUCT)
- JSON のサポートされていないデータ型: 配列内の混合データ型、JSON 内の生バイナリ BLOB、Timestamp_Nanos
- JSON での配列データ型のフラット化: 配列データ型は差分テーブルに保持され、Spark SQL と Pyspark を使用してアクセスできるデータが保持され、さらに変換するために Fabric Materialized Lake Views をシルバー レイヤーに使用できます
- ソース形式: CSV、JSON、Parquet ファイルのみが現在サポートされています。
- JSON での深さのフラット化: 入れ子になった構造は、最大 5 レベルまでフラット化されます。 入れ子を深くするには、前処理が必要です。
- 書き込み操作: 変換は 読み取り最適化されます。変換ターゲット テーブルの直接 MERGE INTO ステートメントまたは DELETE ステートメントはサポートされていません。
- ワークスペースの可用性: Lakehouse アイテムでのみ使用できます (Data Warehouse や KQL データベースでは使用できません)。
- ファイル スキーマの整合性: ファイルは同じスキーマを共有する必要があります。
Note
上記の一部のサポートを追加し、制限を減らすことは、ロードマップの一部です。 今後の更新については、リリース通知を確認してください。
クリーンアップ
同期を停止するには、lakehouse UI からショートカット変換を削除します。
変換を削除しても、基になるファイルは削除されません。