こんにちは、Power BI サポート チームのチャンです。
Power BIでデータを加工したり、データ準備を行う時、よくデータフローやデータセットなどの言葉を耳にしますが、実際それぞれどのような違いがあって、どの場面で使うか疑問点をお持ちの方も多くいらっしゃると思います。
本ブログにて、データフローとデータセットの詳細、及び執筆時点ではプレビュー機能のデータマートについてもご紹介いたします。
重要
本記事は弊社公式ドキュメントの公開情報を元に構成しておりますが、
本記事編集時点と実際の機能に相違がある場合がございます。
最新情報につきましては、参考情報として記載しておりますドキュメントをご確認ください。
目次
データフローとは?
Power BIデータフローは、以下の画像で示す通り、様々なデータソースからデータを取得して加工するフローのことで、ETL(Extract/Transform/Load)ツールに該当します。
実際は、Common Data Modelというサービスを使用しており、すべてクラウド上(Azure Data Lake Storage Gen2上)で動作するものでございます。
バックエンドではAzureのリソースを使用していますが、別途Azureのサブスクリプションを購入する必要がなく、データフローは、Power BIのProライセンスのみでご利用いただけます。
UI上の操作は、実はPower BI Desktop内に付属しているPower Query Editorとほとんど同様です。
データフローは、端的に言えば、Power Query Editorのオンライン版としてご認識いただけます。
Power Query Editorで行なうデータ加工をオンラインで実行することの(データフローを利用する)メリットについては、以下が挙げられます。
- データ加工のフローを他のユーザーと簡単に共有できること。
- クラウド上でデータ加工を実施することは、端末のスペックに依存しないこと(ただし、サーバーのスペックに依存する)。
- データソースへの接続はデータフローのみで、複数のユーザーがデータソースへのアクセスを最小限に抑えること
- 一部データフロー(Power Query Online)のみ利用可能な機能がある。例えばダイアグラムビューやスキーマビューなど。
データセットとは?
データフローをはじめ、Power BI Desktopから様々なデータソース(例えばSQL Server、Excelなど)に接続して、データモデルを定義する必要があります。Power BIデータセットは、データモデルが定義されるもので、実際使用されている技術は、 Analysis Services 表形式モデルでございます。
Note
// 参考情報:Power BI サービスのデータセット
データマートについて
2022年5月24日にパブリックプレビュー機能としてリリースされた「データマート」についてもご紹介します。
データマートとは、データフローとデータセットを一つに融合して、Power BI内でAzure SQL Databaseの環境を使用した機能でございます。
ユーザー側で様々なデータソースを集約してPower BIサービス上に「データマート」内でデータウェアハウスを作成し、他のユーザーと共有することができます。
データマートを使用するメリットは以下の点が挙げられます。
- Power BI Desktopからデータセットを作成する必要がなく、ETLのフローからデータのモデリングまですべてクラウド上で完結できます。
- インポートしたデータに対して、レポートを作成せずともクイックに分析を行う(クエリを作成する)ことができます。その分析方法は、グラフィックUI上でノーコードでの実施、または、SQLによるクエリの実行も可能となります。さらにSQLで実施した結果をExcelへエクスポートすることもできます。
- 外部のツール(Azure Data Studio やSQL Server Management Studio)から接続することが可能で、より高度な管理や統計を行える上、Windows以外のOS環境からの接続も簡単になります。
- 共有の操作はデータフローやデータセットより簡易的になり、組織内のユーザーやグループとセキュリティが有効な共有ができます。
現在は、Premium容量とPremium Per Userのみ使用できる機能でございます。
詳細につきましては、以下のブログ記事(英語)とドキュメントよりご確認ください。
Note
// 参考情報 (1):データマートの概要
// 参考情報 (2):Announcing public preview of datamart in Power BI
// 参考情報 (3):データマートの分析
重要
本機能は開発段階 (プレビュー)でございますため、今後予告なしに機能が削除されたり、
動作変更が発生する可能性がありますことをあらかじめご了承くださいますようお願い申し上げます。
データマート、データフロー、データセットの比較
データマート | データフロー | データセット | |
---|---|---|---|
一言で言うと | セルフデータウェアハウス | ETLツール | データモデル |
説明 | ETLツールとデータモデリング機能を一つに集約したもの | データソースから抽出、変換、ロード | DAXの使用とリレーションシップの設定 |
利用者 | すべてのビジネスユーザー、分析者 | データモデリングの実施者 | レポート作成者 |
使用言語 | 操作箇所によってM言語、DAX、SQLも利用可能 | PowerQuery M言語 | DAX |
編集操作場所 | Power BIサービス(クラウド) | Power BIサービス(クラウド) | Power BI Desktop(ローカル) |
レポートからの接続 | 〇 (データセットが自動的に作成される) |
× (Power BI Desktopでデータセットを作成する必要がある) |
〇 |
必要なライセンス | Premium Per User / Premium Per Capacity | Pro / Premium Per User / Premium Per Capacity / Embedded | Free / Pro / Premium Per User / Premium Per Capacity / Embedded |
Direct Query | × | × (一方、データフローとデータセットの間の接続は DirectQuery を利用可能)※1 |
〇 |
インポート | 〇 | 〇 | 〇 |
データ更新のタイムアウト | 24時間 | Pro:2時間/テーブル、3時間/データフロー Premium:24時間/データフロー ※2 |
Pro:2時間 Premium:5時間 ※3 |
増分更新 | 〇 | 〇 (Premium機能、Pro利用不可)※4 |
〇 ※5 |
※1:データフローで DirectQuery を使用する
※2:データフローに関する考慮事項と制限事項
※3:Power BI でのデータの更新
※4:データフローでの増分更新の使用
※5:データセットの増分更新とリアルタイム データ
本ブログの関連記事
以上、本ブログが少しでも皆様のお役に立てますと幸いでございます。
アンケートご協力のお願い
Japan CSS Support Power BI Blog では、作成する記事やブログの品質向上を目的に、匿名回答でのアンケートを実施しております。
ユーザー様のご意見・ご要望を参考に今後もお役に立てるブログを目指してまいりますので、ぜひご協力いただけますと幸いでございます。
※ 所要時間は1分程度となります。
【ご協力のお願い】Microsoft Japan CSS Power BI Blog ご利用に関するアンケート
※本情報の内容(添付文書、リンク先などを含む)は、作成日時点でのものであり、予告なく変更される場合があります。