Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) Sample Questions:
1. 以下の各構成は、各クラスターに合計 400 GB の RAM、合計 160 個のコアがあり、VM ごとに 1 つの Executor のみがあるという点では同一です。
少なくとも 1 つのワイド変換を含むジョブの場合、次のどのクラスター構成で最大のパフォーマンスが得られますか?
A) Total VMs: 1
400 GB per Executor
160 Cores / Executor
B) Total VMs: 8
50 GB per Executor
20 Cores / Executor
C) Total VMs: 2
200 GB per Executor
80 Cores / Executor
D) Total VMs: 4
100 GB per Executor
40 Cores/Executor
2. データエンジニアは、顧客取引データを処理する本番環境のLakeflow宣言型パイプラインを管理しています。パイプラインには、transaction_amount > 0やcustomer_id IS NOT NULLといった、いくつかのデータ品質期待値が含まれています。これらの期待値は、SQLのEXPECT句を使用して定義されています。
エンジニアは、最新のパイプライン更新中に各期待値を満たしたレコード数と満たなかったレコード数を分析することで、パイプラインのデータ品質を監視することを目指しています。Lakeflow Declarative Pipelinesのイベントログは、event_log_tableというDeltaテーブルに保存されます。
最新のパイプライン更新では、各期待値の名前、関連付けられたデータセット、期待値を満たしたレコードの数、期待値を満たさなかったレコードの数などの情報を抽出するための、プログラム的に適切なアプローチを決定します。
Lakeflow 宣言型パイプライン イベント ログから必要なデータ品質メトリックを取得する方法はどれですか。
A) event_log_table にアクセスし、event_type = 'flow_progress' のイベントをフィルタリングし、details.flow_progress.data_quality.expectations フィールドを解析して必要なメトリックを抽出します。
B) event_log_table にアクセスし、event_type = 'expectation_result' のイベントをフィルタリングし、詳細フィールドから期待メトリックを抽出します。
C) Lakeflow 宣言型パイプライン UI を使用して特定のパイプラインに移動し、データセットを選択し、[データ品質] タブを表示して期待メトリックを手動で取得します。
D) event_log_table で、event_type = 'data_quality' のイベントを照会し、passed_records フィールドと failed_records フィールドを直接選択します。
3. 1時間ごとのバッチジョブは、クラウドオブジェクトストレージコンテナからデータファイルを取り込むように構成されています。各バッチは、ソースシステムが特定の時間に生成したすべてのレコードを表します。これらのレコードをレイクハウスに処理するバッチジョブは、遅れて到着するデータが欠落しないように十分な遅延が設定されます。user_idフィールドはデータの一意のキーを表し、次のスキーマを持ちます。
user_id BIGINT、username STRING、user_utc STRING、user_region STRING、last_login BIGINT、auto_pay BOOLEAN、last_updated BIGINT 新しいレコードはすべてaccount_historyというテーブルに取り込まれ、ソースと同じスキーマ内のすべてのデータの完全な記録が保持されます。システム内の次のテーブルはaccount_currentという名前で、各一意のuser_idの最新の値を表すType 1テーブルとして実装されています。
数百万のユーザー アカウントがあり、1 時間ごとに数万のレコードが処理されると仮定すると、記述されている account_current テーブルを各時間ごとのバッチ ジョブの一部として効率的に更新するには、どの実装を使用できますか?
A) 最後に更新されたフィールドと最後に処理された時間、およびユーザー ID による最後の最大入力を使用してアカウント履歴のレコードをフィルターし、各ユーザー ID の最新の値を更新または挿入するマージ ステートメントを記述します。
B) 自動ローダーを使用して、アカウント履歴ディレクトリ内の新しいファイルをサブスクライブします。Structured Streaminq トリガー 1 回限りのジョブを構成して、新しく検出されたファイルをアカウントの現在のテーブルに一括更新します。
C) Delta Lake のバージョン履歴を使用して、アカウント履歴の最新バージョンと 1 つ前のバージョンの違いを取得し、これらのレコードを現在のアカウントに書き込みます。
D) 最後に更新されたフィールドと最後に処理された時間を使用してアカウント履歴のレコードをフィルターし、ユーザー名の重複を排除します。各ユーザー名の最新の値を更新または挿入するためのマージ ステートメントを記述します。
E) ユーザー ID でグループ化し、最終更新の最大値をフィルタリングしたアカウント履歴テーブルに対するクエリの結果を使用して、各バッチでアカウントの現在のテーブルを上書きします。
4. ジュニアデータエンジニアが、Lakehouseテーブル「silver_device_recordings」にロジックを実装しようとしています。ソースデータには、高度にネストされたJSON構造に100個の一意のフィールドが含まれています。
silver_device_recordings テーブルは、下流で多数のフィールドに対して高度に選択的な結合を行うために使用され、また、機械学習チームによって、少数の関連フィールドをフィルタリングするために活用されます。フィルタおよび結合ロジックに頻繁に使用されるフィールドは合計 15 個特定されています。
データ エンジニアは、テーブル スキーマを宣言する前に、これらのネストされたフィールドを処理するための最適なアプローチを決定しようとしています。
Delta Lake と Databricks についての意思決定プロセスに影響を与える可能性のある情報を正確に示しているのは次のうちどれですか。
A) Databricks で使用される Tungsten エンコーディングは、文字列データの保存に最適化されています。JSON 文字列のクエリに対する新しく追加されたネイティブ サポートにより、文字列型が常に最も効率的になります。
B) Databricks のスキーマ推論と進化により、推論された型が下流のシステムで使用されるデータ型と常に正確に一致することが保証されます。
C) デフォルトでは、Delta Lake はテーブルの最初の 32 列の統計を収集します。これらの統計は、選択的なクエリを実行するときにデータのスキップに活用されます。
D) Delta Lake はデータ ストレージに Parquet を使用するため、ネスト用の Dremel エンコード情報は Delta トランザクション ログから直接参照できます。
5. データガバナンスチームは、個人識別情報(PII)を含む「ユーザー」テーブルの社会保障番号列に適切なマスキングを施すことを必須としました。これは、HRAdminGroup以外のユーザーからは、マスキングされた社会保障番号が***-**-として表示されることを意味します。
****。
チームはマスキング機能を作成しました。
この目標を達成するために、データ ガバナンス チームは次に何をする必要がありますか?
A) CREATE TABLE users
(name STRING, ssn STRING);
ALTER TABLE users ALTER COLUMN ssn SET MASK ssn_mask;
B) CREATE TABLE users
(name STRING);
ALTER TABLE users CREATE COLUMN ssn CREATE MASK ssn_mask;
C) CREATE TABLE users
(name STRING, ssn INT MASKED ssn_mask);
D) CREATE TABLE users
(name STRING, int STRING);
ALTER TABLE users ALTER COLUMN ssn CREATE MASK if is_member('HRAdminGroup');
Solutions:
| Question # 1 Answer: A | Question # 2 Answer: B | Question # 3 Answer: A | Question # 4 Answer: C | Question # 5 Answer: A |
We're so confident of our products that we provide no hassle product exchange.


By Grover

