[Jul-2023] Verified Microsoft Exam Dumps mit DP-203 Exam Study Guide [Q93-Q108]

[Jul-2023] Verifizierte Microsoft-Prüfungsdumps mit DP-203 Exam Study Guide [Q93-Q108]

Juli 27, 2023 admin 0 Kommentare

Diesen Beitrag bewerten

[Jul-2023] Verifizierte Microsoft-Prüfungsdumps mit DP-203 Exam Study Guide

Beste Qualität Microsoft DP-203 Prüfungsfragen TopExamCollection Realistische Praxis-Prüfungen [2023]

Wie kann ich mich für die Prüfung DP-203: Data Engineering auf Microsoft Azure anmelden?

Prüfung registrieren Link: https://examregistration.microsoft.com/?locale=en-us&examcode=DP-203&examname=Exam%20DP-203:%20Data%20Engineering%20on%20Microsoft%20Azure&returnToLearningUrl=https%3A%2F%2Fdocs.microsoft.com%2Flearn%2Fcertifications%2Fexams%2Fdp-203

NR. 93 Sie müssen eine analytische Speicherlösung für die Transaktionsdaten entwerfen. Die Lösung muss die Anforderungen an den Datensatz für die Verkaufstransaktionen erfüllen.
Was sollten Sie in die Lösung aufnehmen? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Referenz:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-distribute

NR. 94 Sie haben eine Microsoft SQL Server-Datenbank, die ein Schema der dritten Normalform verwendet.
Sie planen, die Daten in der Datenbank in ein Sternschema in einem dedizierten SQI-Pool von Azure Synapse Analytics zu migrieren.
Sie müssen die Dimensionstabellen entwerfen. Die Lösung muss Lesevorgänge optimieren.
Was sollten Sie in die Lösung aufnehmen? Um zu antworten, wählen Sie die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Erläuterung
Text, Tabelle Beschreibung automatisch generiert

Kasten 1: Denormalisierung auf eine zweite Normalform
Bei der Denormalisierung werden höhere Normalformen in niedrigere Normalformen umgewandelt, indem die Verknüpfung von Beziehungen mit höherer Normalform als Basisbeziehung gespeichert wird. Die Denormalisierung erhöht die Leistung beim Datenabruf auf Kosten von Aktualisierungsanomalien in einer Datenbank.
Kasten 2: Neue Identitätssäulen
Die Strategie der Zusammenlegung von Beziehungen kann in diesem Schritt verwendet werden, um Klassifizierungsentitäten in Komponentenentitäten zu zerlegen, um Dimensionstabellen mit einteiligen Schlüsseln zu erhalten, die direkt mit der Faktentabelle verbunden sind. Der einteilige Schlüssel ist ein Ersatzschlüssel, der generiert wird, um sicherzustellen, dass er im Laufe der Zeit eindeutig bleibt.
Beispiel:
Diagramm Beschreibung automatisch generiert

Hinweis: Ein Surrogatschlüssel in einer Tabelle ist eine Spalte mit einem eindeutigen Bezeichner für jede Zeile. Der Schlüssel wird nicht aus den Tabellendaten generiert. Datenmodellierer erstellen gerne Ersatzschlüssel für ihre Tabellen, wenn sie Data Warehouse-Modelle entwerfen. Sie können die IDENTITY-Eigenschaft verwenden, um dieses Ziel einfach und effektiv zu erreichen, ohne die Ladeleistung zu beeinträchtigen.
Referenz:
https://www.mssqltips.com/sqlservertip/5614/explore-the-role-of-normal-forms-in-dimensional-modeling/
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql-data-warehouse/sql-data-warehouse-tables-identity

NO.95 Sie verwenden Azure Data Factory, um Daten für die Abfrage durch serverlose SQL-Pools von Azure Synapse Analytics vorzubereiten.
Die Dateien werden zunächst in Form von 10 kleinen JSON-Dateien in ein Azure Data Lake Storage Gen2-Konto eingespeist. Jede Datei enthält dieselben Datenattribute und Daten von einer Tochtergesellschaft Ihres Unternehmens.
Sie müssen die Dateien in einen anderen Ordner verschieben und die Daten so umwandeln, dass sie die folgenden Anforderungen erfüllen:
Schnellstmögliche Abfragezeiten bereitstellen.
Automatisches Ableiten des Schemas aus den zugrunde liegenden Dateien.
Wie sollten Sie den Kopiervorgang von Data Factory konfigurieren? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Referenz:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-introduction
https://docs.microsoft.com/en-us/azure/data-factory/format-parquet

NR. 96 Sie haben ein Azure-Abonnement, das ein Azure Data Lake-Speicherkonto enthält. Das Speicherkonto enthält einen Data Lake namens DataLake1.
Sie planen, eine Azure-Datenfabrik zu verwenden, um Daten aus einem Ordner in DataLake1 aufzunehmen, die Daten umzuwandeln und in einem anderen Ordner zu speichern.
Sie müssen sicherstellen, dass die Datenfabrik Daten aus jedem Ordner im DataLake1-Dateisystem lesen und schreiben kann.
Die Lösung muss die folgenden Anforderungen erfüllen:
* Minimierung des Risikos eines unbefugten Benutzerzugriffs.
* Anwendung des Prinzips der geringsten Privilegien.
* Minimierung des Wartungsaufwands.
Wie sollten Sie den Zugriff auf das Speicherkonto für die Datenfabrik konfigurieren? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Erläuterung
Text Beschreibung automatisch generiert mit geringem Vertrauen

Feld 1: Azure Active Directory (Azure AD)
In Azure machen verwaltete Identitäten die Verwaltung von Anmeldeinformationen für Entwickler überflüssig, indem sie eine Identität für die Azure-Ressource in Azure AD bereitstellen und diese verwenden, um Azure Active Directory (Azure AD)-Tokens zu erhalten.
Kasten 2: eine verwaltete Identität
Eine Datenfabrik kann mit einer verwalteten Identität für Azure-Ressourcen verknüpft werden, die diese spezifische Datenfabrik repräsentiert. Sie können diese verwaltete Identität direkt für die Data Lake Storage Gen2-Authentifizierung verwenden, ähnlich wie bei der Verwendung Ihres eigenen Dienstprinzipals. Sie ermöglicht dieser designierten Datenfabrik den Zugriff auf und das Kopieren von Daten zu oder von Ihrem Data Lake Storage Gen2.
Hinweis: Der Azure Data Lake Storage Gen2-Connector unterstützt die folgenden Authentifizierungstypen.
* Authentifizierung des Kontoschlüssels
* Authentifizierung des Dienstherrn
* Verwaltete Identitäten für die Authentifizierung von Azure-Ressourcen
Referenz:
https://docs.microsoft.com/en-us/azure/active-directory/managed-identities-azure-resources/overview
https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-data-lake-storage

NR. 97 Sie erstellen eine Datenbank in einem serverlosen SQL-Pool von Azure Synapse Analytics.
Sie haben Daten in Parquet-Dateien in einem Azure Data Lake Storege Gen2-Container gespeichert.
Die Datensätze sind wie in dem folgenden Beispiel strukturiert.
{
"id": 123,
"Adresse_Hausnummer": "19c",
"address_line": "Memory Lane",
"Antragsteller1_name": "Jane",
"Bewerber2_Name": "Dev"
}
Die Unterlagen enthalten höchstens zwei Bewerber.
Sie müssen eine Tabelle erstellen, die nur die Adressfelder enthält.
Wie sollten Sie die Transact-SQL-Anweisung vervollständigen? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Referenz:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql/develop-tables-external-tables

NR. 98 Sie haben eine Microsoft SQL Server-Datenbank, die ein Schema der dritten Normalform verwendet.
Sie planen, die Daten in der Datenbank in ein Sternschema in einem dedizierten SQI-Pool von A?ire Synapse Analytics zu migrieren.
Sie müssen die Dimensionstabellen entwerfen. Die Lösung muss Lesevorgänge optimieren.
Was sollten Sie in die Lösung aufnehmen? Um zu antworten, wählen Sie die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

NO.99 Sie erstellen einen Apache Spark-Auftrag in Azure Databricks, der JSON-formatierte Daten aufnehmen wird.
Sie müssen einen verschachtelten JSON-String in einen DataFrame konvertieren, der mehrere Zeilen enthält.
Welche Spark-SQL-Funktion sollten Sie verwenden?

explodieren

Filter

verschmelzen

Auszug

Erläuterung
Konvertieren von verschachteltem JSON in einen flattened DataFrame
Sie können verschachteltes JSON reduzieren, indem Sie nur die Methoden $ "column.*" und explode verwenden.
Hinweis: Herausnehmen und abflachen
Verwenden Sie die Methoden $ "column.*" und explode, um die Typen struct und array zu reduzieren, bevor Sie den reduzierten DataFrame anzeigen.
Scala
display(DF.select($ "id" as "main_id",$ "name",$ "batters",$ "ppu",explode($ "topping")) // Explodieren der Spalte topping mit explode, da es sich um einen Array-Typ handelt withColumn("topping_id",$ "col.id") // Extrahieren von topping_id aus col mit DOT-Formular withColumn("topping_type",$ "col.type") // Extrahieren von topping_tytpe aus col mit DOT-Formular drop($ "col") select($ "*",$ "batters.*") // Flattened the struct type batters tto array type which is batter drop($ "batters") select($ "*",explode($ "batter")) drop($ "batter") withColumn("batter_id",$ "col.id") // Extrahieren von batter_id aus col mittels DOT-Formular withColumn("battter_type",$ "col.type") // Extrahieren von battter_type aus col mittels DOT-Formular drop($ "col") ) Referenz: https://learn.microsoft.com/en-us/azure/databricks/kb/scala/flatten-nested-columns-dynamically

NR. 100 Sie verwenden PySpark in Azure Databricks, um die folgende JSON-Eingabe zu parsen.

Sie müssen die Daten in folgendem Tabellenformat ausgeben.

Wie sollten Sie den PySpark-Code vervollständigen? Um zu antworten, ziehen Sie die entsprechenden Werte auf die richtigen Ziele. Jeder Wert kann einmal, mehr als einmal oder gar nicht verwendet werden. Möglicherweise müssen Sie die geteilte Leiste zwischen den Fenstern ziehen oder scrollen, um den Inhalt anzuzeigen.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

NR. 101 Die Ansicht des Speicherkontocontainers wird im Exponat Refdata angezeigt. (Klicken Sie auf die Registerkarte "Refdata".)
Sie müssen den Stream Analytics-Auftrag so konfigurieren, dass er die neuen Referenzdaten aufnimmt.
Was sollten Sie konfigurieren?
Um zu antworten, wählen Sie die entsprechenden Optionen im Antwortbereich aus
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

NR. 102 Sie entwerfen eine Ordnerstruktur für die Dateien m einem Azure Data Lake Storage Gen2-Konto. Das Konto hat einen Container, der drei Jahre an Daten enthält.
Sie müssen eine Ordnerstruktur empfehlen, die die folgenden Anforderungen erfüllt:
* Unterstützt Partitionseliminierung für Abfragen von Azure Synapse Analytics serverless SQL pooh
* Unterstützt den schnellen Datenabruf für Daten des aktuellen Monats
* Vereinfacht die Verwaltung der Datensicherheit nach Abteilungen
Welche Ordnerstruktur würden Sie empfehlen?

YYYMMDDDepartmentDataSourceDataFile_YYYMMMDD.parquet

DepdftmentDataSourceYYYMMDataFile_YYYYMMDD.parquet

DDMMYYYYAbteilungsDatenQuelleDatenDatei_DDMMYY.parquet

DataSourceAbteilung_JJJJMMDataFile_JJJJMMDD.parquet

NO.103 Sie haben ein Azure-Abonnement, das ein Azure Data Lake-Speicherkonto enthält. Das Speicherkonto enthält einen Data Lake namens DataLake1.
Sie planen, eine Azure-Datenfabrik zu verwenden, um Daten aus einem Ordner in DataLake1 aufzunehmen, die Daten umzuwandeln und in einem anderen Ordner zu speichern.
Sie müssen sicherstellen, dass die Datenfabrik Daten aus jedem Ordner im DataLake1-Dateisystem lesen und schreiben kann. Die Lösung muss die folgenden Anforderungen erfüllen:
Minimieren Sie das Risiko eines unbefugten Benutzerzugriffs.
Wenden Sie das Prinzip des geringsten Privilegs an.
Minimieren Sie den Wartungsaufwand.
Wie sollten Sie den Zugriff auf das Speicherkonto für die Datenfabrik konfigurieren? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Referenz:
https://docs.microsoft.com/en-us/azure/active-directory/managed-identities-azure-resources/overview
https://docs.microsoft.com/en-us/azure/data-factory/connector-azure-data-lake-storage

NR. 104 Sie entwerfen die Ordnerstruktur für einen Azure Data Lake Storage Gen2-Container.
Die Nutzer werden die Daten mit Hilfe einer Reihe von Diensten abfragen, darunter Azure Databricks und Azure Synapse Analytics serverlose SQL-Pools. Die Daten werden nach Themen gesichert a. Die meisten Abfragen werden Daten aus dem aktuellen Jahr oder dem aktuellen Monat enthalten.
Welche Ordnerstruktur sollten Sie empfehlen, um schnelle Abfragen und vereinfachte Ordnersicherheit zu unterstützen?

/{SubjectArea}/{DataSource}/{DD}/{MM}/{YYYY}/{FileData}_{YYYY}_{MM}_{DD}.csv

/{DD}/{MM}/{YYYY}/{SubjectArea}/{DataSource}/{FileData}_{YYYY}_{MM}_{DD}.csv

/{JJJJ}/{MM}/{DD}/{SubjectArea}/{DataSource}/{FileData}_{JJJJ}_{MM}_{DD}.csv

/{SubjectArea}/{DataSource}/{YYYY}/{MM}/{DD}/{FileData}_{YYYY}_{MM}_{DD}.csv

Es gibt einen wichtigen Grund, das Datum an das Ende der Verzeichnisstruktur zu setzen. Wenn Sie bestimmte Regionen oder Themen für Benutzer/Gruppen sperren wollen, können Sie dies problemlos mit den POSIX-Berechtigungen tun. Andernfalls, wenn eine bestimmte Sicherheitsgruppe nur die Daten des Vereinigten Königreichs oder bestimmte Flugzeuge sehen soll, wäre mit der vorangestellten Datumsstruktur eine separate Berechtigung für zahlreiche Verzeichnisse unter jedem Stundenverzeichnis erforderlich. Außerdem würde durch die vorangestellte Datumsstruktur die Anzahl der Verzeichnisse im Laufe der Zeit exponentiell ansteigen.
Hinweis: Bei IoT-Workloads kann eine große Menge an Daten im Datenspeicher landen, die sich über zahlreiche Produkte, Geräte, Organisationen und Kunden erstrecken. Es ist wichtig, das Layout des Verzeichnisses im Voraus zu planen, um die Organisation, Sicherheit und effiziente Verarbeitung der Daten für nachgelagerte Verbraucher zu gewährleisten. Eine allgemeine Vorlage, die in Betracht gezogen werden könnte, ist das folgende Layout:
{Region}/{Gegenstand(e)}/{yyyy}/{mm}/{dd}/{hh}/

NR. 105 Sie entwickeln eine Lösung mit einer Lambda-Architektur auf Microsoft Azure.
Die Daten auf der Testebene müssen die folgenden Anforderungen erfüllen:
Speicherung von Daten:
* als Speicherort dienen (oder große Mengen großer Dateien in verschiedenen Formaten).
*Implementierung eines optimierten Speichers für Big-Data-Analyse-Workloads.
*Stellen Sie sicher, dass die Daten in einer hierarchischen Struktur organisiert werden können.
Stapelverarbeitung:
*Verwenden Sie eine verwaltete Lösung für die speicherinterne Verarbeitung von Berechnungen.
*Die Programmiersprachen Scala, Python und R werden unterstützt.
*Bieten Sie die Möglichkeit, die Größe des Clusters automatisch zu ändern und ihn zu beenden.
Analytischer Datenspeicher:
*Unterstützung der Parallelverarbeitung.
*Spaltenweise Speicherung verwenden.
*Unterstützung von SQL-basierten Sprachen.
Sie müssen die richtigen Technologien für den Aufbau der Lambda-Architektur ermitteln.
Welche Technologien sollten Sie verwenden? Wählen Sie die entsprechenden Optionen im Antwortbereich aus. HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Erläuterung

Datenspeicherung: Azure Data Lake Store
Ein Schlüsselmechanismus, der es Azure Data Lake Storage Gen2 ermöglicht, Dateisystemleistung in Objektspeichergröße und -preisen zu bieten, ist die Hinzufügung eines hierarchischen Namensraums. Dadurch kann die Sammlung von Objekten/Dateien innerhalb eines Kontos in einer Hierarchie von Verzeichnissen und verschachtelten Unterverzeichnissen organisiert werden, so wie das Dateisystem auf Ihrem Computer organisiert ist. Wenn der hierarchische Namensraum aktiviert ist, kann ein Speicherkonto die Skalierbarkeit und Kosteneffizienz eines Objektspeichers mit einer Dateisystem-Semantik bieten, die den Analysemaschinen und Frameworks vertraut ist.
Stapelverarbeitung: HD Insight Spark
Aparch Spark ist ein Open-Source-Framework für die parallele Verarbeitung, das die In-Memory-Verarbeitung unterstützt, um die Leistung von Big-Data-Analyseanwendungen zu steigern.
HDInsight ist ein verwalteter Hadoop-Dienst. Mit ihm können Sie Hadoop-Cluster in Azure bereitstellen und verwalten. Für die Stapelverarbeitung können Sie Spark, Hive, Hive LLAP und MapReduce verwenden.
Sprachen: R, Python, Java, Scala, SQL
Analytischer Datenspeicher: SQL Data Warehouse
SQL Data Warehouse ist ein Cloud-basiertes Enterprise Data Warehouse (EDW), das Massively Parallel Processing (MPP) verwendet.
SQL Data Warehouse speichert Daten in relationalen Tabellen mit spaltenweiser Speicherung.
Referenzen:
https://docs.microsoft.com/en-us/azure/storage/blobs/data-lake-storage-namespace
https://docs.microsoft.com/en-us/azure/architecture/data-guide/technology-choices/batch-processing
https://docs.microsoft.com/en-us/azure/sql-data-warehouse/sql-data-warehouse-overview-what-is

NR. 106 Sie haben einen dedizierten Azure Synapse Analytics-SQL-Pool namens SA1, der eine Tabelle namens Tabelle1 enthält.
Sie müssen Tabellen ermitteln, die einen hohen Prozentsatz gelöschter Zeilen aufweisen. Was sollten Sie ausführen?
A)

B)

C)

D)

Option

NR. 107 Sie entwickeln eine Überwachungslösung für eine Flotte von 500 Fahrzeugen. Jedes Fahrzeug verfügt über ein GPS-Ortungsgerät, das einmal pro Minute Daten an einen Azure Event Hub sendet.
Sie haben eine CSV-Datei in einem Azure Data Lake Storage Gen2-Container. Die Datei enthält das erwartete geografische Gebiet, in dem sich jedes Fahrzeug befinden soll.
Sie müssen sicherstellen, dass bei einer GPS-Position außerhalb des erwarteten Bereichs eine Meldung an einen anderen Event-Hub gesendet wird, der sie innerhalb von 30 Sekunden verarbeitet. Die Lösung muss die Kosten minimieren.
Was sollten Sie in die Lösung aufnehmen? Wählen Sie zur Beantwortung die entsprechenden Optionen im Antwortbereich aus.
HINWEIS: Jede richtige Auswahl ist einen Punkt wert.

Referenz:
https://docs.microsoft.com/en-us/azure/stream-analytics/stream-analytics-window-functions

NR. 108 Sie haben einen dedizierten SQL-Pool für Azure Synapse Analytics, der eine große Faktentabelle enthält. Die Tabelle enthält
50 Spalten und 5 Milliarden Zeilen und ist ein Heap.
Die meisten Abfragen der Tabelle aggregieren Werte aus etwa 100 Millionen Zeilen und geben nur zwei Spalten zurück.
Sie stellen fest, dass die Abfragen der Faktentabelle sehr langsam sind.
Welche Art von Index sollten Sie hinzufügen, um die schnellsten Abfragezeiten zu erzielen?

Nonclustered Columnstore

geclusterter Kolonnenspeicher

nicht geclustert

geclustert

Geclusterte Columnstore-Indizes sind eine der effizientesten Möglichkeiten, um Ihre Daten in einem dedizierten SQL-Pool zu speichern.
Columnstore-Tabellen sind für eine Abfrage nur von Vorteil, wenn die Tabelle mehr als 60 Millionen Zeilen hat.
Referenz:
https://docs.microsoft.com/en-us/azure/synapse-analytics/sql/best-practices-dedicated-sql-pool

Laden …

Die Microsoft DP-203 (Data Engineering on Microsoft Azure) Zertifizierungsprüfung wurde entwickelt, um die Fähigkeiten von Data Engineers zu bewerten, die mit Daten auf der Microsoft Azure Plattform arbeiten. Die Zertifizierungsprüfung "Data Engineering on Microsoft Azure" soll die technische Kompetenz eines Kandidaten bei der Konzeption und Implementierung von Datenspeicherlösungen, der Verwaltung und Überwachung der Datenverarbeitung sowie der Entwicklung und Bereitstellung von Datenverarbeitungslösungen auf Azure bewerten.

Authentisch Beste Ressourcen für DP-203: https://www.topexamcollection.com/DP-203-vce-collection.html