Python-Visualisierungen – Azure Synapse Analytics (2023)

  • Artikel

Azure Synapse ist ein integrierter Analysedienst, der die Zeit bis zur Gewinnung von Erkenntnissen über Data Warehouses und Big-Data-Analysesysteme hinweg beschleunigt. Die Datenvisualisierung ist eine Schlüsselkomponente, um Einblicke in Ihre Daten zu gewinnen. Es trägt dazu bei, dass große und kleine Daten für den Menschen leichter verständlich sind. Es erleichtert auch die Erkennung von Mustern, Trends und Ausreißern in Datengruppen.

Wenn Sie Apache Spark in Azure Synapse Analytics verwenden, stehen Ihnen verschiedene integrierte Optionen zur Visualisierung Ihrer Daten zur Verfügung, darunter Optionen für Synapse-Notizbuchdiagramme, Zugriff auf beliebte Open-Source-Bibliotheken und Integration mit Synapse SQL und Power BI.

Optionen für Notebook-Diagramme

Wenn Sie ein Azure Synapse-Notebook verwenden, können Sie Ihre tabellarische Ergebnisansicht mithilfe von Diagrammoptionen in ein benutzerdefiniertes Diagramm umwandeln. Hier können Sie Ihre Daten visualisieren, ohne Code schreiben zu müssen.

display(df)-Funktion

DerAnzeigeMit dieser Funktion können Sie SQL-Abfragen sowie Apache Spark-Datenrahmen und RDDs in umfassende Datenvisualisierungen umwandeln. DerAnzeigeDie Funktion kann für Datenrahmen oder RDDs verwendet werden, die in PySpark, Scala, Java, R und .NET erstellt wurden.

So greifen Sie auf die Diagrammoptionen zu:

  1. Die Ausgabe von%%sqlMagische Befehle werden standardmäßig in der gerenderten Tabellenansicht angezeigt. Sie können auch anrufenAnzeige(df)auf Spark DataFrames oder der Resilient Distributed Datasets (RDD)-Funktion, um die gerenderte Tabellenansicht zu erstellen.

  2. Sobald Sie eine gerenderte Tabellenansicht haben, wechseln Sie zur Diagrammansicht.Python-Visualisierungen – Azure Synapse Analytics (1)

  3. Sie können Ihre Visualisierung jetzt anpassen, indem Sie die folgenden Werte angeben:

    AufbauBeschreibung
    Diagramm TypDerAnzeigeDie Funktion unterstützt eine Vielzahl von Diagrammtypen, darunter Balkendiagramme, Streudiagramme, Liniendiagramme und mehr
    TasteGeben Sie den Wertebereich für die x-Achse an
    WertGeben Sie den Wertebereich für die Y-Achsenwerte an
    SeriengruppeWird verwendet, um die Gruppen für die Aggregation zu bestimmen
    AnhäufungMethode zum Aggregieren von Daten in Ihrer Visualisierung

    Notiz

    Standardmäßig ist dieAnzeige(df)Die Funktion verwendet nur die ersten 1000 Zeilen der Daten, um die Diagramme zu rendern. Überprüf denAggregation über alle Ergebnisseund klicken Sie aufAnwendenWenn Sie auf die Schaltfläche klicken, wenden Sie die Diagrammgenerierung aus dem gesamten Datensatz an. Ein Spark-Job wird ausgelöst, wenn sich die Diagrammeinstellung ändert. Bitte beachten Sie, dass es einige Minuten dauern kann, bis die Berechnung abgeschlossen und das Diagramm gerendert ist.

  4. Sobald Sie fertig sind, können Sie Ihre endgültige Visualisierung anzeigen und mit ihr interagieren!

Anzeige (df) Statistikdetails

Sie können verwendendisplay(df, summary = true)um die Statistikzusammenfassung eines bestimmten Apache Spark DataFrame zu überprüfen, die den Spaltennamen, den Spaltentyp, eindeutige Werte und fehlende Werte für jede Spalte enthält. Sie können auch eine bestimmte Spalte auswählen, um deren Minimalwert, Maximalwert, Mittelwert und Standardabweichung anzuzeigen.Python-Visualisierungen – Azure Synapse Analytics (2)

displayHTML()-Option

Azure Synapse Analytics-Notebooks unterstützen HTML-Grafiken mithilfe vondisplayHTMLFunktion.

Das folgende Bild ist ein Beispiel für die Erstellung von Visualisierungen mitD3. js.

Python-Visualisierungen – Azure Synapse Analytics (3)

Führen Sie den folgenden Code aus, um die obige Visualisierung zu erstellen.

displayHTML("""
""")

Python-Bibliotheken

Wenn es um die Datenvisualisierung geht, bietet Python mehrere Grafikbibliotheken mit vielen verschiedenen Funktionen. Standardmäßig enthält jeder Apache Spark-Pool in Azure Synapse Analytics eine Reihe kuratierter und beliebter Open-Source-Bibliotheken. Sie können auch zusätzliche Bibliotheken und Versionen hinzufügen oder verwalten, indem Sie die Bibliotheksverwaltungsfunktionen von Azure Synapse Analytics nutzen.

Matplotlib

Sie können Standard-Plotbibliotheken wie Matplotlib rendern, indem Sie die integrierten Rendering-Funktionen für jede Bibliothek verwenden.

Das folgende Bild ist ein Beispiel für die Erstellung eines Balkendiagramms mitMatplotlib.Python-Visualisierungen – Azure Synapse Analytics (4)

Führen Sie den folgenden Beispielcode aus, um das obige Bild zu zeichnen.

# Balkendiagrammimport matplotlib.pyplot as pltx1 = [1, 3, 4, 5, 6, 7, 9]y1 = [4, 7, 2, 4, 7, 8, 3]x2 = [2, 4, 6, 8, 10]y2 = [5, 6, 2, 6, 2]plt.bar(x1, y1, label="Blue Bar", color='b')plt.bar(x2, y2, label="Green Bar", color='g')plt.plot()plt.xlabel("bar number")plt.ylabel("bar height")plt.title("Balkendiagramm-Beispiel")plt.legend()plt.show ()

Bokeh

Sie können beispielsweise HTML oder interaktive Bibliotheken rendernBokeh, Verwendung derdisplayHTML(df).

Das folgende Bild ist ein Beispiel für das Plotten von Glyphen über einer Karte mitBokeh.

Python-Visualisierungen – Azure Synapse Analytics (5)

Führen Sie den folgenden Beispielcode aus, um das obige Bild zu zeichnen.

from bokeh.plotting import Figure, Output_filefrom bokeh.tile_providers import get_provider, Vendorsfrom bokeh.embed import file_htmlfrom bokeh.resources import CDNfrom bokeh.models import ColumnDataSourcetile_provider = get_provider(Vendors.CARTODBPOSITRON)# Bereichsgrenzen in Web-Mercator-Koordinatensp = Figure(x_range= (-9000000,-8000000), y_range=(4000000,5000000), x_axis_type="mercator", y_axis_type="mercator")p.add_tile(tile_provider)# Datenpunkte auf der Karte darstellensource = ColumnDataSource( data=dict(x=[ -8800000, -8500000 , -8800000], y=[4200000, 4500000, 4900000]))p.circle(x="x", y="y", size=15, fill_color="blue", fill_alpha=0.8 , source=source)# ein HTML-Dokument erstellen, das den Bokeh-Plot einbettethtml = file_html(p, CDN, "my plot1")# dieses html anzeigendisplayHTML(html)

Plotly

Sie können HTML oder interaktive Bibliotheken wie rendernPlotly, Verwendung derdisplayHTML().

Führen Sie den folgenden Beispielcode aus, um das Bild unten zu zeichnen.

Python-Visualisierungen – Azure Synapse Analytics (6)

aus urllib.request import urlopenimport jsonwith urlopen('https://raw.githubusercontent.com/plotly/datasets/master/geojson-counties-fips.json') als Antwort: counties = json.load(response)import pandas as pdf = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/fips-unemp-16.csv", dtype={"fips": str})import plotlyimport plotly.express as pxfig = px .choropleth(df, geojson=counties, location='fips', color='unemp', color_continuous_scale="Viridis", range_color=(0, 12), Scope="usa", labels={'unemp':'unemployment rate'} )fig.update_layout(margin={"r":0,"t":0,"l":0,"b":0})# Erstellen Sie ein HTML-Dokument, das Plotly plotth = plotly.offline einbettet .plot(fig, output_type='div')# display this htmldisplayHTML(h)

Pandas

Sie können die HTML-Ausgabe des Pandas-Datenrahmens als Standardausgabe anzeigen. Notebook zeigt automatisch den formatierten HTML-Inhalt an.

Python-Visualisierungen – Azure Synapse Analytics (7)

pandas als pd importieren, numpy als np importieren df = pd.DataFrame([[38.0, 2.0, 18.0, 22.0, 21, np.nan],[19, 439, 6, 452, 226,232]], index=pd.Index( ['Tumor (Positiv)', 'Nicht-Tumor (Negativ)'], name='Actual Label:'), columns=pd.MultiIndex.from_product([['Decision Tree', 'Regression', 'Random'] ,['Tumor', 'Nicht-Tumor']], Namen=['Modell:', 'Vorhergesagt:'])) df

Zusätzliche Bibliotheken

Über diese Bibliotheken hinaus umfasst die Azure Synapse Analytics Runtime auch die folgenden Bibliotheken, die häufig zur Datenvisualisierung verwendet werden:

Sie können die Azure Synapse Analytics Runtime besuchenDokumentationfür die aktuellsten Informationen über die verfügbaren Bibliotheken und Versionen.

R-Bibliotheken (Vorschau)

Das R-Ökosystem bietet mehrere Grafikbibliotheken mit vielen verschiedenen Funktionen. Standardmäßig enthält jeder Apache Spark-Pool in Azure Synapse Analytics eine Reihe kuratierter und beliebter Open-Source-Bibliotheken. Sie können auch zusätzliche Bibliotheken und Versionen hinzufügen oder verwalten, indem Sie die Bibliotheksverwaltungsfunktionen von Azure Synapse Analytics nutzen.

ggplot2

Derggplot2Die Bibliothek wird häufig für die Datenvisualisierung und explorative Datenanalyse verwendet.

Python-Visualisierungen – Azure Synapse Analytics (8)

Library(ggplot2)data(mpg, package="ggplot2") theme_set(theme_bw()) g <- ggplot(mpg, aes(cty, hwy))# Scatterplotg + geom_point() + geom_smooth(method="lm", se =F) + labs(subtitle="mpg: Stadt vs. Autobahnkilometer", y="hwy", x="cty", title="Streudiagramm mit überlappenden Punkten", caption="Quelle: Mittlerer Westen")

rBokeh

rBokehist eine native R-Plotbibliothek zum Erstellen interaktiver Grafiken, die von der Bokeh-Visualisierungsbibliothek unterstützt werden.

Um rBokeh zu installieren, können Sie den folgenden Befehl verwenden:

install.packages("rbokeh")

Nach der Installation können Sie rBokeh nutzen, um interaktive Visualisierungen zu erstellen.

Python-Visualisierungen – Azure Synapse Analytics (9)

Library(rbokeh)p <- Figure() %>% ly_points(Sepal.Length, Sepal.Width, data = iris, color = Species, glyph = Species, hover = list(Sepal.Length, Sepal.Width))

R Plotly

PlotlysDie R-Grafikbibliothek erstellt interaktive Grafiken in Publikationsqualität.

Um Plotly zu installieren, können Sie den folgenden Befehl verwenden:

install.packages("plotly")

Nach der Installation können Sie Plotly nutzen, um interaktive Visualisierungen zu erstellen.

Python-Visualisierungen – Azure Synapse Analytics (10)

Bibliothek(plotly) fig <- plot_ly() %>% add_lines(x = c("a","b","c"), y = c(1,3,2))%>% layout(title= „Beispielfigur“, xaxis = list(title = 'x'), yaxis = list(title = 'y'), plot_bgcolor = "#c7daec") Abb

Highcharter

Highcharterist ein R-Wrapper für die Highcharts-JavaScript-Bibliothek und ihre Module.

Um Highcharter zu installieren, können Sie den folgenden Befehl verwenden:

install.packages("highcharter")

Nach der Installation können Sie Highcharter nutzen, um interaktive Visualisierungen zu erstellen.

Python-Visualisierungen – Azure Synapse Analytics (11)

Library(magrittr)library(highcharter)hchart(mtcars, "scatter", hcaes(wt, mpg, z = drat, color = hp)) %>% hc_title(text = "Streudiagramm mit Größe und Farbe")

Stellen Sie mit Apache Spark und SQL On-Demand eine Verbindung zu Power BI her

Azure Synapse Analytics lässt sich tief in Power BI integrieren, sodass Dateningenieure Analyselösungen erstellen können.

Azure Synapse Analytics ermöglicht den verschiedenen Workspace-Rechen-Engines die gemeinsame Nutzung von Datenbanken und Tabellen zwischen seinen Spark-Pools und dem serverlosen SQL-Pool. Verwendung dergemeinsames Metadatenmodellkönnen Sie Ihre Apache Spark-Tabellen mit SQL bei Bedarf abfragen. Sobald Sie fertig sind, können Sie Ihren SQL On-Demand-Endpunkt mit Power BI verbinden, um Ihre synchronisierten Spark-Tabellen einfach abzufragen.

Nächste Schritte

  • Weitere Informationen zum Einrichten des Spark SQL DW Connectors:Synapse SQL-Connector
  • Sehen Sie sich die Standardbibliotheken an:Azure Synapse Analytics-Laufzeit
Top Articles
Latest Posts
Article information

Author: Tish Haag

Last Updated: 05/31/2023

Views: 5279

Rating: 4.7 / 5 (67 voted)

Reviews: 90% of readers found this page helpful

Author information

Name: Tish Haag

Birthday: 1999-11-18

Address: 30256 Tara Expressway, Kutchburgh, VT 92892-0078

Phone: +4215847628708

Job: Internal Consulting Engineer

Hobby: Roller skating, Roller skating, Kayaking, Flying, Graffiti, Ghost hunting, scrapbook

Introduction: My name is Tish Haag, I am a excited, delightful, curious, beautiful, agreeable, enchanting, fancy person who loves writing and wants to share my knowledge and understanding with you.