Visualizations¶

Connect to a server¶

Initialize a client with your server credentials and store it in the variable dai.

In [5]:

Copied!

import driverlessai

dai = driverlessai.Client(address='http://localhost:12345', username='py', password='py')
import driverlessai

dai = driverlessai.Client(address='http://localhost:12345', username='py', password='py')

Load data¶

Import the file CreditCard_Cat-train.csv from S3 to the Driverless AI server.

In [6]:

Copied!





dataset = dai.datasets.create(
    data='s3://h2o-public-test-data/smalldata/creditcard/CreditCard_Cat-train.csv',
    data_source='s3',
    name='creditcard_cat-train.csv'
)
dataset = dai.datasets.create(
    data='s3://h2o-public-test-data/smalldata/creditcard/CreditCard_Cat-train.csv',
    data_source='s3',
    name='creditcard_cat-train.csv'
)

Complete 100.00% - [4/4] Computed stats for column DEFAULT_PAYMENT_NEXT_MONTH

This creates a dataset object that's stored in the variable dataset, which contains the following columns.

In [7]:

Copied!

dataset.columns
dataset.columns

Out[7]:

['ID',
 'LIMIT_BAL',
 'SEX',
 'EDUCATION',
 'MARRIAGE',
 'AGE',
 'PAY_0',
 'PAY_2',
 'PAY_3',
 'PAY_4',
 'PAY_5',
 'PAY_6',
 'BILL_AMT1',
 'BILL_AMT2',
 'BILL_AMT3',
 'BILL_AMT4',
 'BILL_AMT5',
 'BILL_AMT6',
 'PAY_AMT1',
 'PAY_AMT2',
 'PAY_AMT3',
 'PAY_AMT4',
 'PAY_AMT5',
 'PAY_AMT6',
 'DEFAULT_PAYMENT_NEXT_MONTH']

Create visualizations¶

Create the Visualization object and store it in the variable visualization.

In [8]:

Copied!

visualization = dai.autoviz.create_async(dataset).result()
visualization = dai.autoviz.create_async(dataset).result()

Complete 100.00% - Visualization ready

You can use the visualization variable to access the graphs in the generated visualization.All of the returned plots are in Vega Lite(v3) format. For more information, see https://vega.github.io/vega-lite-v3/.

In [18]:

Copied!

from vega import Vega
from vega import Vega

Visualizing box plots¶

A visualization may consist of disparate boxplots, heteroscedastic boxplots, or both, depending on the dataset. Hence, for visualizing a particular graph, you need to provide the boxplot type and access one graph from the returned list.

In [26]:

Copied!

heteroscedastic_boxplot = visualization.box_plots['heteroscedastic'][0]
Vega(heteroscedastic_boxplot)
heteroscedastic_boxplot = visualization.box_plots['heteroscedastic'][0]
Vega(heteroscedastic_boxplot)

Out[26]:

No description has been provided for this image

Visualizing histograms¶

Histograms may be spikey, skewed, or gaps histograms.

In [33]:

Copied!

histogram = visualization.histograms['gaps'][1]
Vega(histogram)
histogram = visualization.histograms['gaps'][1]
Vega(histogram)

Out[33]:

Visualizing parallel coordinates plot¶

In [35]:

Copied!

parallel_coordinates_plot = visualization.parallel_coordinates_plot
Vega(parallel_coordinates_plot)
parallel_coordinates_plot = visualization.parallel_coordinates_plot
Vega(parallel_coordinates_plot)

Complete 100.00% -

Out[35]:

Get recommendations¶

The following code demonstrates how you can view recommendations.

In [47]:

Copied!

visualization.recommendations
visualization.recommendations

Out[47]:

{'transforms': {'BILL_AMT5': 'yeo_johnson_square_root',
  'BILL_AMT4': 'yeo_johnson_square_root',
  'BILL_AMT6': 'yeo_johnson_square_root',
  'BILL_AMT1': 'yeo_johnson_log',
  'BILL_AMT3': 'yeo_johnson_square_root',
  'BILL_AMT2': 'yeo_johnson_log'},
 'deletions': {}}

Visualizing scatter plot¶

In [36]:

Copied!

scatter_plot = visualization.scatter_plot
Vega(scatter_plot)
scatter_plot = visualization.scatter_plot
Vega(scatter_plot)

Out[36]:

Add a custom plot¶

Add a bar chart¶

In [50]:

Copied!

bar_chart = visualization.add_bar_chart(x_variable_name = 'EDUCATION', y_variable_name  = 'AGE', transpose = False, mark = 'bar')
Vega(bar_chart.plot_data)
bar_chart = visualization.add_bar_chart(x_variable_name = 'EDUCATION', y_variable_name  = 'AGE', transpose = False, mark = 'bar')
Vega(bar_chart.plot_data)

Out[50]:

In [64]:

Copied!

bar_chart.name
bar_chart.name

Out[64]:

'bar chart of EDUCATION, AGE'

Add a box plot¶

In [51]:

Copied!

box_plot = visualization.add_box_plot(variable_name = 'AGE', transpose = False)
Vega(box_plot.plot_data)
box_plot = visualization.add_box_plot(variable_name = 'AGE', transpose = False)
Vega(box_plot.plot_data)

Out[51]:

In [65]:

Copied!

box_plot.name
box_plot.name

Out[65]:

'boxplot of AGE'

Add a dot plot¶

In [52]:

Copied!

dot_plot = visualization.add_dot_plot(variable_name = 'AGE', mark = 'point')
Vega(dot_plot.plot_data)
dot_plot = visualization.add_dot_plot(variable_name = 'AGE', mark = 'point')
Vega(dot_plot.plot_data)

Out[52]:

In [66]:

Copied!

dot_plot.name
dot_plot.name

Out[66]:

'dotplot of AGE'

Add a grouped box plot¶

In [53]:

Copied!





grouped_box_plot = visualization.add_grouped_box_plot(variable_name = 'AGE', 
                                                      group_variable_name = 'EDUCATION', 
                                                      transpose = False)
Vega(grouped_box_plot.plot_data)
grouped_box_plot = visualization.add_grouped_box_plot(variable_name = 'AGE', 
                                                      group_variable_name = 'EDUCATION', 
                                                      transpose = False)
Vega(grouped_box_plot.plot_data)

Out[53]:

In [67]:

Copied!

grouped_box_plot.name
grouped_box_plot.name

Out[67]:

'grouped boxplot of AGE, EDUCATION'

Add a heatmap¶

In [54]:

Copied!





heatmap = visualization.add_heatmap(variable_names = ['EDUCATION','AGE'], 
                                  permute = False, 
                                  transpose = False, 
                                  matrix_type = 'rectangular')
Vega(heatmap.plot_data)
heatmap = visualization.add_heatmap(variable_names = ['EDUCATION','AGE'], 
                                  permute = False, 
                                  transpose = False, 
                                  matrix_type = 'rectangular')
Vega(heatmap.plot_data)

Out[54]:

In [68]:

Copied!

heatmap.name
heatmap.name

Out[68]:

'heatmap of EDUCATION, AGE'

Add a histogram¶

In [55]:

Copied!





histogram = visualization.add_histogram(variable_name = 'AGE', 
                                    number_of_bars = 10, 
                                    transformation = 'none', 
                                    mark = 'bar')
Vega(histogram.plot_data)
histogram = visualization.add_histogram(variable_name = 'AGE', 
                                    number_of_bars = 10, 
                                    transformation = 'none', 
                                    mark = 'bar')
Vega(histogram.plot_data)

Out[55]:

In [69]:

Copied!

histogram.name
histogram.name

Out[69]:

'histogram of AGE'

Add a linear regression plot¶

In [56]:

Copied!





linear_regression_plot = visualization.add_linear_regression(x_variable_name = 'ID', 
                                            y_variable_name = 'AGE', 
                                            mark = 'point')
Vega(linear_regression_plot.plot_data)
linear_regression_plot = visualization.add_linear_regression(x_variable_name = 'ID', 
                                            y_variable_name = 'AGE', 
                                            mark = 'point')
Vega(linear_regression_plot.plot_data)

Out[56]:

In [70]:

Copied!

linear_regression_plot.name
linear_regression_plot.name

Out[70]:

'linear regression of ID, AGE'

Add a loess regression plot¶

In [57]:

Copied!





loess_regression_plot = visualization.add_loess_regression(x_variable_name = 'AGE', 
                                           y_variable_name = 'LIMIT_BAL', 
                                           mark = 'point', 
                                           bandwidth = 0.5)
Vega(loess_regression_plot.plot_data)
loess_regression_plot = visualization.add_loess_regression(x_variable_name = 'AGE', 
                                           y_variable_name = 'LIMIT_BAL', 
                                           mark = 'point', 
                                           bandwidth = 0.5)
Vega(loess_regression_plot.plot_data)

Out[57]:

In [71]:

Copied!

loess_regression_plot.name
loess_regression_plot.name

Out[71]:

'loess regression of AGE, LIMIT_BAL'

Add a parallel coordinates plot¶

In [58]:

Copied!





parallel_coordinates_plot = visualization.add_parallel_coordinates_plot(variable_names = ['EDUCATION','AGE'], 
                              permute = False, 
                              transpose = False, 
                              cluster = False)
Vega(parallel_coordinates_plot.plot_data)
parallel_coordinates_plot = visualization.add_parallel_coordinates_plot(variable_names = ['EDUCATION','AGE'], 
                              permute = False, 
                              transpose = False, 
                              cluster = False)
Vega(parallel_coordinates_plot.plot_data)

Out[58]:

In [72]:

Copied!

parallel_coordinates_plot.name
parallel_coordinates_plot.name

Out[72]:

'parallel coordinates plot of EDUCATION, AGE'

Add a probability plot¶

In [59]:

Copied!





probability_plot = visualization.add_probability_plot(x_variable_name = 'AGE', 
                     distribution = 'normal', 
                     mark = 'point', 
                     transpose = False)
Vega(probability_plot.plot_data)
probability_plot = visualization.add_probability_plot(x_variable_name = 'AGE', 
                     distribution = 'normal', 
                     mark = 'point', 
                     transpose = False)
Vega(probability_plot.plot_data)

Out[59]:

In [73]:

Copied!

probability_plot.name
probability_plot.name

Out[73]:

'probability plot of AGE'

Add a quantile plot¶

In [60]:

Copied!





quantile_plot = visualization.add_quantile_plot(x_variable_name = 'AGE', 
                                        y_variable_name = 'LIMIT_BAL', 
                                        distribution = 'normal', 
                                        mark = 'point', 
                                        transpose = False)
Vega(quantile_plot.plot_data)
quantile_plot = visualization.add_quantile_plot(x_variable_name = 'AGE', 
                                        y_variable_name = 'LIMIT_BAL', 
                                        distribution = 'normal', 
                                        mark = 'point', 
                                        transpose = False)
Vega(quantile_plot.plot_data)

Out[60]:

In [74]:

Copied!

quantile_plot.name
quantile_plot.name

Out[74]:

'quantile plot of AGE, LIMIT_BAL'

Add a scatter plot¶

In [61]:

Copied!





scatter_plot = visualization.add_scatter_plot(x_variable_name = 'AGE', 
                 y_variable_name = 'LIMIT_BAL', 
                 mark = 'point')
Vega(scatter_plot.plot_data)
scatter_plot = visualization.add_scatter_plot(x_variable_name = 'AGE', 
                 y_variable_name = 'LIMIT_BAL', 
                 mark = 'point')
Vega(scatter_plot.plot_data)

Out[61]:

In [75]:

Copied!

scatter_plot.name
scatter_plot.name

Out[75]:

'scatterplot of AGE, LIMIT_BAL'

View a custom plot¶

All of the custom plots that you added to the visualization can be accessed as follows.

In [79]:

Copied!

custom_plot = visualization.custom_plots[0]
Vega(custom_plot.plot_data)
custom_plot = visualization.custom_plots[0]
Vega(custom_plot.plot_data)

Out[79]:

In [80]:

Copied!

custom_plot.name
custom_plot.name

Out[80]:

'bar chart of EDUCATION, AGE'

Remove a custom plot¶

The following example assumes that you want to remove the scatter plot you created previously.

In [81]:

Copied!

visualization.remove_custom_plot(scatter_plot)
visualization.remove_custom_plot(scatter_plot)