Snowflake 통합

개요

이 문서에서는 Snowflake의 외부 함수 기능을 사용하여 Driverless AI 모델을 HTTP REST API 엔드포인트로 호출하는 방법을 설명합니다.

외부 함수를 사용하려면 Snowflake 및 Amazon에서 일부 설정 및 구성을 해야 합니다. 자세한 내용은 Snowflake documentation on 외부 함수에 대한 Snowflake 설명서 를 참조하십시오.

참고

Downloads:

Java UDF의 설정 프로세스는 일반적으로 외부 함수보다 쉽습니다.

Snowflake integration overview

요구 사항

  1. Snowflake 로그인 자격 증명

  2. Amazon EC2 로그인 자격 증명

  3. Driverless AI MOJO(pipelineSF.mojo)

  • 데모 파일에 포함

  1. DAIMojoRestServer

  • 데모 파일에 포함

  1. Driverless AI 라이선스

  • 제휴 포털을 통해 제공

  • Snowflake_H2Oai 디렉터리에 라이선스를 복사합니다. 파일의 이름을 ‘license.sig’로 지정합니다.

  1. Java JDK 1.8

  • 데모 zip 파일에는 오픈 소스 JDK가 포함되어 있으며, 데모 스크립트는 이를 기본값으로 사용합니다. 다른 JVM을 사용하려면 다음 단계를 참조하십시오.

    • “java -version》을 실행하여 사용자 플랫폼에 있는 JVM에 JDK 1.8이 설치되어 있는지 확인합니다. 명령의 출력값이 JDK 1.8을 표시해야 합니다. 예를 들면 다음과 같습니다.

    java -version
    openjdk version "1.8.0_121"
    

보안

외부 함수를 사용하는 경우 Snowflake에서 AWS API Gateway로 호출합니다. 호출하려면 AWS에서 트러스트 관계를 구성해야 합니다.

H2O REST 서버는 AWS Gateway 엔드포인트의 호출만 수락합니다. 명령줄에 매개변수 -DSecureModelAllowAgent=”AmazonAPIGateway.*|snowflake.*” 를 추가하면, 이를 특정 AWS 함수로 더 제한할 수도 있습니다.

-DModelSecureEndPoints=/** 를 활성화하면 전체 인증, 유효성 차단을 요구하여 Rest 서버를 보호합니다.

설치

다음 설치에는 Snowflake, AWS, H2O REST 서버가 설치된 EC2 인스턴스의 단계가 포함됩니다.

다음 단계에서는 REST 서버 설치를 개괄적으로 설명합니다.

  1. EC2 인스턴스를 생성합니다. 데모 시스템의 최소 사양은 다음과 같습니다.

    • 운영 체제: Linux

    • CPU: 2

    • 메모리: 16GB

    • 디스크: 500MB

Note: 대량의 데이터 세트를 사용하는 데모인 경우, 더 많은 코어와 더 큰 메모리를 사용하는 것이 좋습니다. 예를 들어 1백만 개의 행, 48개의 코어, 64GB를 사용하면 2코어 시스템보다 지연 시간이 훨씬 더 짧아집니다.

  1. 배포를 EC2 인스턴스에 복사하고 파일을 추출합니다.

unzip Snowflake_H2Oai_v1.zip
  1. 데이터베이스를 생성합니다.

  2. 테이블에 샘플 데이터를 채웁니다.

  3. 데이터 가용성을 확인합니다.

REST 서버 시작하기

다음 단계를 사용하여 EC2 인스턴스에서 H2O REST 서버를 시작합니다.

  1. 현재 작업 디렉터리는 Snowflake-H2Oai/Function여야 합니다.

cd Snowflake-H2Oai/Function
./goServer.sh
  1. 프로그램을 백그라운드로 실행하려면 ENTER 키를 누릅니다. 로그는 nohup.log에 기록됩니다.

  2. REST 서버는 몇 초가 지난 후에 시작됩니다. 다음과 같은 준비 메시지를 확인하십시오.

Started DaiMojoRestServer4Application in 4.778 seconds (JVM running for 6.22)

REST 서버 설치 확인

REST 서버 및 해당 모델 구성 요소가 성공적으로 설치되었는지, 서버가 올바르게 초기화되었는지 확인하려면 다음 작업을 수행하십시오.

  1. 현재 작업 디렉터리가 Snowflake-H2Oai/Function인지 확인합니다.

  2. 별도의 터미널 창에서 다음 스크립트를 실행합니다.

./goVerifyEndPoint.sh
{ "data":[[1,0.7779838]]}

응답이 이 예시의 출력과 유사하면 REST 서버, 모델, 라이선스가 올바르게 설치된 것입니다.

REST 서버 중지하기

EC2 인스턴스에서 H2O REST 서버를 중지하려면 다음 명령을 실행하십시오.

cd Snowflake-H2Oai/Function
./stopServer.sh

외부 함수 예시

다음은 외부 함수의 예입니다.

create or replace api integration demonstration_external_api_integration_01
api_provider=aws_api_gateway
api_aws_role_arn='arn:aws:iam::nnnnnnnn:role/snowflake'
api_allowed_prefixes=('https://aaaaaaaa.execute-api.us-east-1.amazonaws.com/MojoTest')
enabled=true;

create or replace external function H2OPredict(v varchar, v0 number, v1 varchar, v2 number, v3 number, v4 number, v5 number, v6 varchar, v7 varchar, v8 number, v9 number, v10 number, v11 number)
returns variant
api_integration = demonstration_external_api_integration_01
as 'https://aaaaaaaa.execute-api.us-east-1.amazonaws.com/MojoTest';

함수 데이터 형식

앞의 함수는 13개의 매개변수(v~V11)를 전달합니다.

  • 매개변수의 수는 모델을 생성한 매개변수의 수와 일치합니다.

  • 테이블의 데이터가 부동 소수점이고 함수가 이를 사용하는 경우

SQL 예

Snowflake 및 AWS Gateway가 구성되면 다음 예시 SQL 문이 예측을 반환합니다.

select H2OPredict('Modelname=pipelineSF.mojo’, LOAN_AMNT, TERM, INT_RATE, INSTALLMENT, EMP_LENGTH, ANNUAL_INC, VERIFICATION_STATUS, ADDR_STATE, DTI, DELINQ_2YRS, REVOL_BAL, REVOL_UTIL ) from LENDINGCLUB where ADDR_STATE='NJ' order by ID;

런타임 매개변수 전달

다음은 REST 서버에 특정 값을 전달하는 데 사용되는 매개변수의 목록입니다.

  • Modelname: REST 서버 ModelDirectory 에 있는 Driverless AI MOJO 파일의 이름. 기본값은 pipeline.mojo 입니다.

  • Prediction: 사용할 수치 예측입니다. 기본값은 0입니다.

샘플 매개변수 사용

select *, H2OPredict('Modelname=pipelineSF.mojo Prediction=0',LOAN_AMNT, TERM, INT_RATE, INSTALLMENT, EMP_LENGTH, ANNUAL_INC, VERIFICATION_STATUS,
              ADDR_STATE, DTI, DELINQ_2YRS, REVOL_BAL, REVOL_UTIL ) from LENDINGCLUB;

Request: 10625, 36 months,6.62,326.23,4,33000,VERIFIED - income,WA,27.38,0,6290,46.3
Response: ["bad_loan.0 : 0.917305","bad_loan.1 : 0.08269503"]

0.917305

고급 설정

Snowflake 외부 함수를 사용하면 사용자 정의 HTTP 헤더를 정의할 수 있습니다. 다음 예에서는 HTTP 헤더 모델 이름이 함수에 추가되고 이 함수의 모든 호출에 대해 pipeline.mojo로 정의됩니다.

create or replace external function H2OPredictHDR(v0 number, v1 varchar, v2 number, v3 number, v4 number, v5 number, v6 varchar, v7 varchar, v8 number, v9 number, v10 number, v11 number)
returns variant
HEADERS=('modelname' = 'pipelineSF.mojo')
api_integration = demonstration_external_api_integration_01
as 'https://aaaaaaaa.execute-api.us-east-1.amazonaws.com/production';

이로 인해 함수 호출은 매개변수가 필요하지 않습니다. 각 모델에 대한 함수만으로 충분합니다.

select id, H2OPredictHDR(LOAN_AMNT, TERM, INT_RATE, INSTALLMENT, EMP_LENGTH, ANNUAL_INC, VERIFICATION_STATUS,
              ADDR_STATE, DTI, DELINQ_2YRS, REVOL_BAL, REVOL_UTIL ) from LENDINGCLUB;

필요한 경우 예측을 전달할 수도 있습니다. 그렇지 않으면 확률 0이 반환됩니다.

모델 빌드

Snowflake 외부 함수 기능을 사용해 Snowflake 워크시트에서 Driverless AI 모델을 빌드할 수 있습니다. 워크시트에서 Driverless AI에 모델을 빌드하도록 요청하면, MODELBUILD라는 테이블에 빌드 상태가 업데이트되어 빌드를 모니터링할 수 있습니다.

MODELBUILD table

이 테이블은 Snowflake의 특정 테이블 요청, REST 서버상의 채점을 위한 최종 배포 등 빌드되는 위험 모델의 다양한 단계를 보여줍니다.

Note: 빌드가 완료되면 감사 가능성(auditability) 용도의 빌드 실험 UUID가 보고됩니다.

빌드 함수의 예를 정의합니다.

create or replace external function H2OBuild(v varchar)
returns variant
api_integration = demonstration_external_api_integration_01
as 'https://bbbbb.execute-api.us-east-1.amazonaws.com/production';

Snowflake 테이블 정의

Snowflake 테이블은 모델 빌드의 상태를 추적하는 데 사용됩니다.

빌드 예시 요청

요청 매개변수를 변경하려면 H2OBuild 함수를 사용합니다.

select H2OBuild('Build --Table=LENDINGCLUB2 --Target=BAD_LOAN --Modelname=custchurn.mojo') ;

빌드 요청의 매개변수에 대한 자세한 내용은 다음 표를 참조하십시오.

빌드 매개변수

매개변수

옵션

설명

Table

아니요

모델 빌드에 사용할 Snowflake 테이블을 정의합니다.

Target

아니요

학습에서 모델 대상으로 사용할 열(특성) 이름

Modelname

아니요

배포 시 모델의 이름

Accuracy

모델 accuracy 설정

시간

모델 실험 시간

해석 가능성

모델 해석력 설정

User

Snowflake 테이블에 액세스하기 위해 필요한 사용자 이름

Password

Snowflake 테이블에 액세스하기 위해 필요한 암호

Warehouse

Snowflake 웨어하우스

Database

Snowflake 데이터베이스

Schema

Snowflake 스키마

배포

빌드가 완료된 모델은 REST 서버에 복사되고 H2OPredict 스코어링 함수에 사용할 수 있습니다.

구성

buildmodel.py 스크립트를 SnowFlake Function 디렉터리에서 REST 서버가 실행되는 위치로 복사해야 합니다. 이는 기본적으로 /home/ec2-user/Snowflake-H2Oai/Function 입니다.

Note: 스크립트 코드는 사용 중인 환경에 기반하여 업데이트해야 합니다.

Driverless AI Snowflake 구성

Driverless AI 구성은 사용자 보안과 관련된 설정을 제외하고는 표준 기본 설정값을 사용합니다. 사용 중인 환경에 가장 적합한 인증 방법을 사용하십시오. 자세한 내용은 config.toml 파일 사용인증 방법 를 참조하십시오.

   authentication_method = "local"
   local_htpasswd_file = "/home/ec2-user/dai-1.8.5.1-linux-x86_64/.htpasswd"

This resource must be secured from unauthorized access and use.

로컬 인증을 사용해 사용자 이름과 암호를 생성하는 방법은 다음과 같습니다.

sudo htpasswd -B -c .htpasswd snowflake
Password yourpassword

요구 사항

빌드 기능은 Driverless AI Python Client를 사용하여 실험을 생성하는 Python 프로그램을 호출합니다. 다음 패키지가 있어야 합니다.

  • sudo yum install httpd

  • sudo yum install python3

  • sudo pip3 install driverlessai

  • sudo pip3 install –upgrade snowflake-connector-python

샘플 워크북

다음 예는 초기 설정이 완료된 후 함수를 사용하는 방법을 보여줍니다.

Note: 다음 예시가 작동하려면 H2OBuild 및 H2OPredict를 정의해야 합니다.

  1. Snowflake 테이블 MODELBUILD의 업데이트를 사용하여 빌드의 각 단계를 추적합니다.

SELECT * FROM MODELBUILD;
  1. Snowflake 테이블 LENDINGCLUB2를 사용하여 BAD_LOAN 열을 예측하는 모델을 빌드합니다. 모델의 이름을 riskmodel.mojo로 지정합니다.

SELECT H2OBuild('Build --Table=LENDINGCLUB2 --Target=BAD_LOAN --Modelname=riskmodel.mojo') ;
  1. 모델이 배포되면 제안 Snowflake 함수 정의를 검색합니다.

SELECT H2OBuild('Modelname= riskmodel.mojo Function');
  1. 앞의 함수는 모델을 호출하기 위해 제안된 Snowflake SQL 문을 제공합니다.

SELECT H2OBuild('Modelname= riskmodel.mojo SQL') ;
  1. Snowflake 외부 함수를 사용합니다.

SELECT H2OPredict(LOAN_AMNT,  TERM,  INT_RATE,  INSTALLMENT,  EMP_LENGTH,  HOME_OWNERSHIP,  ANNUAL_INC,  VERIFICATION_STATUS,  ADDR_STATE,  DTI,  DELINQ_2YRS,  INQ_LAST_6MNTHS,  PUB_REC,  REVOL_BAL,  REVOL_UTIL,  TOTAL_ACC ) from LENDINGCLUB;