AWS glueジョブの作成

ジョブの作成

ジョブプロパティの設定

・ジョブ名
from_datacatalog_to_parquet

・IAM ロール
先に設定したIAMロール

・Type
デフォルトのまま

・Glue version
デフォルトのまま

・このジョブ実行
デフォルトのまま

・スクリプトファイル名
デフォルトのまま

・スクリプトが保存されている S3 パス
バケットに作成したフォルダを設定

s3://datalake-test-datacatalog-s3/script

・一時ディレクトリ
バケットに作成したフォルダを設定

s3://datalake-test-datacatalog-s3/tmp

その他もとりあえずデフォルトのまま

データソースの選択

先にクローラで作成したデータカタログテーブル
「from_csv_to_datacatalog_upload_csv」にチェック

変換タイプ

とりあえず「スキーマを変更する」にチェック

データターゲットの選択

「データターゲットでテーブルを作成する」にチェック

・データストア
Amazon S3

・形式
Parquet

・接続
先に設定した接続

・ターゲットパス
バケットに作成したparquetファイル置場を設定

s3://datalake-test-datacatalog-s3/parquet

データターゲット

スキーマの削除等、変更を行う場合はここで設定。

スクリプト編集

スクリプトの変更を行う場合はここで編集。

「保存」を押し、「ジョブの実行」を押下

作成されたparquetファイル確認

ジョブのデータターゲットの設定で設定したs3フォルダに移動。
s3://datalake-test-datacatalog-s3/parquet

作成されたparquetファイルにチェックを入れて「アクション」から「S3 Selectを使用したクエリ」を選択

・入力設定
「Apache Parquet」にチェック

・出力設定
形式「csv」、
区切り記号「カンマ」にチェック

「SQLクエリの実行」ボタンを押下

「クエリ結果」を確認して問題なければ終了。

(データはテストデータ、実在しない人物のデータです)