AWS glueジョブの作成
ジョブの作成
ジョブプロパティの設定
・ジョブ名
from_datacatalog_to_parquet
・IAM ロール
先に設定したIAMロール
・Type
デフォルトのまま
・Glue version
デフォルトのまま
・このジョブ実行
デフォルトのまま
・スクリプトファイル名
デフォルトのまま
・スクリプトが保存されている S3 パス
バケットに作成したフォルダを設定
s3://datalake-test-datacatalog-s3/script
・一時ディレクトリ
バケットに作成したフォルダを設定
s3://datalake-test-datacatalog-s3/tmp
その他もとりあえずデフォルトのまま

データソースの選択
先にクローラで作成したデータカタログテーブル
「from_csv_to_datacatalog_upload_csv」にチェック

変換タイプ
とりあえず「スキーマを変更する」にチェック

データターゲットの選択
「データターゲットでテーブルを作成する」にチェック
・データストア
Amazon S3
・形式
Parquet
・接続
先に設定した接続
・ターゲットパス
バケットに作成したparquetファイル置場を設定
s3://datalake-test-datacatalog-s3/parquet

データターゲット
スキーマの削除等、変更を行う場合はここで設定。

スクリプト編集
スクリプトの変更を行う場合はここで編集。
「保存」を押し、「ジョブの実行」を押下


作成されたparquetファイル確認
ジョブのデータターゲットの設定で設定したs3フォルダに移動。
s3://datalake-test-datacatalog-s3/parquet

作成されたparquetファイルにチェックを入れて「アクション」から「S3 Selectを使用したクエリ」を選択

・入力設定
「Apache Parquet」にチェック
・出力設定
形式「csv」、
区切り記号「カンマ」にチェック
「SQLクエリの実行」ボタンを押下

「クエリ結果」を確認して問題なければ終了。
(データはテストデータ、実在しない人物のデータです)
