2021年12月22日 / 最終更新日時 : 2023年3月29日 netplateau AWSglue ジョブで、データの出力先を変数で設定する connection_options には辞書型でわたしてあげます。 output_place_dic の中身は下記になります。
2021年11月13日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue studio ETL実行時間を取得して、日付、時間ごとのカラムを追加する 目的:AWS glue で ETLジョブの実行時間(日本時間)を取得して、年、月、日、時間、分、秒ごとのカラムを追加する。 glue studio 最終的なノードの設定は下記になります。S3 bucket > Apply […]
2021年11月5日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue studioを使用してFilterクラスを設置する 目的:AWS glueでFilterクラスを使用して、必要な行を抽出する glue studio glue studioに移動して、「Visual with a source and target」選択し、「Create […]
2021年10月27日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue Pyspark 固定値を指定して新しいカラムを作成する 目的:姓と名で分かれているカラムを結合させて、新しいカラムにいれる。 モジュールのインポート pyspark.sqlをインポート DynamicFrameのインポート fromDFを使用するためにDynamicFrame […]
2021年10月27日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue Pysparkを使用してカラムの結合を行う 目的:姓と名で分かれているカラムを結合させて、新しいカラムにいれる。 モジュールのインポート pyspark.sql.functionsをsfとしてインポート DynamicFrameのインポート fromDFを使用する […]
2021年10月26日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue 開発エンドポイントを使用してのPyspark検証 glueジョブ作成で生成されたスクリプトをもとに、glueの開発エンドポイントを使用して検証していく。 目的:姓(surname)と名(firstname)に分かれているカラムを結合して表示する。 モジュールpyspar […]
2021年10月14日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glueジョブの作成 ジョブの作成 ジョブプロパティの設定 ・ジョブ名from_datacatalog_to_parquet ・IAM ロール先に設定したIAMロール ・Typeデフォルトのまま ・Glue versionデフォルトのまま ・ […]