2021年12月22日 / 最終更新日時 : 2023年3月29日 netplateau AWSglue ジョブで、データの出力先を変数で設定する connection_options には辞書型でわたしてあげます。 output_place_dic の中身は下記になります。
2021年11月13日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue studio ETL実行時間を取得して、日付、時間ごとのカラムを追加する 目的:AWS glue で ETLジョブの実行時間(日本時間)を取得して、年、月、日、時間、分、秒ごとのカラムを追加する。 glue studio 最終的なノードの設定は下記になります。S3 bucket > Apply […]
2021年11月5日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue studioを使用してFilterクラスを設置する 目的:AWS glueでFilterクラスを使用して、必要な行を抽出する glue studio glue studioに移動して、「Visual with a source and target」選択し、「Create […]
2021年10月27日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue Pyspark 固定値を指定して新しいカラムを作成する 目的:姓と名で分かれているカラムを結合させて、新しいカラムにいれる。 モジュールのインポート pyspark.sqlをインポート DynamicFrameのインポート fromDFを使用するためにDynamicFrame […]
2021年10月27日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue Pysparkを使用してカラムの結合を行う 目的:姓と名で分かれているカラムを結合させて、新しいカラムにいれる。 モジュールのインポート pyspark.sql.functionsをsfとしてインポート DynamicFrameのインポート fromDFを使用する […]
2021年10月26日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glue 開発エンドポイントを使用してのPyspark検証 glueジョブ作成で生成されたスクリプトをもとに、glueの開発エンドポイントを使用して検証していく。 目的:姓(surname)と名(firstname)に分かれているカラムを結合して表示する。 モジュールpyspar […]
2021年10月14日 / 最終更新日時 : 2023年3月29日 netplateau AWSAWS glueジョブの作成 ジョブの作成 ジョブプロパティの設定 ・ジョブ名from_datacatalog_to_parquet ・IAM ロール先に設定したIAMロール ・Typeデフォルトのまま ・Glue versionデフォルトのまま ・ […]
2021年10月14日 / 最終更新日時 : 2021年10月14日 netplateau AWSAWS glueクローラ作成 IAMロール作成 ロール名:glue_test_Admin 信頼関係はglue ポリシーはテスト環境なのでアドミン 接続設定 名前:glue_test_s3 接続タイプ:Network アクセスは予め作成しておいたVPC […]
2021年4月19日 / 最終更新日時 : 2021年4月19日 netplateau AWSAWSでインスタンスタイプを変更する 参考サイトhttps://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ec2-instance-resize.html 1. Amazon EC2コンソー […]
2021年4月19日 / 最終更新日時 : 2021年4月19日 netplateau AWSAWSでスナップショットの作成 参考サイトhttps://docs.aws.amazon.com/ja_jp/AWSEC2/latest/UserGuide/ebs-creating-snapshot.html 1. Amazon EC2コン […]