この記事は Google Cloud Translation APIを使用した自動翻訳です。
いくつかの文書は原文を読むのに良いかもしれません。
#AWS Glue:クラウドでのデータ処理とETLの自動化
##はじめに
ETLは抽出、変換、およびロードを表します。複数のソースからデータを抽出してデータウェアハウスにロードできる形式に変換し、データウェアハウスにロードするプロセス。 ETLはデータ処理と分析の重要な部分であり、時間がかかり、複雑なプロセスである可能性があります。
AWS Glueは、分析のためにデータを簡単に準備およびロードできるようにする完全管理型ETLサービスです。データ検索からデータ変換、データロードまで、ETLのあらゆる側面を処理できます。 Glueは、データを抽出、変換、ロードするコードを自動的に生成できます。データソースを自動的に検索して登録し、データを適切なデータ型にマッピングすることもできます。
AWS Glueは、さまざまなデータソースからデータを取得および抽出できます。 JDBC ドライバーを使用してデータソースに接続でき、Amazon S3 データソースにも接続できます。
JDBCデータソースからデータを抽出するには、まずGlue接続を作成する必要があります。接続は、データソースに接続するために必要なパラメータを定義します。接続を作成したら、それを使用してクローラーを実行できます。クローラは、データソースをスキャンしてデータのスキーマを生成するGlue操作です。スキーマはAWS Glueデータカタログに保存されます。
クローラを実行したら、Glueジョブを作成してデータソースからデータを抽出できます。ジョブはデータソースからデータを読み取り、Amazon S3 データターゲットに書き込みます。データを新しい Amazon S3 バケットに書き込むことを選択するか、既存の Amazon S3 バケットを上書きできます。
データを抽出したら、AWS Glueを使用して変換できます。 Glueは、さまざまなデータ変換操作を処理できる強力なETLエンジンを提供します。
データを変換するには、まずGlueジョブを作成する必要があります。 Glue ジョブは、実行する ETL プロセスを定義します。 AWS Glueコンソールを使用してGlueジョブを作成および編集できます。
Glueジョブを作成したら、Glue変換をジョブに追加できます。 Glue変換は、データソースからデータを読み取るときにデータを変更するために使用されます。たとえば、Glue 変換を使用してデータをフィルタリングしたり、列のデータ型を変更したりできます。
Glue変換を追加したら、Glueジョブを実行できます。ジョブはデータソースからデータを読み取り、Glue変換を適用し、変換されたデータをAmazon S3データターゲットに書き込みます。
データを変換したら、データウェアハウスにロードできます。 AWS Glueは、Amazon Redshift、Amazon DynamoDB、およびAmazon Auroraにデータをロードできます。
データウェアハウスにデータをロードする前に、Glueジョブを作成する必要があります。 Glue ジョブは、実行する ETL プロセスを定義します。 AWS Glueコンソールを使用してGlueジョブを作成および編集できます。
Glueジョブを作成したら、Glueデータロード変換をジョブに追加できます。 Glueデータロード変換は、データをデータウェアハウスにロードするために使用されます。データを新しいテーブルにロードすることを選択するか、データを既存のテーブルに追加できます。
Glueデータロード変換を追加したら、Glueジョブを実行できます。ジョブはデータソースからデータを読み込み、Glue変換を適用し、データをデータウェアハウスにロードします。
##結論
AWS Glueは、分析のためにデータを簡単に準備およびロードできるようにする完全管理型ETLサービスです。データ検索からデータ変換、データロードまで、ETLのあらゆる側面を処理できます。 Glueは、データを抽出、変換、ロードするコードを自動的に生成できます。データソースを自動的に検索して登録し、データを適切なデータ型にマッピングすることもできます。