이 문서는 Google Cloud Translation API를 사용해 자동 번역되었습니다.
어떤 문서는 원문을 읽는게 나을 수도 있습니다.
이 게시물에서는 TensorFlow.js 및 Node.js와 함께 사용하기 위해 데이터를 사전 처리하는 방법을 알아봅니다.
데이터 전처리는 기계 학습에서 중요한 단계입니다. 데이터 전처리가 기계 학습 작업의 80%를 차지한다고 종종 말합니다. 그 이유는 데이터의 품질이 기계 학습 알고리즘의 성능에 큰 영향을 미치기 때문입니다.
데이터를 전처리하는 방법에는 여러 가지가 있습니다. 사용하는 방법은 보유하고 있는 데이터 유형과 사용 중인 기계 학습 알고리즘에 따라 다릅니다.
이 게시물에서는 데이터 전처리의 두 가지 방법에 중점을 둘 것입니다.
정규화는 데이터가 특정 범위 내에 있도록 데이터를 재조정하는 데 사용되는 기술입니다. 데이터를 정규화하는 방법에는 여러 가지가 있지만 가장 일반적인 방법은 데이터를 범위 [0, 1]로 다시 조정하는 것입니다.
이는 최소값이 0이고 최대값이 1이 되도록 데이터의 크기를 조정하는 min-max 방법을 사용하여 수행할 수 있습니다.
이를 위해서는 먼저 데이터의 최소값과 최대값을 찾아야 합니다. 그런 다음 다음 수식을 사용하여 데이터의 크기를 조정할 수 있습니다.
x' = (x - min) / (max - min)
여기서 x는 원본 데이터, x'는 재조정된 데이터, min은 최소값, max는 최대값입니다.
min-max 방법을 사용하여 훈련 세트의 데이터를 재조정할 수 있습니다. 그런 다음 재조정된 데이터를 사용하여 기계 학습 알고리즘을 훈련할 수 있습니다.
데이터 증대는 훈련 데이터의 크기를 인위적으로 늘리는 데 사용되는 기술입니다. 이는 기존 데이터에서 새 데이터 포인트를 생성하여 수행됩니다.
데이터 증대를 수행하는 방법에는 여러 가지가 있습니다. 가장 일반적인 방법은 무작위 변환을 사용하여 새 데이터 포인트를 만드는 것입니다.
예를 들어 이미지를 무작위로 약간 회전하여 새 데이터 포인트를 만들 수 있습니다. 이미지를 임의로 잘라서 새 데이터 포인트를 만들 수도 있습니다.
데이터 증대는 기계 학습 알고리즘의 성능을 개선하는 데 사용할 수 있는 강력한 기술입니다.
이번 포스트에서는 데이터 전처리의 두 가지 방법인 정규화와 데이터 증대에 대해 배웠습니다. TensorFlow.js 및 Node.js에서 이러한 메서드를 구현하는 방법도 배웠습니다.