본문 바로가기
통계

multidimensional scaling (MDS) 의 개념과 PCA 와의 차이점

by 프들이 2023. 5. 25.
반응형

bing 에게 물었다. "The concept of MDS and what is the difference between PCA and MDS"

아래는 그 답이다.

In this blog post, I will explain the concept of multidimensional scaling (MDS) and how it differs from principal component analysis (PCA). Both methods are used for dimensionality reduction, which means transforming a high-dimensional data set into a lower-dimensional representation that preserves some of the essential features of the original data.

MDS is a technique that tries to find a configuration of points in a low-dimensional space that best preserves the distances or dissimilarities between the original data points. For example, if we have a data set of cities and their distances from each other, we can use MDS to map them onto a two-dimensional plane such that the Euclidean distances between the points on the plane are as close as possible to the actual distances between the cities. MDS can also handle other types of dissimilarities, such as correlation coefficients or semantic similarities.

PCA is a technique that tries to find a set of orthogonal axes in a low-dimensional space that best capture the variance or variability of the original data. For example, if we have a data set of students and their scores on different subjects, we can use PCA to find a few principal components that explain most of the variation in the data. The first principal component is the direction along which the data has the highest variance, the second principal component is the direction orthogonal to the first one that has the next highest variance, and so on. PCA can also handle other types of covariance matrices, such as singular value decomposition or factor analysis.

The main difference between MDS and PCA is that MDS tries to preserve the distances or dissimilarities between the data points, while PCA tries to preserve the variance or variability of the data. MDS is more suitable for data that has a meaningful notion of distance or similarity, such as geographic or semantic data. PCA is more suitable for data that has a meaningful notion of variance or covariance, such as numeric or continuous data. Both methods have their advantages and limitations, and they can be used for different purposes depending on the nature and goal of the analysis.

내가 한 번역

MDS 와  PCA 는 둘 다 차원 축약에 사용되는 방법이고 고차원 데이터의 중요한 특징들을 보전하여 저차원에 표현해줄 수 있는 방법이다.

MDS 는 고차원상의 원래 데이터들이 가지고 있는 거리 또는 차이점을 보전하여 저차원에 표현하는데에 가장 잘 할 수 있는 점들의 구성을 찾는다. 예를 들어 도시와 각 도시사이의 거리에 대한 데이터가 있을때  MDS 는 평면위의 점들사이에 유클레디안 거리와 같은 것을 이용해서 배치한다. MDS 는 유클레디안 거리외에도 다른 종류의 차이점을 측정하는 상관계수나 의미적 유사도 등을 표현할 수 있다.

PCA는 원데이터의 분산을 가장 잘 설명할 수 있는 저차원상의 수직좌표계의 집합을 찾는 기술이다. 예를 들어 각 학생별 교과목의 성적표가 있다면 PCA 를 이용하여 그 데이터에서 나타나는 분산을 가장 잘 설명할 수 있는 몇 개의 주성분(principal components)을 찾는다. 첫번째 주성분은 데이터에서 나타나는 가장 큰 분산을 표현하며 두번째 분산은 첫번째 주성분에 수직한 두번째로 큰 분산을 찾는 식이다. PCA 는 다른 종류의 공분산행렬을 다룰 수 있다. 예를 들어 singular value decomposition 또는 factor analysis 등이 있다.

MDS 와 PCA 의 차이점은 MDS 는 데이터들사이의 거리 또는 차이점을 보전하려는데 있으며 반면에  PCA 는 분산을 보전하려는데 있다. 즉 데이터의 거리또는 차이점을 표현하고 싶으면 MDS 를 사용하고 분산을 표현하고 싶으면 PCA 를 사용하면 된다. 두 방법은 각자의 장점과 한계점이 존재하므로 분석하려는 본질과 목적에 따라서 다르게 사용하면 된다.

반응형

댓글