본문 바로가기

데이터분석

[요약] 데이터 아웃라이어 처리하기 How to Deal with Outliers in Your Data 내용을 한글로 정리해 보았습니다. 아웃라이어란? 아웃라이어란 데이터 상의 다른 값들의 분포와 비교했을때 비정상적으로 떨어져있는 관측치이다. 하지만, 어느정도가 비정상적으로 떨어져 있는 데이터인지 말하기는 참 모호하다. 아웃라이어의 정도에도 차이가 있다. (Mild outliers / Extrem outliers) 아웃라이어는 실제로 가치있는 정보를 담고 있을 수도 있으며, 기록의 실수인한 무의미한 정보일 수도 있다. 따라서 아웃라이어의 실제 의미가 무엇인지에 대해 의문을 품고, 분석할 필요성이 있다. 데이터에서 어떻게 아웃라이어를 잡아낼 것인가 Data visualization은 데이터 분석에 있어서 필수적이다.소통을 하기위해서도 중요..
선형방정식과 행렬에 대해 알아봅시다. 선형방정식과 행렬 지난 포스팅에서 선형방정식에 대해 간단히 다루어 봤습니다. 아래의 꼴을 가진 방정식을 선형방정식이라 불렀습니다. 행렬은 "수나 기호, 수식등을 사각형 형태로 배열"(위키백과)한 것을 의미합니다. 아래와 같은 모양을 하고 있습니다. 아래는 3 개의 행과 2 개의 열을 가지고 있는 3x2 행렬입니다. (각 원소의 아래첨자 중 앞에 있는 것이 행, 뒤에 있는 것이 열을 가리킵니다.) 바로 이 행렬로 선형방정식을 표현할 수 있습니다. 예를 들어 아래와 같은 세 개의 선형방정식이 있습니다. 위의 선형 방정식을 행렬로 표현하면 다음과 같이 표현할 수 있습니다. 행렬 곱은 따로 설명하지 않겠습니다. 행렬 곱에 대해 잘 모르시는 분들은 여기를 참고해주세요. 이를 일반화하면 다음과 같습니다. 아래와 같..
벡터공간에 대해서 알아보자 (벡터, 벡터공간, 선형방정식) 지난 시간에는 선형대수를 왜 배워야하는지, 또 무엇을 배우는지를 살펴봤습니다. 그리고 벡터와 스칼라에 대해 잠시 다뤘는데요. 오늘은 벡터에 대해 다시 알아보고, 벡터들이 이루는 공간인 벡터공간에 대해 알아보겠습니다. 벡터 (Vector) 지난 시간에 설명했듯이, 벡터는 크기와 방향을 가진 성분입니다. 따라서 다음과 같이 좌표계에 화살표를 이용해 나타낼 수 있습니다. 하지만 4 차원, 5 차원 이상의 벡터를 좌표계에 표시하기는 불가능합니다. 또한 벡터를 화살표로 나타낼 수 있다 해도, 늘 이렇게 표현하기는 불편하죠. 따라서 숫자의 나열로도 나타낼 수 있습니다. 행벡터와 열벡터로 나타낼 수 있지만, 주로 벡터라고 하면 열벡터를 의미합니다. 벡터공간 (Vector Space) 지난 시간에 선형대수는 벡터공간을..
선형대수 왜 공부해야할까? 선형대수 왜 공부할까? 요즘 KOCW 에서 이옥연 교수님이 강의하시는 선형대수학 강의를 듣고 있습니다. 현재 앞부분만 들었는데, '어떻게 이렇게 선형대수를 잘 가르치시나'하는 생각이 듭니다.. 대학교 1 학년 때 학교에서 선형대수를 들었고, KOCW 에서 이상화 교수님의 선형대수 강의를 들었지만 왜 선형대수, 벡터, 행렬 같은 것들을 배우는지 막막했는데 이 부분에 대한 명쾌하고 쉬운 답을 주십니다. 아래는 이옥연 교수님의 강의 링크입니다. KOCW 선형대수학 및 연습 선형대수는 무엇을 공부하는 학문인가? 선형대수는 기본적으로 벡터공간을 공부하는 학문입니다. 벡터공간을 이해하기 위한 도구로서 행렬, 내적, 기저, 등을 배웁니다. 벡터공간에 대한 자세한 정의는 컨텐츠를 연재하면서 선형대수를 공부하면서 차차 ..