본문 바로가기

개발/파이썬

자주쓰는 명령어로 배우는 Pandas #4 : 데이터 능숙하게 다루기 자주쓰는 명령어로 배우는 Pandas 3편에 이어 4편입니다. 이번 편이 마지막 편입니다! 1편, 2편, 3편에서 작성했던 코드 결과들은 계속 유지되니 직접 실습을 따라 하고 싶으신 분들은 이전 시리즈를 참고해주세요. 지난번 실습까지 잘 따라오셨다면, 아래와 같은 데이터 프레임을 가지고 있으실 겁니다. df.head() 실행결과 참고사항: 이번 포스트에서 보여드리는 대부분의 예시에서는 원본 df를 변경시키지 않기 위해 연산 결과를 다시 df에 지정시키지 않습니다. 연산 결과로 데이터를 변경시키기 위해서는 df = 연산결과구문을 활용해서 원본 데이터를 변경해주시면 됩니다. 데이터 마스킹(Masking) 하기 요즘 코로나 때문에 모두들 마스크를 써서 입을 가리죠? 데이터에서도 일부 데이터를 가린다는 의미로 ..
자주쓰는 명령어로 배우는 Pandas #3 : 데이터 조작하기 자주쓰는 명령어로 배우는 Pandas 2편에 이어 3편입니다. 이번에는 데이터를 조작해보겠습니다. 1편, 2편에서 작성했던 코드 결과들은 계속 유지되니 직접 실습을 따라 하고 싶으신 분들은 이전 시리즈를 참고해주세요. 지난번 실습까지 잘 따라오셨다면, 아래와 같은 데이터 프레임을 가지고 있으실 겁니다. df.head() 실행결과 데이터 요약하기 우선 데이터를 조작하기에 앞서 DataFrame의 데이터를 요약하여 확인하는 방법을 알아보겠습니다. 데이터프레임의 각 컬럼별 타입 확인하기 데이터가 어떤 타입으로 이루어져 있는지 확인이 필요할 때가 있습니다. df.dtypes를 입력하면 데이터프레임의 타입을 확인할 수 있습니다. df.dtypes 아래 실행결과에서 object라고 되어있는 것은 문자열 타입이라고 ..
자주쓰는 명령어로 배우는 Pandas #2 : Index와 Column 조작하기 자주쓰는 명령어로 배우는 Pandas 1편에 이어 2편입니다. 이번에는 Index와 Columns를 직접적으로 조작해보도록 하겠습니다. 1편에서 작성했던 코드 결과들은 계속 유지되니 직접 실습을 따라 하고 싶으신 분들은 1편을 참고해주세요. 지금까지의 데이터프레임은 이렇게 생겼습니다. df.head() 실행결과 Index 조작하기 Index 초기화 기존에 설정된 인덱스를 초기화하려면 reset_index 메소드를 사용하면 됩니다. df = df.reset_index() df.head() 실행결과 Index 설정하기 특정 컬럼을 Index로 설정하고 싶으시다면, 해당 컬럼을 set_index 메소드의 인자로 넣으시면 됩니다. df = df.set_index("username") df.head() 실행결과 ..
자주쓰는 명령어로 배우는 Pandas #1 : Pandas와 데이터 살펴보기 시작 전 당부 앞으로 소개할 메소드들에 대해서, DataFrame이나 Series의 구분은 크게 하지 않았습니다. 대부분의 매소드들은 Series와 DataFrame 모두 사용 가능하며, 일부는 둘 중 하나에서만 적용됩니다. 기본적인 사용 케이스들만 소개하며, 세부적인 인자 컨트롤 등은 다루지 않았습니다. 보다 세부적인 컨트롤을 원한다면, 직접 검색해가면서 찾아봅시다! Pandas API문서와 Pandas User Guide는 최고의 퀄리티를 자랑합니다. 예시를 위해서 어색한 케이스가 있을 수 있습니다. 해당 부분들은 너그럽게 이해해주시면 감사하겠습니다. 또한, 틀린 부분이 있으면, 댓글로 남겨주시면 반영하도록 하겠습니다.😄 준비사항 실습을 위해 필요한 라이브러리 jupyter (jupyter noteb..
Django에서 Replica DB가 있을 때의 테스트 코드 문제 해결하기 Django에서 ReplicaDB (ReadonlyDB)가 있을 때 테스트 코드를 작성하면 다음과 같은 문제가 발생할 수 있습니다. 분명 데이터베이스 쓰기에 성공했는데, 해당 데이터를 읽어보면 데이터가 없는 경우가 있습니다. 데이터를 default DB에 입력했는데, 읽는 것은 readonly DB에서 읽으려고 해서 해당 문제가 발생합니다. 테스트 코드를 작성하는 상황에서는 보통 로컬에서 DB를 생성하기 때문에 replica DB를 따로 사용하지 않을 가능성이 크기 때문입니다. Django의 공식문서를 확인하면 replicaDB에 대해서는 MIRROR를 defaultDB로 설정하여 replica DB에 대해서 DB생성을 막는 방법을 알려줍니다. 아래는 Django 공식문서의 예제입니다. DATABASES..
Django ELB ALLOWED HOSTS 에러 수정 *AWS Elastic Load Balancer를 사용해서 Django 애플리케이션에 로드밸런싱을 하면 Health Check가 계속 실패하고, 로그를 확인해보면 아래와 같은 문제가 생기는 경우가 있습니다. Invalid HTTP_HOST header: . You may need add to ALLOWED_HOSTS Health Check를 시도하는 IP주소가 Django Settings 중의 하나인 ALLOWED_HOSTS에 등록되어 있지 않아서 발생하는 문제이다. ALLOWED_HOSTS = ["*"]로 해결할 수 있지만 이는 보안상 좋지 않습니다. 해당 IP를 ALLOWED_HOSTS에 등록하는 것도 해결책은 아닙니다. ELB의 Private IP가 계속 바뀌기 때문입니다. 이를 해결하는 솔루션은 ..
프로그래밍 폴더 구조에 대한 생각정리 코딩을 할 때 가장 고민을 많이 했던 부분이 바로 폴더 구조이다. 어떤 폴더들이 있어야 할지 그리고 해당 폴더들에는 어떤 파일들이 들어가야 할지가 정리가 잘 되지 않았다. 예를 들면 utils폴더와 libs폴더, core폴더의 차이점들은 뭔지, 현재 작업하고 있는 파일들은 utils로 봐야 할지 core로 넣어야 할지 등이 굉장히 애매했다. 얼마 전 팀원들이랑 관련해서 이야기를 나눴는데 역시 모두 다 해당 부분에 대해서 고민을 하고 있었다. 많이 고민해보고 여러 오픈소스들을 참고하면서 나름의 정리를 하게 되었고 해당 부분을 기록한다. 1. 정해진 정답은 없다. ⭕❌ 잘나가는 오픈소스들도 기준이 달랐다. utils.py나 utils.js처럼 utils를 파일로만 관리하는 곳도 있고, utils를 폴더로 관..
[TIL] JWT 로그인 구현과 보안 용어정리 XSS 공격: 사이트 내에 HTML에 자바스크립트를 삽입하는 공격. 로그인 과정에서 이를 통해 사용자 토큰을 갈취할 수도 있음 CSRF 공격: 정말 유사한 다른 사이트를 만들어서 이용자를 속임. 로그인 과정에서 이를 통해 토큰을 갈취할 수 있음 REST API를 통해 사이트를 구현할 때, JWT 인증 방식을 구현하고 이를 브라우저에 저장하는 방식은 크게 두가지가 있음 1번: 토큰을 로컬 스토리지에 저장 2번: 토큰을 쿠키에 저장 (httponly) 1번의 경우에는 XSS 공격의 위험에 노출됨 2번의 경우에는 XSS 공격에는 안전하지만 CSRF 공격의 위험에 노출됨 (단, httponly 속성이 true가 아닌 경우에는 XSS 공격에 취약함 하지만, CSRF 공격을 막을 수 있는 방법이 있음 쿠키..