Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- duckdb
- 釜つる
- 방콕
- 카마츠루
- react.js
- local
- PayPay
- terraform
- CSV
- javascript
- vba
- codebuild
- 태국
- JenkinsFile
- 체코
- 三井住友カード
- Python
- 미츠이 스미토모
- 뮌헨
- 熱海
- 페이페이
- Selenium
- documentdb
- 아타미
- pyenv
- PostgreSQL
- node.js
- 프라하
- typescript
- 메르페이
Archives
- Today
- Total
도쿄사는 외노자
Glue Crawler로 쌍따옴표가 포함된 CSV파일 읽기 본문
Glue Crawler로 대충 아래와 같은 데이터를 읽어와야 했다.
대충 Crawler를 만들어 돌려 보니, Athena에서 이렇게 표시되더라.
쌍따옴표 안의 자릿수 콤마를 그냥 무식하게 나눠버린 것.
일단 해결책은 아래와 같다.
https://docs.aws.amazon.com/ko_kr/athena/latest/ug/glue-best-practices.html#schema-csv-quotes
Glue Console에서도 간단하게 대응 가능하니, 좌절하지 말고 이것만 넣어주자.
테이블 화면에서 Actions -> Manage -> Edit table 선택
각 항목에 이하 입력
- Serialization lib: org.apache.hadoop.hive.serde2.OpenCSVSerde
- Serde parameters:
- escapeChar: \
- quoteChar: "
- separatorChar: ,
저장하고 바로 Athena로 돌아와 Select돌려보면 제대로 나온다.
'Tech > AWS for Data Engineering' 카테고리의 다른 글
Eventbridge Scheduler를 이용한 Teams 자동 통지 (0) | 2024.01.22 |
---|---|
AWS Glue Job에서 Tableau에 Hyper파일 Publish하기 (1) | 2023.04.20 |
Terraform으로 CloudTraild의 Cloudwatch 만들 때 조심할 것 (0) | 2022.12.14 |
AWS Glue Job을 종료시키고 싶을 때 (0) | 2022.10.26 |
Athena, Redshift에서의 CSV 줄바꿈 미대응 문제 (0) | 2022.10.20 |