일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
Tags
- 셀레니움
- 유사도
- authentication faile
- Rout 53
- 빠른 개발
- bow
- bag of words
- 일반항 유도
- 하드코딩
- IDE 추천
- python-docx
- VS Code
- 로그인 후 크롤링
- 피보나치 수열
- 통합개발환경 추천
- tf-idf
- AWS
- 웹 사이트 만들기
- 통계적 언어모델
- 성능비교
- 좋은 기능
- 블로그 도메인 주소 변경
- 플라스크
- 가상환경
- 웹 개발
- 자연어 처리
- 계정정보
- token
- 디버깅
- 코드 구현
Archives
- Today
- Total
목록2021/11/18 (1)
DoITgrow
[텍스트 전처리] 문장에서 영어만 남기고, 한글은 제거하는 방법 (feat. 파이썬)
분석의 결과는 데이터 품질에 따라 크게 좌우되므로 분석에 앞서 전처리하는 과정이 매우 중요합니다. 아마도 분석을 하고 계시는 분들은 실제 분석보다도 분석을 위한 준비 시간이 약 70% 이상을 차지하신다는 것을 잘 아실 것 같습니다. 분석을 위해 수집하는 데이터에는 엄청나게 많은 노이즈들이 포함될 수 있습니다. 예를들어 영어 데이터를 분석하려고 하는데 기타 언어들이 포함되어 있는 경우가 있을 수 있는데 이때 인코딩/디코딩 기법을 사용하여 쉽게 처리하는 방법에 대해 소개드리려고 합니다. 인코딩/디코딩 우리가 코딩할 때 타이핑하는 글자들은 사람이 이해할 수 있는 방식으로 표현된 것일 뿐, 실제로 컴퓨터는 다르게 받아들여서 이해를 합니다. 우리는 코딩을 하며 이러한 과정을 보통 볼 수 없는데, 컴퓨가 알아서 입..
딥러닝 & 머신러닝/자연어 처리 (Natural Language Processing)
2021. 11. 18. 09:25