상세정보
미리보기
파이썬 텍스트 마이닝 바이블 1 : 파이썬 기초부터 트랜스포머, BERT, GPT까지 - 심층 이론과 실습으로 배우는 텍스트 마이닝의 모든 것
- 저자
- 이상엽 저
- 출판사
- 위키북스
- 출판일
- 2024-03-22
- 등록일
- 2024-04-30
- 파일포맷
- PDF
- 파일크기
- 21MB
- 공급사
- YES24
- 지원기기
-
PC
PHONE
TABLET
웹뷰어
프로그램 수동설치
뷰어프로그램 설치 안내
책소개
기계학습과 딥러닝 알고리즘, 텍스트 분석을 이 책 한 권으로 끝내자!기계학습과 딥러닝 알고리즘을 이용해서 텍스트 분석을 잘하기 위해서는 알고리즘의 작동원리를 정확히 이해하는 것이 중요합니다. 이 책은 텍스트 분석 실습뿐 아니라, 텍스트 분석에서 중요한 역할을 하는 기계학습과 딥러닝 알고리즘의 작동 원리를 자세히 설명합니다. 알고리즘의 이해를 돕기 위해, 알고리즘을 이해하는 데 필요한 수학 개념(벡터, 행렬, 확률 등)에 관한 설명도 제공합니다. 텍스트 분석이나 코딩 경험이 없는 독자도 쉽게 접할 수 있도록, 파이썬 기초와 텍스트 분석의 기초, 텍스트 분석을 하는 데 필요한 기본적인 내용(웹스크레이핑, 정규표현식 등)에 관해서도 부록에서 다룹니다.
저자소개
연세대학교 언론홍보영상학부 부교수이며 연세대학교 인공지능대학의 겸임 교수로 활동하고 있다. 파이썬 코딩, 빅데이터 통계 분석, 기계학습, 딥러닝, 텍스트 마이닝 등의 수업을 진행하며, 컴퓨테이셔널 미디어 랩을 운영하면서 사회현상과 관련된 온라인 비정형 데이터를 통계 방법과 기계학습?딥러닝 알고리즘을 이용해 분석하는 연구를 수행하고 있다. 연세대학교에서 컴퓨터 과학을 공부했고, 미시간 주립대에서 미디어?정보 전공으로 석사와 박사 학위를 받았다.
목차
[1부] 텍스트 전처리와 기초 분석1장: 텍스트 분석1.1 텍스트 분석이란1.2 텍스트 분석의 일반적 절차1.3 텍스트 분석의 종류2장: 파이썬 개발 환경 구축하기2.1 아나콘다(Anaconda) 설치2.2 주피터 노트북 사용 방법___2.2.1 주피터 노트북 실행 방법___2.2.2 주피터 노트북의 이름 변경 방법___2.2.3 주피터 노트북 종료하기2.3 구글 코랩 사용하기3장: 파이썬 기본 문법3.1 파이썬의 기본적인 구성 요소: 변수와 함수___3.1.1 변수___3.1.2 함수___3.1.3 주석 달기3.2 데이터 타입___3.2.1 숫자___3.2.2 리스트___3.2.3 문자열___3.2.4 사전___3.2.5 튜플___3.2.6 집합___3.2.7 데이터 타입 변환3.3 if-else 조건문___3.3.1 if 구문___3.3.2 if-else 구문: if 구문의 조건이 만족하지 않는 경우에도 코드 실행하기___3.3.3 if-elif-else 구문: 여러 개의 조건 사용하기___3.3.4 하나의 구문에서 여러 개의 조건 동시 사용하기3.4 for 반복문___3.4.1 for 반복문 사용하기___3.4.2 for 문에서 range() 함수 사용하기___3.4.3 continue와 break 키워드 사용하기___3.4.4 여러 개의 튜플 원소의 값 동시에 사용하기___3.4.5 enumerate() 함수 사용하기___3.4.6 리스트 컴프리헨션3.5 while 반복문___3.5.1 while 반복문 사용하기___3.5.2 continue와 break 사용하기3.6 사용자 정의 함수___3.6.1 사용자 함수 만들기___3.6.2 위치 기반 파라미터(Positional parameters)___3.6.3 파라미터의 이름을 사용하여 인자 전달하기___3.6.4 파라미터의 기본값 설정하기___3.6.5 입력받는 인자의 수가 정해지지 않은 경우___3.6.6 파라미터의 이름을 미리 정의하지 않는 경우___3.6.7 lambda 키워드 사용하기3.7 파일 읽기/쓰기(File input / output)___3.7.1 파일에 접근하기 (또는 새로운 파일 생성하기)___3.7.2 파일의 내용 읽기___3.7.3 파일에 내용 쓰기___3.7.4 추가 모드 사용하기___3.7.5 한글 처리___3.7.6 with … as 구문 사용하기___3.7.7 대용량 파일 내용 읽어오기3.8 모듈 사용하기___3.8.1 파이썬에서 기본으로 제공되는 모듈 사용하기___3.8.2 새로운 모듈 설치하기___3.8.3 사용자 정의 모듈 만들기___3.8.4 모듈에서 특정 함수만 임포트하기___3.8.5 import 키워드가 모듈을 찾는 경로3.9 에러 처리___3.9.1 에러의 예___3.9.2 에러 처리하기3.10 클래스___3.10.1 클래스란?___3.10.2 나만의 클래스 만들기___3.10.3 상속4장: 정규표현식4.1 패턴 만들기4.2 파이썬에서 정규표현식 사용하기___4.2.1 특정 패턴을 만족하는 문자열을 찾는 데 사용되는 함수들___4.2.2 패턴을 만족하는 문자열 찾기4.3 대괄호의 기능4.4 Alternation 기능4.5 수량자4.6 매치되는 결과 그루핑하기4.7 특수 기호를 원래 기호의 의미로 사용하기4.8 문자열 조작하기___4.8.1 split()___4.8.2 sub()4.9 텍스트 전처리에서 알아두면 유용한 것들___4.9.1 문장 간 띄어쓰기가 안 되어 있는 경우___4.9.2 두문자어 혹은 약어를 나타낼 때 사용하는 마침표 없애기___4.9.3 기호 없애기___4.9.4 대문자 중에서 문장의 첫 글자만 소문자로 변경하기5장: 텍스트 전처리 소개5.1 텍스트 전처리란?___5.1.1 전처리의 주요 과정5.2 영어 텍스트 전처리___5.2.1 불필요한 기호 또는 표현 없애기___5.2.2 대소문자 통일하기___5.2.3 토큰 단위로 분할하기___5.2.4 단어의 품사 찾기___5.2.5 원하는 품사의 단어만 선택하기___5.2.6 단어의 원형(혹은 줄기) 찾기___5.2.7 불용어 제거5.3 한글 텍스트 전처리하기___5.3.1 한글의 형태론적 특성___5.3.2 한글 텍스트의 전처리 개요___5.3.3 불필요한 기호/표현 제거하기___5.3.4 형태소 분석 [토큰화 + 원형찾기 + 품사찾기]___5.3.5 불용어 제거___5.3.6 그 밖에 알아둘 점6장: 기본적인 텍스트 분석 방법6.1 빈도 분석___6.1.1 단어의 출현 빈도 파악하기___6.1.2 워드 클라우드 시각화6.2 텍스트 네트워크 분석___6.2.1 단어들 간의 네트워크 분석___6.2.2 네트워크 분석 기초___6.2.3 NetworkX를 이용한 네트워크 분석___6.2.4 텍스트 네트워크 분석[2부] 기계학습을 이용한 텍스트 분석7장: 확률의 이해7.1 시행과 사건___7.1.1 시행___7.1.2 표본 공간___7.1.3 사건7.2 확률의 계산7.3 확률의 기본 공리7.4 조건부 확률7.5 조건부 확률에 대한 연쇄 법칙7.6 독립 사건(Independent events)7.7 조건부 독립(conditional independence)7.8 전체 확률의 법칙7.9 베이즈 공식7.10 변수___7.10.1 변수의 의미___7.10.2 서로 독립인 변수들7.11 변수의 종류___7.11.1 이산변수와 연속변수의 구분___7.11.2 이산변수의 확률___7.11.3 이산 분포의 예: 베르누이(Bernoulli) 분포___7.11.4 연속변수의 확률___7.11.5 연속 분포의 예: 정규 분포7.12 누적분포함수7.13 변수의 평균, 분산, 공분산___7.13.1 변수의 평균___7.13.2 변수의 분산___7.13.3 두 변수의 공분산(Covariance)7.14 모멘트7.15 결합확률분포___7.15.1 두 개의 이산변수___7.15.2 두 개의 연속변수8장: 기계학습에 대한 이해8.1 기계학습이란?8.2 기계학습 알고리즘의 유형___8.2.1 지도학습과 비지도학습 알고리즘8.3 지도학습 알고리즘의 작동 원리___8.3.1 학습에 사용되는 수학적 모형___8.3.2 비용함수___8.3.3 비용함수를 최소화하는 파라미터 값 찾기___8.3.4 학습의 결과로 도출된 모형을 풀고자 하는 문제 데이터에 적용하기___8.3.5 모형의 성능 평가하기8.4 지도학습에서의 과적합 문제___8.4.1 과적합 문제의 주요 원인___8.4.2 규제화 방법9장: 문서의 벡터화9.1 벡터의 이해___9.1.1 벡터란?___9.1.2 공간상 벡터의 위치___9.1.3 유클리디안 거리___9.1.4 파이썬에서 벡터 다루기___9.1.5 벡터의 길이, norm___9.1.6 그 외 자주 사용되는 거리 지표___9.1.7 코사인 유사도___9.1.8 단위벡터에 대한 유클리디안 거리___9.1.9 데이터 분석에서의 벡터9.2 단어의 빈도 정보를 사용해 문서를 벡터로 표현하기9.3 TF-IDF9.4 sklearn을 이용해 문서를 벡터로 변환하기___9.4.1 빈도 정보를 사용하여 벡터로 표현하기___9.4.2 TF-IDF 정보를 사용해 벡터로 표현하기___9.4.3 실제 문서 벡터화하기10장: 군집 분석10.1 K-평균(K-Means) 알고리즘___10.1.1 K-평균 작동 원리___10.1.2 군집의 수 정하기___10.1.3 파이썬 코딩하기___10.1.4 군집화 결과 평가지표10.2 위계적 군집 분석___10.2.1 병합 군집 분석___10.2.2 군집을 연결하는 방법___10.2.3 파이썬 코딩하기10.3 DBSCAN___10.3.1 DBSCAN 알고리즘의 작동 원리___10.3.2 파이썬 코딩하기10.4 가우시안 혼합 모형___10.4.1 가우시안 혼합 모형이란?___10.4.2 파이썬 코딩하기10.5 차원 축소 후 군집화 수행하기___10.5.1 차원 축소 소개___10.5.2 고유분해___10.5.3 특잇값 분해___10.5.4 주성분 분석___10.5.5 텍스트 데이터에 대해 주성분 분석을 수행한 후 군집화해 보기11장: 텍스트 분류: 감성분석의 경우11.1 로지스틱 회귀모형을 이용한 감성분석___11.1.1 로지스틱 회귀모형___11.1.2 비용함수: 교차 엔트로피___11.1.3 파이썬 코딩하기___11.1.4 분류 모형의 성능 평가 지표___11.1.5 하이퍼파라미터 튜닝(Hyperparameter tuning)___11.1.6 클래스 불균형 문제___11.1.7 오버샘플링과 언더샘플링을 이용한 감성분석___11.1.8 Cost Sensitive 방법을 적용한 감성분석11.2 나이브 베이즈___11.2.1 나이브 베이즈의 작동 원리___11.2.2 다항 나이브 베이즈를 이용한 감성분석___11.2.3 파이썬 코딩하기11.3 결정 트리___11.3.1 결정 트리의 작동 원리___11.3.2 파이썬 코딩하기11.4 앙상블 방법___11.4.1 배깅___11.4.2 랜덤 포레스트___11.4.3 부스팅11.5 SVM___11.5.1 SVM 알고리즘의 기본 원리___11.5.2 선형 하이퍼플레인으로 분리할 수 없는 경우(Non-linearly separable cases)___11.5.3 SVM을 이용한 감성분석11.6 감성어 사전 기반의 감성분석___11.6.1 VADER 감성어 사전을 사용해 감성분석하기12장: 토픽 모델링12.1 LSI___12.1.1 LSI 이해하기___12.1.2 gensim을 이용한 LSI12.2 LDA___12.2.1 디리클레 분포___12.2.2 다항 분포___12.2.3 LDA의 이해___12.2.4 Gensim을 이용한 LDA 수행하기___12.2.5 LDA 결과를 이용한 문서 간, 단어 간의 유사도 파악하기부록A: 웹 스크레이핑A.1 컴퓨터 통신의 이해___A.1.1 브라우저의 역할A.2 웹 페이지를 구성하는 데이터의 구조A.3 웹 스크레이핑 프로그램의 역할___A.3.1 서버로부터 웹 페이지의 소스 코드 다운로드하기___A.3.2 소스 코드로부터 원하는 정보 추출·저장하기A.4 파이썬을 이용한 웹 스크레이핑의 주요 절차___A.4.1 URL 주소를 사용해 해당 페이지의 소스 코드 다운로드하기___A.4.2 원하는 정보를 담고 있는 태그 찾기: BeautifulSoup 클래스 사용하기___A.4.3 태그의 속성 값 추출하기: get() 함수 사용___A.4.4 BeautifulSoup에서 정규표현식 사용하기A.5 추출하고자 하는 정보가 원본 소스 코드에 들어 있지 않는 경우___A.5.1 네트워크 검사 기능을 통해 특정 파일에 접근하기___A.5.2 셀레니엄(Selenium) 사용하기부록B: 행렬B.1 행렬이란?B.2 행렬의 연산___B.2.1 행렬과 스칼라 간 연산___B.2.2 행렬과 행렬 간 연산B.3 행렬의 종류___B.3.1 대각행렬___B.3.2 단위행렬___B.3.3 전치행렬___B.3.4 대칭행렬B.4 역행렬___B.4.1 역행렬이란?___B.4.2 역행렬의 기하학적 의미___B.4.3 행렬의 랭크___B.4.4 역행렬을 이용해 연립 방정식 풀기부록C: EM(Expectation-Maximization) 알고리즘C.1 젠센 부등식C.2 EM 알고리즘C.3 가우시안 혼합 모형에 다시 적용해 보기___C.3.1 E 단계___C.3.2 M 단계부록D: 베이지안 추론D.1 베이지안(Bayesian Inference) 추론이란?D.2 베이즈 공식D.3 주요 베이지안 추론 방법D.4 사후 분포를 우도와 켤레 사전 분포를 이용해 직접 계산하기D.5 MCMC(Markov Chain Monte Carlo)___D.5.1 메트로폴리스 알고리즘___D.5.2 메트로폴리스-헤이스팅스___D.5.3 깁스 샘플링(Gibbs Sampling)D.6 파이썬 코딩: 파이썬을 이용한 베이지안 추론D.7 위계적 모형(Hierarchical model) 소개