파이썬으로 시작하는 한국어 정보 검색과 자연어 처리

By | 2022-08-10

다운로드: book_src_py_irs.zip

t2bot 자동 색인 시스템 매뉴얼과 다운로드

(주문) yes24.com: 파이썬으로 시작하는 한국어 정보 검색과 자연어 처리

(주문) 교보문고: 파이썬으로 시작하는 한국어 정보 검색과 자연어 처리

파이썬 한국어 자연어 처리 핵심 알고리즘

인공지능보다 먼저 알아야 할 한국어 자연어 처리 핵심 알고리즘

검색 엔진을 움직이는 7가지 핵심 알고리즘

  • 역파일 색인과 검색 알고리즘
  • 한글 음절과 자모 변환 알고리즘
  • 한글 두벌식 오토마타와 한영 변환 알고리즘
  • 단어 유사도와 철자 교정 알고리즘
  • N그램과 철자 교정 알고리즘
  • 트라이 탐색과 검색어 추천 알고리즘
  • 협업 필터링과 영화 추천 알고리즘
  • 알고리즘 구현 소스 코드를 포함하여 300여 개의 소스 코드 제공
  • 검색 엔진 핵심 알고리즘 완전 정복

책 소개

이 책이 속한 분야

  • 컴퓨터/IT , 프로그래밍 언어, Python(파이썬)
  • 컴퓨터공학, 자연어 처리, 정보 검색, 추천 알고리즘
  • 대학교재

출판사: 노드미디어

이 책은 <한국어 인공지능> 시리즈의 두 번째 책으로, 1권에서 소개한 한글 코드와 한글 처리를 바탕으로 한국어 정보 검색과 자연어 처리 알고리즘을 소개하고 파이썬으로 구현하는 방법을 상세하게 설명하였습니다. 우리는 생활 속에서 인터넷 정보 검색, 철자 교정, 검색어 자동 추천 등 다양한 자연어 처리 알고리즘을 경험하고 있습니다. 이 책은 자연어 처리 알고리즘을 알기 쉽게 설명하고, 자연어 처리 커널 소스 코드와 300개 이상의 예제 코드를 제공하여 입문자도 자연어 처리 프로그래밍을 경험하고 실용적인 수준의 결과물을 ‘구현’할 수 있도록 하였습니다. 특히 한글 공학을 바탕으로 한국어 정보 검색과 한국어 처리를 심도 있게 다루었습니다. 자연어 처리를 다룬 책은 많지만 한국어 처리의 이론과 구현을 다룬 책은 찾기 어렵습니다. 이 책은 한국어 처리를 공부하고 한국어 기반의 정보 검색, 철자 교정, 검색어 추천 등을 구현하고자 하는 독자에게 실질적인 도움이 될 것입니다.

한편 자연어 처리를 위해서는 대량의 텍스트 데이터가 필요합니다. 자연어 처리는 어휘 사전을 기반으로 검색, 교정, 추천 등의 작업이 이루어지는데, 어휘 사전을 구축하려면 대량의 데이터를 수집하고 가공해야 합니다. 이 책에서는 구텐베르크 프로젝트의 영문 텍스트를 비롯하여 미국 대통령 취임사, 한국어 뉴스 텍스트, IMDb 영화 평점 데이터 등 실제 데이터를 예제로 사용하면서 데이터 수집과 가공 과정을 상세히 소개하였습니다. 웹 페이지에서 데이터를 추출할 수 있도록 웹 스크래퍼의 구현 방법을 소개하고, 추출한 데이터를 자연어 처리에서는 물론 언어 연구나 언어 교육에서도 활용할 수 있도록 어휘 정렬과 통계, 문맥 키워드와 용례 추출 등을 예제와 함께 소개하였습니다.

이 책은 총 4부로 구성하였습니다. 1부에서는 한국어 처리를 위한 파이썬 문법을 소개하는데, 자연어 처리와 한국어 텍스트 처리에서 핵심적 역할을 하는 목록(list), 사전(dict), 정렬, 탐색, 파일 처리 등을 상세히 다루었습니다. 2부에서는 한글 코드 변환과 한글 오토마타, 한/영 변환 알고리즘을 중심으로 한글 공학의 이론과 구현 방법을 설명하였습니다. 3부에서는 한국어 정보 검색과 철자 교정, 검색어 자동 추천 등 자연어 처리의 핵심 알고리즘을 설명하고 응용 프로그램을 직접 구현할 수 있도록 하였습니다. 마지막 4부에서는 IMDb 영화 데이터를 대상으로 데이터베이스 변환, 상관계수 산출 등을 설명하고 이를 기반으로 추천 알고리즘의 구현 방법을 설명하였습니다.

Python t2bot 커널(kernel)과 예제 소스 코드

t2bot 자동 색인 시스템 매뉴얼과 다운로드


1부 파이썬 한글 처리

1장 파이썬 기초

  1. 한글 변수 및 함수 선언
    한글 변수와 한글 함수
    모듈(module)과 임포트(import)
    모듈 이름과 실행 시간 측정
  2. 한글 텍스트 파일 열기(Open)
    파일 열기
    한글 코드와 인코딩(encoding)
    인코딩 매개변수: EUC-KR, CP949, UTF-8
    한글 인코딩 자동 처리
  3. 한글 텍스트 파일 읽기(Read)
    문단 단위로 읽기, 글자 단위로 읽기
  4. 파일 닫기(close)
  5. 한글 처리를 위한 내장 함수

2장 문자열의 한글 처리

  1. 문자열(str) 생성과 인덱스
    문자열(str) 생성, 문자열(str) 길이와 인덱스
  2. 문자열(str)의 특수 문자(Escape Character) 처리
  3. 문자열(str) 탐색
    문자열 시작과 끝부분 일치 검사
  4. 문자열(str) 변경과 합성
    문자열 변경과 삭제 , 문자열 합치기
  5. 문자열(str) 추출과 분할
    문자열 자르기(slicing) , 문자열 뒤집기 , 문자열 분할(split)
  6. 문자열(str) 루프 처리와 함수
    문자열(str) 루프 처리, 문자 상태 확인, 대문자와 소문자 처리 함수

3장 목록형 자료의 한글 처리

  1. 목록(list)
  2. 튜플(tuple)
  3. 사전(dict)
  4. 집합(set)

4장 정렬과 컴프리헨션

  1. 목록(list) 정렬(sort)
    오름/내림차순 정렬
    정렬 키(key) 함수
    2차 정렬과 람다(lambda)
  2. sorted() 함수 정렬
    목록(list) 정렬
    튜플(tuple)과 집합(set) 정렬
    사전(dict) 정렬
    사전뷰(dictview)를 통한 정렬
  3. 컴프리헨션(comprehension)
    목록(list) 컴프리헨션
    사전(dict) 컴프리헨션
    튜플(tuple)과 집합(set) 컴프리헨션

2부 한글 공학 이론과 구현

5장 한글 코드와 유니코드

  1. 한글 자모와 음절
    한글의 자모
    한글의 음절
  2. 한글 코드의 역사와 종류
    한글 코드의 역사
    표준 완성형 코드
    표준 조합형 코드
    통합 완성형 코드
  3. 유니코드(Unicode)
    등장 배경 및 문자 처리 방식
    한글 음절 영역과 자모 영역
    한글 인코딩과 한글 코드 변환
    한자 영역

6장 한글 코드 변환 알고리즘

  1. 음절형 한글 코드와 자모형 한글 코드
    음절형 한글 코드
    자모형 한글 코드
  2. 음절의 자모 변환
    한글 음절의 초성 및 종성 계산
    한글 음절의 자모 변환
  3. 자모의 음절 변환
    자모 조합 음절의 한글 음절 변환
    옛한글 지원용 한글 음절과 자모 변환

7장 한글 오토마타와 두벌식 자모 변환 알고리즘

  1. 두벌식 조합과 자모
    두벌식 자판의 한글 입력 원리
    두벌식 한글 자모 코드
  2. 한글 오토마타(Automata)
    두벌식 오토마타 원리
    두벌식 오토마타 구현
  3. 음절의 두벌식 자모 변환
    음절의 두벌식 자모 변환 원리
    음절의 두벌식 자모 변환 구현
  4. 반각 자모와 초/중/종성 자모의 두벌식 자모 변환
    반각 자모의 두벌식 자모 변환
    초/중/종성 자모의 두벌식 자모 변환

8장 한/영 변환 알고리즘

  1. 영한 변환
  2. 한영 변환

3부 정보 검색과 자연어 처리

9장 한국어 정보 검색 알고리즘

  1. 선형 탐색
    문자열 탐색
    파일 탐색, 데이터베이스 시스템 탐색
  2. 역파일 색인과 자동 색인
    역파일(Inverted File) 색인
    자동 색인
  3. 정보 검색 시스템 구현
    자동 색인을 통한 검색어 사전 생성
    검색어 사전에서 단어 탐색

10장 단어 및 토큰 처리

  1. 단어 처리
    한국어 문법과 단어 처리
    공백 문자로 단어 분리
    기호 문자로 단어 분리
  2. 토큰과 문자 영역
    토큰 분리, 문자 영역
    한글 토큰, 한자 토큰, 영문자 토큰
    가나(かな) 및 그 밖의 문자 토큰
    분리 문자와 기호 토큰
  3. 토큰 처리
    문자 영역 확인
    문자 영역의 토큰 변환
    토큰의 합성

11장 키워드 및 용례 추출 알고리즘

  1. 키워드 추출
  2. 키워드 용례 추출
  3. 키워드 목록 정렬과 통계
    키워드 목록 정렬
    사전형 정렬
    단어 통계 처리
    단어 끝부터 정렬(Backward Sort)

12장 단어 유사도 측정 알고리즘

  1. 자카드 거리(Jaccard Distance)
  2. 타니모토 거리(Tanimoto Distance)
  3. 레벤슈타인 거리(Levenshtein Distance)
    편집 거리 정규화
    n-gram 편집 거리
  4. 코사인 거리(Cosine Distance)

13장 철자 교정 알고리즘

  1. 철자 교정 알고리즘의 원리
    영어 철자 교정을 위한 검색어 사전 구축
    영어 철자 교정을 위한 검색어 사전 탐색
    한글 철자 교정을 위한 검색어 사전 구축
    한글 철자 교정을 위한 검색어 사전 탐색
    한글 음절 단위 철자 교정의 한계
  2. 초/중/종성 기반 철자 교정
    초/중/종성 기반 유사도 측정
    초/중/종성 기반 철자 교정
    초/중/종성 기반 철자 교정의 한계
  3. 두벌식 자모 기반 철자 교정
    두벌식 자모 기반 유사도 측정
    두벌식 자모 기반 철자 교정

14장 한/영 변환 철자 교정 알고리즘

  1. 영한 변환 철자 교정
  2. 한영 변환 철자 교정

15장 n-gram 기반 철자 교정 알고리즘

  1. n-gram 기반 철자 교정 알고리즘의 원리
    검색어 사전의 n-gram 사전 변환
    n-gram 사전 기반 영어 철자 교정
  2. n-gram 기반 한글 철자 교정
    두벌식 자모 기반의 n-gram 사전 변환
    n-gram 사전 기반 한글 철자 교정
    가중치를 이용한 교정 후보 선택
  3. n-gram 기반 한/영 변환 및 철자 교정
    영한 변환과 철자 교정
    한영 변환과 철자 교정

16장 검색어 자동 추천 알고리즘

  1. 문자열 일치 탐색
    영어 접두사 일치 탐색
    한글 접두사 일치 탐색
  2. 트라이(trie) 알고리즘
    트라이 생성 및 탐색
    트라이 노드의 가중치 부여
  3. 두벌식 자모 기반 검색어 자동 추천
    두벌식 자모 기반 트라이 생성 및 탐색
    음절 문자열(RealWord) 변수 추가
    추천 목록 선별을 위한 가중치 부여
  4. 초/중/종성 기반 검색어 자동 추천

17장 한/영 변환 자동 추천 알고리즘

  1. 영한 변환 자동 추천
  2. 한영 변환 자동 추천
  3. 한글 및 영문자 단어 동시 자동 추천

18장 n-gram 기반 철자 교정 자동 추천 알고리즘

  1. n-gram 기반 철자 교정 자동 추천의 원리
    검색어의 n-gram 변환 및 연관 검색어 탐색
    편집 거리에 의한 추천 순위 결정
  2. n-gram 기반 한글 철자 교정 자동 추천
    검색어의 n-gram 변환 및 연관 검색어 탐색
    n-gram 기반 철자 교정 자동 추천 구현
  3. n-gram 기반 한/영 변환 철자 교정 자동 추천
    영한 변환 철자 교정 자동 추천
    한영 변환 철자 교정 자동 추천

4부 데이터 기반 추천 알고리즘

19장 파이선 통계 처리 기초

  1. 통계 기초 및 데이터 시각화
    신규 및 누적 데이터 처리 및 선 그래프 출력
    비율과 평균 산출 및 막대 그래프 출력
  2. 도수분포와 히스토그램
  3. 산포도와 상관 계수

22장 영화 추천 알고리즘

  1. 협업 필터링 기반 영화 추천
    평점 데이터 읽기
    평점 데이터의 2차원 테이블 변환
    상관 계수를 이용한 영화 유사도 산출
  2. 콘텐츠 기반 영화 추천
    장르 데이터 읽기
    장르 데이터의 사전 변환
    시리즈 데이터 읽기
    시리즈 데이터의 사전 변환
    장르 유사도 측정 및 가중치 적용
    시리즈 가중치 적용
  3. 텍스트 기반 영화 추천
    줄거리 텍스트에서 단어 추출
    텍스트 유사도 측정 및 영화 추천

부록.

  1. t2bot 커널(kernel)과 예제 소스 코드
  2. 웹 스크래퍼
    스크래핑
    구조화 문서(HTML, XML) 파싱
    취임사 텍스트 구조 분석
    전체 텍스트 스크래핑
  3. 영어 토큰 처리기와 어휘 빈도 사전
    토큰 분리
    구텐베르크 프로젝트 스크래핑
    텍스트 어휘 빈도 사전 생성
    문자열 패턴을 이용한 기본형 추출
    어휘 빈도 사전 저장
    어휘 빈도 사전 읽기
    어휘 빈도 사전 적용
  4. t2bot 자동 색인 시스템 매뉴얼
    자동 색인 시스템: m64-80tpx.exe
    자동 색인 결과 파일 읽기
  5. 유니코드의 한글 자모와 호환 문자 코드

#파이썬 #정보검색 #검색알고리즘 #자연어처리 #한영변환 #철자교정 #자동추천 #협업필터링 #영화추천 #텍스트유사도 #웹스크래퍼 # 한글코드 #한글코드변환 #옛한글변환 #한국어정보처리

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Time limit is exhausted. Please reload CAPTCHA.