단어 추출 (Text Wording) 사용법

By | 2016-11-21

go 영어단어추출

 

go 영어문서요약(텍스트요약)


 

2008년 버락 오바마 당선 연설문(Barack Obama’s 2008 election victory speech) 에서 단어 추출(Text wording) 과정

  • 오바마 당선 연설문으로 단어 구름(word cloud) 만들기

#. 입력창에 텍스트 입력(붙여넣기)

img_1973

#. 텍스트 입력 후에 [Analyze] 버튼을 누르면 분식 진행.

#. 분석 결과

#.  불용어(stop word) 지정

생략 어휘 – 관사, 대명사, 조동사, 전치사, 접속사, 부사, 숫자

#. 보여주기 순서 지정(사전순, 사전 역순, 빈도순)

#. 어휘 필터 – {대문자, 접미사, 접두사}

#. 어휘 필터 – {대문자}

#. 어휘 필터 – {접미사: -ful}

#. 어휘 필터 – {접두사: con-}

#. 어휘 통합 및 변경

#. 불용어 지정(stopword)

— stopword.txt  example

 

 

 

 

 

 

 

#. 분석 결과로 단어 구름 만들기 (wordle.net)

  • [Make Word Cloud] click
  • PC에서만 가능(Java 실행 가능한 컴퓨터)

13 thoughts on “단어 추출 (Text Wording) 사용법

  1. 감사합니다

    tagxedo랑 같이 쓰면 더 좋을 것 같네요. 좋은 정보 감사합니다. 블로그에 참고자료로 출처 남길게요~~

    Reply
    1. t2bot Post author

      이용해주셔서 감사합니다.

      Reply
  2. 현경

    좋은 프로그램인 것 같은데요…
    stop words에서 txt파일을 선택하면 그 txt 파일에 있는 단어는 걸러져서 결과가 나와야 하는 거죠?
    그런데 그대로 들어가 있습니다.

    예를 들면, like, know, love 라는 단어가 들어 있는 txt 파일을 선택했는데도, 여전히 결과에 저 단어들은 들어가 있어요.

    혹시 stop words 부분을 좀더 자세하게 설명해주실 수 있을까요?

    Reply
    1. t2bot Post author

      늦게 봐서 죄송합니다.
      화면 갱신(resfresh)이 안 돼서 그런 것입니다.
      stop-word 파일을 지정한 후에 [stop-word] 버튼을 누르면 곧 바로 화면 갱신이 이루어져야 하는데 그 부분이 처리되지 않고 있습니다.
      그래서 화면갱신을 위해서 [sort] 목록을 클릭하여 정렬 방법을 변경시켜주면 됩니다.

      이용해주셔서 감사합니다.
      stop-word 파일을 지정 후에 화면 갱신 부분을 고치도록 하겠습니다.

      Reply
  3. niceoya

    우와…진짜 대박 프로그램입니다.
    감동 먹고 갑니다.

    Reply
    1. niceoya

      혹시 문자 최대수를 늘릴 수 있나요?

      Reply
      1. t2bot Post author

        기술적으로는 어렵지 않지만, 서버 부담 때문에 11,000글자 정도로 제한했습니다.
        꼭 필요하다면 개별적으로 처리해드리겠습니다.
        단, 저작권 관련된 텍스트는 처리하지 않습니다.

        조만간 [주제색인서버]프로그램을 공개할 예정입니다. 거의 마무리 단계입니다.
        이 사이트처럼 직접 운용하면서 직접 서비스할 수 있습니다.
        [주제색인서버]를 직접 운용하시면 거의 제약 없이 사용하실 수 있습니다.

        Reply
    2. t2bot Post author

      이용해주셔서 감사합니다.

      Reply
  4. foohoy

    스타트업 기업에서 일하고 있는 방문객입니다.
    공무원 전체 기출문제에서 영단어를 추출하고 싶은데 11000글자 제약이 막네요 ㅠㅠ
    혹시 엄청나게 많은 양(이십만? 정도)을 한 번에 할 수 있는 방법이 없을까요?
    개별적으로 처리해주신다는 댓글을 봤는데 혹시 부탁드릴 수 있을까요 ㅠㅠ
    사례를 하고 싶은데 스타트업이라 회사차원의 자금운용이 쉽지 않고,
    개인적으로 스타벅스 기프티콘이라도 보내드리겠습니다.

    참고로 공무원 기출문제는 무료 공개라 저작권과 전혀 상관없는 파일입니다.

    Reply
  5. foohoy

    댓글을 달았는데 왜 안나올까요 ㅠ?
    넘 대단한 프로그램 공유 감사드리고,
    혹시
    아직도 글자수 늘려서 사용할 수 있는 방법이 없을까요?
    주제색인 서버를 직접 운용하시면 된다고 하셨는데 그건 어디서 따로 다운을받는건가요

    Reply
    1. t2bot Post author

      답장이 늦어서 죄송합니다.
      스팸 때문에 댓글은 승인 이후에 보이게 된 점도 죄송합니다.

      “개별적으로 처리해주신다는 댓글을 봤는데 혹시 부탁드릴 수 있을까요 ㅠㅠ
      사례를 하고 싶은데 스타트업이라 회사차원의 자금운용이 쉽지 않고,
      개인적으로 스타벅스 기프티콘이라도 보내드리겠습니다.”

      지금은 내부 일정이 빡빡하여 외부 일은 처리하기 어렵습니다.

      “주제색인 서버를 직접 운용하시면 된다고 하셨는데 그건 어디서 따로 다운을받는건가요”
      ==> 만약 이 글을 보신 이후에도 해결되지 않았으면 답글을 올려주셨으면 합니다.

      ———————————————————-
      질문과 관계없이 [단어 추출과 문서 요약] 서버를 Amazon Elastic Compute Cloud(Amazon EC2) 클론으로 올릴 예정입니다.
      Amazon EC2 방식에서는 바로 켜면 동작하기 때문에 좀 더 사용하기 편리할 듯합니다.
      지금은 아니고요.
      8월 ~ 9월 중에 아마존(AWS)이랑 협의가 되는 대로 올릴 예정입니다.

      Reply

t2bot에 답글 남기기 응답 취소

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다

Time limit is exhausted. Please reload CAPTCHA.