ns25.dnsever.com   
121.254.188.25
ns47.dnsever.com
121.254.188.47



 
작성일 : 12-07-16 11:17
[웹유틸] HTML을 Text로 변환방법
 글쓴이 : 테크넷코리…
조회 : 6,238  
파이썬에서 HTML을 Text로 변환하려고 합니다.
조회수 : 1830
파이썬을 이용하여 HTML문서를 Text로 변환하고 싶습니다.

가장 안전하고 많이 사용되는 방법을 알려주세요.

htmlpythontext 약 5개월, 1주 전
박응용 1,889 2 Answers
1
복잡한 HTML문서를 변환할 경우에는 html2text를 이용하는 것이 좋습니다.

html2text는 HTML이 markdown문서로 변환되기 때문에 완전한 plain text를 얻으려면

변환된 markdown문서를 다시 text로 변환해야 합니다.

 

html2text는 아래의 URL에서 다운로드 할 수 있습니다:

http://www.aaronsw.com/2002/html2text/

 

사용방법은 매우 간단합니다.

위 URL에서 html2text.py 를 다운로드 받은 후에 다음처럼 이용하면 됩니다:

from html2text import html2text

text = html2text("<p>Hello World</p>")

html2text는 상당히 안정적인 느낌입니다. ^^

 약 5개월, 1주 전
박응용 1,889 편집: 약 5개월, 1주 전0
HTML태그를 제거하는 가장 쉬운 방법은 BeautifulSoup을 이용하는 것입니다.

 

다음처럼 해보세요:

def html2text(html):
    soup = BeautifulSoup(html)
    text_parts = soup.findAll(text=True)
    return ''.join(text_parts)

 
   
 

whois inames 아사달 Domainpapa Digitalnames Netpia OnlineNIC KSNETCMS KSNETPG ICODE
회사소개 | 웹제작및유지보수약관 | 호스팅서비스약관 | | 테크넷웹메일
서울시 양천구 목동중앙본로7가길 26-6 / 전화 : 1688-2527 | 긴급 : 010-4697-2527 / 팩스 : 0303-0303-0840 / 운영자 : 테크넷
사업자 등록번호 : 107-42-67578 / 대표 : 강만수 / 개인정보관리책임자 : / 통신판매업신고번호 :
Copyright © 2001-2008 테크넷코리아. All Rights Reserved.