728x90
반응형
[웹 크롤링]
○ 웹 페이지 분석 절차
1. HTML 문서를 불어 옴(분석할 대상을 가지고 옴) :
- HTML 문서 다운
- urlopen 함수
- requests 라이브러리
2. HTML 분석(대상을 분석해서 데이터 추출) :
- HTML 파싱을 위한 파서 모듈
3. 정보를 처리(추출한 데이터를 입맛에 맞게 가공)
○ HTML 가져오기
용 - urlopen
2. requests 모듈을 사용해서 가져오기
- 파이썬의 공식 라이브러리 문서에서도 추천하는 모듈
3. 세션 활용
로그인 과정이 간단한 경우
- MechanicalSoupt 사용
로그인이 복잡한 경우 selenium 사용.
[웹서비스]
○ 파이썬에서 웹 브라우저를 이용할 때에는 selenium을 이용하는데,
selenium은 특별한 플러그인을 웹 브라우저 삽입시킴(이 플러그인와 파이썬이 통신해서 원하는 동작을 실행시킬 수 있음)
728x90
'스마트웹앱콘텐츠전문가 > 파이썬(플라스크, 데이터 처리)' 카테고리의 다른 글
플라스크 (0) | 2018.12.06 |
---|---|
표준 모듈 (0) | 2018.11.28 |
[python3]리스트 (0) | 2018.11.27 |
[그래픽 인터페이스] (0) | 2018.01.25 |
[네트워크 프로그래밍] (0) | 2018.01.24 |