실무로 배우는 파이썬/prj1. 블로그html 게시글 url 추출

네이버블로그 모든 게시글 url 추출해 사이트맵 만들기 정적,동적 html 확인 방법

에스도비91 2025. 1. 20. 23:06
반응형

파이썬을 이용한 html을 공부 중입니다.

역시 필요한게 생겼을때 목표를 세우고

실무로 바로 들어가며 배우는게 재밌습니다.

 

목표는 지금까지 네이버 블로그에 작성한
모든 게시글의 url을 전부 추출하기!!

 

이걸 굳이 왜 하냐??라고 물으신다면

 

네이버블로그 에스도비의 사이트맵

파이썬으로 네이버블로그의 html을 분석해,지금까지 썼던 url을 모두 뽑은 사이트맵을 작성했습니다.일상글과 같이 겸사겸사 작성했으니 아래 글 참고~ https://blog.naver.com/kjskumal/223705073392https://m.b

s-dobby.tistory.com

 

위 게시글 '사이트맵'을 만들기 위함입니다.

자세한건 링크 참조하시고 간단히 말해

네이버 블로그 글에 구글 검색 path를

뚫어주기 위한 것입니다. 근데....

리디렉션 오류로 자꾸 색인 생성이 안되서..

일단 이 글에도 한번 남겨보겠습니다.

https://blog.naver.com/kjskumal/223705073392

https://m.blog.naver.com/kjskumal/223705073392

 


 

다시 목표로 돌아가서, 블로그의 전체 게시물 url을

scrap해오기 위해선 첫째로 자신의 네이버 블로그가

정적 HTML인지 동적 HTML인지 확인이 필요합니다.

 

그래서 오늘의 소목표는 내 블로그가

정적/동적 html 어떤건지 확인하기!!

 

정적이면 BeautifulSoup만으로 끝나지만

재귀함수를 쓰는데 조금 난이도가 있고

동적이면 selenium 모듈까지 써서

함수 자체가 많이 생소하긴 합니다.

 

자 그럼 정적/동적 HTML 확인을 해봅시다.

 

 

게시글 url들을 scrap해올
카테고리 → '전체 보기'
정적/동적 html 확인   

 

네이버 블로그의 경우 (관리→꾸미기 설정 → ) 스킨

에 따라 정적/동적 html, 두가지 경우로 나뉩니다.

즉, 각각의 경우에 따라 따로 코드를 짜야합니다.

 

 

S-dobby의 Travel Log : 네이버 블로그

당신의 모든 기록을 담는 공간

blog.naver.com

## https://blog.naver.com/PostList.naver?blogId=kjskumal&categoryNo=0&from=postList 
nb="https://blog.naver.com" ; id='kjskumal'
nb_url=f'{nb}/PostList.naver?blogId={id}&categoryNo=0&from=postList'
print(nb_url)

 

먼저, 게시글 url을 퍼올 위치로 가야합니다.

위 네이버 계정의 카테고리에 '전체보기'

위 코드에서 id를 본인의 것으로 바꾸고

출력한 url이 '전체보기' 주소이고 거기서

'End' 버튼을 눌러 맨 아래쪽을 보면 됩니다.

 

 

제 네이버 블로그의 경우 위 번호들을 누르면

url이 바뀌며 페이지가 새로 뜨니 정적 HTML입니다.

 

 

교토언니의 여행기록 : 네이버 블로그

일본유학 7년, 일본 현지 에이전시 근무 및 일본 마케팅 경력 4년차❤ 자기계발/웹툰/여행에 관심 많은 교토언니입니다. 협업 문의 5thharmony@naver.com

blog.naver.com

 

이번엔 위 네이버 블로그를 봅시다.

마찬가지로 들어가서 맨 아래를 보면

 

 

이번엔 숫자가 있는게 아니고 이전, 다음 뿐

'다음'을 눌러도 페이지는 바뀌지 않고

위에 게시글 제목들만 바뀝니다.

전체 페이지의 변화 없이 일부 테이블만 변하는

이것이 Java script를 사용 동적 HTML입니다.

 

다음 시간엔 정적 HTML의 경우부터

파이썬 코드를 짜보도록 하겠습니다.

To be continued...

반응형