반응형

프로그래밍/웹크롤링 2

파이썬 웹크롤링의 기초(1) urllib

웹에는 정말 수많은 데이터가 존재합니다 그리고 현 시점에서는 수 많은 사람들이 웹 상에서 데이터를 뽑아내고 있죠. 마치 금광에서 금을 캐는 것 같은데 다른 점이라면 웹 상의 데이터는 고갈되지 않는 다는 점입니다. 이렇게 시간이 갈 수록 점점 많아지는 데이터는 축척될 수록 빅데이터로서 더 가치있게 되겠죠.데이터의 중요성을 알기는 하지만 어떻게 뽑아내야할지 모른다면 낭패입니다.수작업으로 하는 것은 한계가 있고 업체를 이용하자니 장기적인 플랜이라면 비용이 생각 이상으로 들 수도 있구요.이 강의는 웹크롤링 강의로 웹 크롤링을 배우고자 하시는 분들을 위한 강의며 파이썬을 이용합니다. 파이썬의 기초에 대한 강의는 인터넷 상에 많이 있으니 어렵지 않게 배우실 수 있습니다. 본인의 블로그 역시 파이썬의 기초에 대한 강..

크롤링과 스크래핑 그리고 파싱의 차이

종종 글을 읽다보면 웹크롤링을 하거나 html 파싱을 한다는 말을 자주 듣는다. 또는 스크래핑을 한다고도 하는데 용어가 혼동되기도 한다. 원래의 뜻을 살펴보면 크롤(crawl)은 기어가다는 뜻이다. 스크랩(scrap)은 단편의 정보를 뜻하고 파싱(parse)은 분석한다는 뜻이 강하다. 위 세가지를 종합해보면 기어다니면서 단편의 정보를 모아서 분석한다? 응? 말되네? 최신 빅데이터와 데이터 수집을 위해서 크롤링이나 스크래핑을 많이 하는 추세다. 그리고 크롤링과 스크래핑을 구별하는 것은 크게 의미가 없다고 본다. 대략 크롤링과 스크래핑은 인터넷의 정보를 모으는 일을 생각하면 된다. 그러면 파싱이란? 예를들어 시간에 대한 표현을 보면 "2019년 12월 10일"이라면 표현이 있다. 이 표현을 '년' 앞에는 년..

반응형