简介python,求一个简单的selenium+re的网页源码爬取网页爬取不一定要用Selenium,Selenium是为了注入浏览器获取点击行为的调试工具,如果网页无需人工交互就可以抓取,不建议你使用selenium。要使用它,你需要安装一个工具软件,使用Chrome浏览器需要下载chromedriver.exe到system32下,如使用firefox则要下载geckodriver.exe到system32下。下面以chromedriver驱动chrome为例:# -*- coding:UTF-8 -*-
python,求一个简单的selenium+re的网页源码爬取
网页爬取不一定要用Selenium,Selenium是为了注入浏览器获取点击行为的调试工具,如果网页无需人工交互就可以抓取,不建议你使用selenium。
要使用它,你需要安装一个工具软件,使用Chrome浏览器需要下载chromedriver.exe到system32下,如使用firefox则要下载geckodriver.exe到system32下。
下面以chromedriver驱动chrome为例:# -*- coding:UTF-8 -*-from selenium import webdriverfrom bs4 import BeautifulSoupimport reimport timeif __name__ == ‘__main__’: options = webdriver.ChromeOptions() options.add_argument(‘user-agent=”Mozilla/5.0 (Linux; Android 4.0.4; Galaxy Nexus Build/IMM76B) AppleWebKit/535.19 (KHTML, like Gecko) Chrome/18.0.1025.133 Mobile Safari/535.19″‘) driver = webdriver.Chrome() driver.get(‘url’)#你要抓取百度文库的URL,随便找个几十页的替换掉 html = driver.page_source bf1 = BeautifulSoup(html, ‘l ‘) result = bf1.find_all(class_=’rtcspage’) bf2 = BeautifulSoup(str(result[0]), ‘l ‘) = bf2.div.div.h1.string pagenum = bf2.find_all(class_=’size’) pagenum = BeautifulSoup(str(pagenum), ‘l ‘).span.string pagepattern = re.compile(‘页数:(\d+)页’) num = int(pagepattern.findall(pagenum)[0]) print(‘文章标题:%s’ % ) print(‘文章页数:%d’ % num) while True: num = num / 5.0 html = driver.page_source bf1 = BeautifulSoup(html, ‘l ‘) result = bf1.find_all(class_=’rtcspage’) for each_result in result: bf2 = BeautifulSoup(str(each_result), ‘l ‘) texts = bf2.find_all(‘p’) for each_text in texts: main_body = BeautifulSoup(str(each_text), ‘l ‘) for each in main_body.find_all(True): if each.name == ‘span’: print(each.string.replace(‘\xa0’,”),end=”) elif each.name == ‘br’: print(”) print(‘\n’) if num > 1: page = driver.find_elements_by_xpath(“//div[@class=’page’]”) driver.execute_ (‘arguments[0].scrollIntoView();’, page[-1]) #拖动到可见的元素去 nextpage = driver.find_element_by_xpath(“//a[@data-fun=’next’]”) nextpage.click() time.sleep(3) else: break执行代码,chromedriver自动为你打开chrome浏览器,此时你翻页到最后,点击阅读更多,然后等一段时间后关闭浏览器,代码继续执行。
如何使用python或R抓取网页被隐藏的源代码
隐藏的源代码?不知道你指的是什么?我的理解有两种,一是不在前段显示,但是查看源代码时有,二是,异步加载的内容在前端和源代码中均看不到,第一种很容易解决,想必你指的时第二种,解决方法有三种:模拟浏览器,动态获取,可以使用大杀器selenium工具使用这种方法可以实现只要能看到就能抓取到,如鼠标滑过,异步加载等,因为他的行为可以与浏览器一模一样,但是这种方式的效率却是最低的,一般不到实在没有办法的时候不推荐使用。
执行js代码在python中执行异步加载的js代码,获得一些诸如鼠标滑过,下拉加载更多等,但是现在的网站中都有非常多的js代码,要找到需要执行的目标js代码时非常困难和耗时的,此外python对js的兼容性也不是很好,也不推荐使用。
找到异步加载的json文件,最常用,最方便,最好用的方法,这是我平常抓取动态异步加载网站时最常用的方法,可以解决我99%的问题。
具体的使用方法是打开浏览器的开发者工具,转到network选项,之后重新加载网页,在network中的列表中找到加载过程中加载的需要动态异步加载的json文件,以京东为例,如图,第一张找到的是异步加载的库存信息的json文件,第二招找到的是异步加载的评论信息的json文件:具体更详细的方法可以google或百度
怎么可以把一个网站的整站源码抓下来
可以试试WebZIP软件,不过感觉这样做是不道德的,搞不好还会造成侵权行为!
下载链接:网站源码/小程序源码/网站模板下载