前言

在新闻网站中大多采用的是异步加载模式，新闻条目会随滚动条的滚动而逐渐加载。当爬虫访问这类网站时得到的HTML数据仅仅是我们看到的页面数据，只有当我们向下滚动时，网页的源代码才会同步更新。例如：，处理这类JS异步加载的问题，这里用selenium来解决。

环境

Python 3.6.5

需要安装的包：selenium

编译器：sublime text 3

代码思路

导入需要用到的Python包

import selenium,timefrom selenium import webdriver

用打开浏览器

driver = webdriver.Chrome(executable_path='chromedriver.exe')

输入我们需要爬取的网站

driver.get("https://new.qq.com/ch/milite/")

如果程序执行错误，浏览器没有打开，那么应该是没有装 Chrome 浏览器或者 Chrome 驱动没有配置在环境变量里。下载驱动，然后将驱动文件路径配置在环境变量即可。

将网页的滚动条拉到底部，触发JS加载新数据

jsCode = "var q=document.documentElement.scrollTop=100000"driver.execute_script(jsCode)

休息3秒，从JS异步加载的完成到新闻页面的更新需要一些时间

time.sleep(3)

进行标签定位，定位到class="item-pics"的标签

div = driver.find_elements_by_class_name("item-pics")for each in div:	each = each.find_element_by_tag_name("a")

打印爬取到的内容

print(each.text)

原代码

#这是一个军事新闻数据采集脚本import selenium,timefrom selenium import webdriverif __name__ == '__main__':	driver = webdriver.Chrome(executable_path='chromedriver.exe')	driver.get("https://new.qq.com/ch/milite/")		for each in range(1,10):		jsCode = "var q=document.documentElement.scrollTop=100000"		driver.execute_script(jsCode)		time.sleep(3)		print(each)			time.sleep(3)	div = driver.find_elements_by_class_name("item-pics")	for each in div:		each = each.find_element_by_tag_name("a")		print(each.text)

转载地址：https://mtyjkh.blog.csdn.net/article/details/82749724 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：机器学习第1天：数据预处理

下一篇：git学习记录

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！

文章目录

前言

环境

代码思路

原代码

发表评论

最新留言

关于作者

推荐文章