初衷：踏入互联网的门槛，时日并不长，一步步慢慢爬过来，因此，想把自己的历程做个记录，时不时，回头看看自己的一步一个脚印。

下面正题开始：

一.为什么要学习爬虫？

因为需要些数据做个项目，当然，用keggle是个不错的选。但是，看到别人可以把网上的数据爬取下来，做个分析，觉得很酷。既然自己也想要这么酷酷的，那么，何不试试看呢？

二.爬虫前准备

去年就看过爬虫的教程，我发现，那种把所有爬虫需要的理论全部讲完，然后再去爬取数据的课程，不适合我，我需要的是，有一个目的，然后根据这个目的，去找能让我达成这个目的的东西，然后一路边学习，边成就，去往目的地。恰好，幸运的我在b站找到这样一个教程，学习开始。

三.爬虫开始

首先，理清思路，我们需要一个程序，一段代码，可以爬取数据，然后把爬取的数据保存成我们想要的样子。

第一步：主程序

#主程序if __name__ =="__main__":       #当程序执行时    #调用函数    main()    print("爬取完毕！")

程序开始，爬取数据

main是什么我们不知道，因此，定义一个main函数，里边要包括怎么去获取网页，怎么去存储获得的数据。getData和saveData是什么不知道，需要定义。

ef main():    baseurl="https://movie.douban.com/top250?start="    #1.爬取网页    datalist =getData(baseurl)    savepath="豆瓣电影Top250.xls"    # 3.保存数据    saveDate(datalist,savepath)

第二步：填满程序

1.解决getData

#影片详情链接的规则findLink=re.compile(r'')#影片图片的链接findImgSrc=re.compile(r'
    
     (.*)')#影片的评分findRating=re.compile(r'
     (.*)')#评价人数findJudge=re.compile(r'
     (\d*)人评价')#找到概况findInq=re.compile(r'
     (.*)')#找到影片的相关内容findBd=re.compile(r'
     (.*?)
',re.S)#爬取网页def getData(baseurl):    datalist=[]    for i in range(0,10):  # 调用或许页面信息的函数10次        url = baseurl + str(i * 25)        html = askURL(url)  # 保存获取到的网页源码    # 2.逐一解析数据        #soup=BeautifulSoup(html,"html.parser")        soup = BeautifulSoup(html, 'lxml')        for item in soup.find_all('div',class_="item"):   #查找符合要求的字符串，形成列表           # print(item) #测试查看电影item全部信息            data=[]       #保存一部电影的所有信息            item=str(item)             #影片详情的链接            link=re.findall(findLink,item)[0]   #通过正则表达式来寻找合适的字符串            data.append(link)        #添加链接            imgSrc =re.findall(findImgSrc,item)[0]            data.append(imgSrc)            titles= re.findall(findTitle,item)            if(len(titles)==2):                ctitle=titles[0]                data.append(ctitle)                otitle=titles[1].replace("/","")  #去掉无关的符号                data.append(otitle)   #添加外国名            else:                data.append(titles[0])                data.append('')        #外国名留空这一列            rating=re.findall(findRating,item)[0]            data.append(rating)         #添加评分            judgeNum =re.findall(findJudge,item)[0]            data.append(judgeNum)       #添加评价人数            inq=re.findall(findInq,item)            if len(inq) !=0:                inq=inq[0].replace("。","" )    #去掉句号                data.append(inq)            else:                data.append("")         #留空            bd=re.findall(findBd,item)[0]            bd=re.sub('
     (\s+)?'," ",bd)   #去掉
     
            bd=re.sub('/', " ", bd)    #替换/            data.append(bd.strip())    #去掉前后的空格            datalist.append(data)      #将处理好的一部电影信息放入datalist    return datalist#得到制定一个URL的网页内容def askURL(url):    head={
           #模拟浏览器头部信息，向豆瓣服务器发送消息        "User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 11_2_3) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"         }            #用户代理：表示告诉豆瓣浏览器，我们是什么类型的机器，浏览器（本质上是告诉浏览器，我们可以接收什么水平的数据类型）    request = urllib.request.Request(url,headers=head)    html=""    try:        response=urllib.request.urlopen(request)        html=response.read().decode("utf-8")        #print(html)    except urllib.error.URLError as e:        if hasattr(e,"code"):            print(e.code)        if hasattr(e,"reason"):            print(e.reason)    return html

2.解决savedata

#保存数据def saveDate(data,savepath):    #baseurl = "https://movie.douban.com/top250?start="    # 1.爬取网页    datalist = data    print("save....")    book=xlwt.Workbook(encoding="utf-8",style_compression=0)   #创建workbook对象    sheet=book.add_sheet('豆瓣电影Top250',cell_overwrite_ok=True)    #创建工作表    col=("电影详情链接","图片链接","影片中文名","影片外国名","评分","评价树","概况","相关信息")    for i in range(0, 8):         sheet.write(0,i,col[i])    for i in range(0, 250):        print("第%d条"%(i+1))        data= datalist[i]        for j in range(0,8):            sheet.write(i+1,j,data[j])    book.save(savepath)  #保存数据表

最后，这个是所有的程序了，运行完这些代码后，就可以获得豆瓣的前250个电影及影评了。

但是，这个只是跟着老师做了一遍，下次，若自己想要爬取别的网页，该当如何，所以，这里边的一些别的函数，不懂的应该要搞清楚。

转载地址：https://blog.csdn.net/xxy_yinji/article/details/115369447 如侵犯您的版权，请留言回复原文章的地址，我们会给您删除此文章，给您带来不便请您谅解！

上一篇：如何利用excel设置导航条？

下一篇：TCP/IP网络编程---Linux系统下的TCP套接字编程

发表评论

关于作者

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！

-- 愿君每日到此一游！