博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python-爬取校园新闻首页的新闻
阅读量:6690 次
发布时间:2019-06-25

本文共 1897 字,大约阅读时间需要 6 分钟。

 

1.作业代码 import requestsfrom bs4 import BeautifulSoupfrom datetime import datetime#========================================================================#1.用requests库和BeautifulSoup库,爬取校园新闻首页新闻的标题、链接、正文。#========================================================================url='http://news.gzcc.cn/html/xiaoyuanxinwen/'res=requests.get(url)res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')for news in soup.select('li'):    if len(news.select('.news-list-title'))>0:        pert=news.select('.news-list-title')[0].text              #pertitle   每则新闻题目        perdt=news.select('.news-list-info')[0].contents[0].text  #perDetail  每则新闻详细内容        perhref=news.select('a')[0].attrs['href']                 #perHref    每则新闻源链接        # ————————————爬取子页面内容——————————————————————————        perdetail=requests.get(perhref)        perdetail.encoding='utf-8'        soupDetail=BeautifulSoup(perdetail.text,'html.parser')        textContent=soupDetail.select('#content')[0].text        #————————————输出内容——————————————        print('题目:',pert)        print('发布时间:',perdt)        print('源页面:',perhref)        print('正文内容:',textContent)        break;#=============================================================#2.分析字符串,获取每篇新闻的发布时间,作者,来源,摄影等信息。#=============================================================info=soupDetail.select('.show-info')[0].textcatagory=['发布时间:','审核:','作者:','摄影:','来源:','点击:']i=0while(i
=0): s=info[info.find(catagory[i]):].split()[0].lstrip(catagory[i])#=============================================================#3.将其中的发布时间由str转换成datetime类型。#============================================================= if(valid>0 and i==0): timeC=datetime.strptime(s,'%Y-%m-%d %H:%M:%S')print(catagory[i]+s) i=i+1 2.结果截图 中间省略若干新闻报道内容...暂爬取新闻第一页作示例。 若源代码第31行的 break 注释掉,能够爬取更多的新闻页面。

 

转载于:https://www.cnblogs.com/CatalpaOvata132/p/8711289.html

你可能感兴趣的文章
搜索和网页排名的数学原理
查看>>
Xcode项目中同一个名称不同位置 简单修改
查看>>
java设计模式-建造者模式
查看>>
Android Shell 快捷键
查看>>
iOS泛型
查看>>
Maven--pom.xml 配置详解之一
查看>>
oracle笔记
查看>>
ContentProvider数据更新
查看>>
Java 关于Ajax的实例--验证用户名(四)
查看>>
入字节码 -- ASM 关键接口 MethodVisitor
查看>>
如何在Centos 6 X86_64安装RHEL EPEL知识库?
查看>>
spring-util命名空间
查看>>
微信小程序周报(第四期)
查看>>
Scrapy的架构初探
查看>>
linux下重启tomact
查看>>
理清Java日志体系
查看>>
大白话讲解CAP定理
查看>>
从 MVC 到前后端分离
查看>>
波 特 曼 与《 爱 与 黑 暗 的 故 事 》
查看>>
undefined与null的区别
查看>>