当前位置:首页 > 软件开放 > 正文内容

asp读取新闻列表代码(asp读取excel)

软件开放2周前 (05-09)104

网站一般由栏目页和内容页组成。首页、主题、搜索结果等也可视为栏目页。

采集网页数据,即从栏目页获得内容页地址列表,从内容页提取所需数据。

网页数据采集有着广泛的用途。例如,金融数据采集分析,门户新闻实时监控,监控电商的库存变化/价格变化,舆情分析,客户资料采集,短视频/文章同步发布到各平台。因此,掌握好这门技术,是非常有必要的。

现在,我们做一个热点新闻推送到手机的功能。我们以某门户站点的新闻热搜榜单为采集对象,采集结果将发布到企业微信。

页面分析

使用Chrome浏览器,按F12打开浏览器的开发者工具,再打开门户站点。查看“网络”面板的访问列表,逐个查看,进而找到热搜的请求地址:

https://www.xxx.com/hot-event/hot-board/?origin=xxx_pc_signature=********* 。这个地址后面带了_signature,我们去掉试试,直接访问

https://www.xxx.com/hot-event/hot-board/?origin=xxx_pc ,发现可以打开。由此得出结论,仅仅采集该地址,即可获得实时热搜榜单。如下图。

页面分析

新建采集规则

打开“蜜蜂采集器”。在左侧的“采集任务列表”上右键点击,弹出菜单中选择“添加采集任务”--“添加采集任务”。

采集任务的“基本设置”中,设置采集任务的名称为“热点新闻推送到手机”。其他默认。

采集任务的“列表页”中,添加“普通网址”,内容为

https://www.xxx.com/hot-event/hot-board/?origin=xxx_pc。

采集规则之列表页

展开全文

如上图。点击下方“实时输出”窗口的网址,在弹出菜单中选择“测试网址采集”。

网址采集

采集任务的“网址采集”中,测试完毕后,展开下方“调试”区域的左侧调试日志列表,选择第一个“Http请求”日志,查看右侧的“响应内容”的选项卡标签,再复制其下方的具体内容。可以看到,这个具体内容就是热搜榜单的具体数值列表,数据格式为JSON格式。

采集规则之网址采集

复制这个JSON内容,再选择上方规则区域的“JSON分析工具”,将内容粘贴到“JSON分析工具”的左侧区域。

JSON分析工具

如图,选中“Url”行,可以看到,JsonPath表达式为["data"][0]["Url"]。所以,“网址”标签的采集规则(JsonPath)为["data"][*]["Url"]。但这个链接太长,我们使用浏览器打开对应的新闻链接,发现实际网址是

https://www.xxx.com/trending/7189954117882609668/?rank=4log_from=9bc734edafd3a_1674090438028 这样的结构。其中rank是排名,这个是动态变化的,因此,应该从网址中过滤掉rank参数。所以,只需要

https://www.xxx.com/trending/7189954117882609668/ 这样的结果即可。所以,再添加一个“标签数据二次处理”项————“字符串替换”,通配规则为[*]topic_id=[参数],替换规则为

https://www.xxx.com/trending/[参数1]。

“网址”标签的采集

类似的,我们再增加一个“标题”标签,采集规则(JsonPath)为["data"][*]["Title"]。“封面”标签,采集规则(JsonPath)为["data"][*]["Image"]["url"]。“热度”标签,采集规则(JsonPath)为["data"][*]["HotValue"]。 如果以此采集,每次采集到50条记录,一天内多次采集,可能有上百条数据。因此,我们过滤一下。可以看到,这50条记录中,只有少量的Label值是hot,以此作为过滤条件。再增加一个“热门”标签,采集规则(JsonPath)为["data"][*]["Label"],并设置“内容过滤处理”必须包含“hot”字符串。如图。

内容过滤处理

内容采集

asp读取新闻列表代码(asp读取excel)

采集任务的“内容采集”中,设置“热门”标签为临时标签。临时标签不入库。因为“热门”标签仅仅用来过滤网址列表,无需入库。

临时标签

采集任务的“内容采集”中,“内容”标签的采集。“内容”标签采集的是热点新闻的概要。所以,先采集

https://www.xxx.com/trending/7190322924799131705 ,即“热点新闻专题页”,获取里面的第一个新闻链接。再访问新闻链接,获取里面的新闻概要。如果“热点新闻专题页”中无法获取到新闻链接,则新闻概要为空。

因此,提取新闻链接的采集规则(XPath)为//div[@class="feed-card-article-l"]/a/@href。XPath可以通过浏览器的开发者工具获取,请参考相应文档。

随后勾选“标签数据二次处理”,并添加“网址补全/Http请求”项。

再添加一个“字符串截取”项,用于从“新闻链接页面”提取概要。起始字符串为meta name="description" content=",结束字符串为"/。

再添加一个“添加内容前后缀”项。 字符串后缀:

字符串后缀:

原文:[标签:原文地址]

热度:[标签:热度]

[标签:封面]

考虑到“内容”标签可能为空,“添加内容前后缀”时,取消勾选“内容为空时,不添加前后缀”。

添加内容前后缀

再添加一个“原文地址”标签。设置“数据来源”为“从网址中提取”,并且提取方法为“字符串截取”,起始字符串和结束字符串均为空。

原文地址

测试采集规则。点击下方的“测试”,测试是否正常执行。在“网址采集”的测试窗口,双击记录项 或 点击“测试内容采集”,即可获得测试网址。

测试内容采集

注意:测试采集时提示“您需要允许该网站执行 JavaScript”,这是未设置Cookie所致。在管理器“Cookie管理”中添加Cookie项,在采集规则的“基本设置”中设置Cookie,即可。

内容发布

打开主菜单“帮助”——“应用市场”。类型选择“内容发布插件”。找到插件“发布到企业微信应用”,点击“下载”。

应用市场

导入插件

如果没有可用的PHP“外部程序”,请下载PHP,并添加到“外部程序管理中”。

点击“保存”后,即创建了一个“发布到插件”的发布配置。

打开管理器“发布到插件”,选中刚刚添加的发布配置,点击“修改”。填入您的企业微信开发者帐号信息。touser / toparty / totag 至少填写一个,不能全部留空;corpid / corpsecret / agentid 必填。

发布到插件

切换回采集规则编辑窗口。添加“发布到插件”(点击工具栏“发布到站点”后面的下拉图标),并指定发布参数为刚刚添加的发布配置。点击下方的“测试”,测试是否正常执行。在“内容采集”的测试窗口,双击记录项 或 点击“测试内容发布”,即可获得测试数据。

测试内容发布

计划任务

打开主菜单“视图”——“计划任务”。添加一个计划任务,执行周期为10分钟。

计划任务

至此,就实现了我们自己的热点新闻推送。

扫描二维码推送至手机访问。

版权声明:本文由飞速云SEO网络优化推广发布,如需转载请注明出处。

本文链接:http://021shdzbj.cn/post/112674.html

分享给朋友:

“asp读取新闻列表代码(asp读取excel)” 的相关文章

春节祝福代码怎样制作(元宵祝福代码)

春节祝福代码怎样制作(元宵祝福代码)

本篇文章给大家谈谈春节祝福代码怎样制作,以及元宵祝福代码对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、父亲节祝福代码 2、如何编写新春祝福 3、我是一个小孩,老师说要自编两则春节祝福短信。请问春节祝福短信该怎样编?顺便给个例子,要自己编。 4、父亲节微信祝福...

阳台的装修设计图片大全(阳台的装修设计图片大全集)

阳台的装修设计图片大全(阳台的装修设计图片大全集)

本篇文章给大家谈谈阳台的装修设计图片大全,以及阳台的装修设计图片大全集对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、阳台顶部装修效果图 小阳台怎么设计 2、一楼阳台装修效果图 6款阳台设计随你选 3、主卧阳台装修效果图 多款温馨雅致的室内阳台设计 阳台顶部装修...

微信怎样制作生日祝福(微信怎样制作生日祝福表情)

微信怎样制作生日祝福(微信怎样制作生日祝福表情)

今天给各位分享微信怎样制作生日祝福的知识,其中也会对微信怎样制作生日祝福表情进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、给好朋友生日快乐微信祝福语 2、怎么用微信表情符号拼出生日快乐花样的图案 3、微信怎么自动零点发生日祝福 给好朋友生日快乐微...

鲸探数字藏品实物定制(鲸探数字藏品实物定制怎么样)

鲸探数字藏品实物定制(鲸探数字藏品实物定制怎么样)

今天给各位分享鲸探数字藏品实物定制的知识,其中也会对鲸探数字藏品实物定制怎么样进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、鲸探是干什么的呢? 2、目前最火的数字藏品平台 3、数字文创的数字藏品在哪里抢 鲸探是干什么的呢? 鲸探是高效率且安全可靠...

web前端高级面试题2021(2021年web前端面试题)

web前端高级面试题2021(2021年web前端面试题)

今天给各位分享web前端高级面试题2021的知识,其中也会对2021年web前端面试题进行解释,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在开始吧!本文目录一览: 1、有哪些经典的 Web 前端或者 JavaScript 面试笔试题 2、面试web前端的工作,会被问到什么问题 3、前...

大话西游手游藏宝阁出售条件(大话西游手游藏宝阁交易条件)

大话西游手游藏宝阁出售条件(大话西游手游藏宝阁交易条件)

本篇文章给大家谈谈大话西游手游藏宝阁出售条件,以及大话西游手游藏宝阁交易条件对应的知识点,希望对各位有所帮助,不要忘了收藏本站喔。 本文目录一览: 1、大话西游2藏宝阁多少级可以寄售(卖东西) 2、大话西游手游账号可以交易吗 告诉下流程? 3、大话西游手游藏宝阁异常交易保护说明 4、37...