YGbook采集规则怎么编写?

2018年4月26日09:51:26 1 2,538
摘要

YGbook采集规则怎么写?在使用这个YGBOOK后,也经常有小伙伴问我采集这个怎么写。。其实我也不会。然后呢,就在网上收集了一个编写的教程,放到网站来。

YGbook采集规则怎么编写?

YGbook采集规则怎么写?在使用这个YGBOOK后,也经常有小伙伴问我采集这个怎么写。。其实我也不会。然后呢,就在网上收集了一个编写的教程,放到网站来,自己还没有玩过,等有空可以来试试,各位小伙伴也可以来看看,问我我是不会的。


首先ygbook分为单列表?#25237;?#26639;目匹配方式

单列表:http://www.biquge.com.tw/

多栏目:https://www.snwx8.com/

区别就是多栏目有分?#24120;上?#31034;全部小说。

先以单列表:http://www.biquge.com.tw/ 举例

前面的什么图片本地化,目标网站域名,编码都不用多说了,都看得懂。其中单列表监控页面为首?#24120;琜cate]?#26434;?#24773;况取源站顶部分类要中文的,比如玄幻小说??修真小说到最后恐怖小说?#26469;味杂?#26412;站,如果分类出入太大的,可自行在后台建分类再?#26434;Γ?#26368;大页码为1.

规则列表页码这个很好理解,比如1|1|200的意思就是从第一页开始到200?#24120;?#27599;次增加1页。

无缩略图标志一般为nocover,如果不是你看下源站是什么自行改即可。

列表?#24120;?#38142;接CSS选择器和列表?#24120;?#26631;题CSS选择器

这个怎么选,我们打开首页看到最近更新列表,先取大区域:#newscontent 再取一个区域 .l 区别于下方最新入库的的.r ,最后我们再取我们真正要的区域.s2 a结束,组合就是#newscontent .l .s2 a,很多人?#19981;?#36825;个样子写,就跟提示差不多 #newscontent li a 有些站是可以的,但是要分清楚。

文章页的各个选项,如果是有360结构化的站那么以下是通用的

标题CSS选择器 :meta[property=og:novel:book_name]|content

作者CSS选择器??meta[property=og:novel:author]|content

缩略图CSS选择器??meta[property=og:image]|content

内容CSS选择器一般为#intro

因为源站简介源码一般为<div id="intro">,如果不是 自行修改intro即可,完结标志不用多说了。

章节目录?#24120;?#21306;域CSS选择器一般为:#list

自行查看源码就知道了

章节目录?#24120;?#37319;集规则也看源码如biquge.com.tw为<dd><a href="/19_19161/8850765.html">第1章 工匠大师系统</a></dd>,那么写成<dd><a href="[link]">[title]</a></dd>即可。

如果有这样子的:<span class="swbt"><a??title="字数:3155??更新时间:2017-11-06 08:26:14">第九章 第二次交手</a></span>??你写成<span class="swbt"><a href="[link]"[string]>[title]</a></span>,把不要的用[string]代替掉即可。

最后章节内容?#24120;?#20869;容CSS选择器一般为#content 为什么上面也提到过 自行查看源码就明白了。

通用替换??{filter replace='hostloc'}笔趣阁{/filter} 如果不替换只删除的话删除hostloc即可。

多栏目以:https://www.snwx8.com/ 为例 这就不解释那么多了,累。。。

规则列表页面为:https://www.snwx8.com/[cate]/.html[cate]

?#26434;?#24773;况以网址为准如:sort1 sort2 sort3 ?#26434;?#29572;幻 修真 都市 页码自己填

列表?#24120;?#38142;接CSS选择器列表?#24120;?#26631;题CSS选择器为#newscontent .l .s2 a

此站没有360结构化 所以文章?#24120;?#26631;题CSS选择器为 h1 一般都是这个

文章?#24120;?#20316;者CSS选择器为.infotitle??i 并在文章?#24120;?#28304;码预过滤规则填入{filter replace=''}作者:{/filter},多栏目无需写分类。

文章?#24120;?#20869;容CSS选择器为 .intro 这有个问题我没解决 .intro虽然可获取 但是获取的值太多 后面的值是不想要的 提示也说了可用|分割过滤 但没搞懂。

文章?#24120;?#32553;略图CSS选择器为#fmimg img|src fmimg为值 img|src为图片

后面就不讲了,和上面差不多

最后如果你有很多采集规则的话?#20063;?#28165;楚批量采集会不会重复,但是按ID采集肯定会重复。

其实网上的小说站基本都是杰奇 网址都是按ID的,作者完全可以优化为编写好采集规则后 填入最小ID-最大ID 系统自动生成链接 然后后台慢慢采集即可。然后还有就是去重问题,建议作者增加对比小说名和作者来进行去重,如果相同则不增?#26377;?#35828;但增加节点等。。。

P.S:本教程由全球大?#26032;?#22363;的dalao分享。



版权声明:本文由江西SEO原创或整理发布,欢迎分享! 更多优化知识请查看 SEO教程

本文链接:http://www.741189.fun/5615.html

  • 博客之家
  • 博客之家,本站的资源收集于群里以便下载。当然,更多的是建站知识交流~
  • weinxin
  • SEO优化交流群
  • SEO优化交流群,交流seo优化技巧。860716446
  • weinxin