资源搜
资源搜
👀 联系夏柔
🔥 投稿源码
资源搜

资源搜

  • 全部
  • 123盘
  • 阿里盘
  • 百度云
  • 迅雷
  • 夸克
  • 115
  • 蓝奏云
  • 其他
已收录34128条资源,仅供学习交流,请在24h内删除资源!

WordPress自动采集发布插件:Crawling1.0【附带教程】

Crawling是一款Wordpress下的自动采集爬虫插件,能够自动采集爬取目标网站内容并自动发布。 一、写在前面 首先声明一下,我其实并不是搞PHP的,写代码一般都是用的C++和Python。对于PHP,只是很多年前自己做博客写了几天。最近换工作等着离职,没事做,所以写个插件玩玩。如果觉得不好用的地方,请给我些建议。好的建议我会采纳,争取把这个插件做得更好。 在开发这个插件的时候,已经考虑到了尽量让配置更简单易懂。但是为了使插件更灵活,所以还是需要了解一下正则和xpath规则。如果你懂,我相信这个教程一你看就会明白了,完全没有什么难度。如果你之前没有接触过正则和xpath也没关系,因为其实真的不需要懂,只要看例子copy就行了。因为是第一个版本,所以可能有些地方写的不太详细,欢迎大家指出来。 二、下载和安装 首先,打开https://crawling.cn下载最新版,得到crawling_v*.tar.gz。 然后,解压压缩包,上传到wordpress插件目录。激活插件。 三、任务管理 一个任务可以理解为一个爬虫,在这里你可以配置多个任务,每个任务可以单独设置参数。 比如,这里我设置了三个任务,如图: 第一个任务是爬取“且听风吟”(这是我比较喜欢的一个电影网站)的全部内容,抓取间隔设置为-1表示只采集一次,不会重复执行。 第二个任务是爬取“且听风吟”的前三页,如果采集过的不会重复采集,只会抓取前三页的更新的内容。每隔24小时采集一次。 第三个任务是爬取“阳光电影网”(这是电影天堂的新网站)的首页的全部更新的电影,因为阳光电影所有的更新都在首页。每隔24小时采集一次。 每个任务单独设置的参数,如图: 下面是每个任务的设置:1 任务名称: 每隔任务的别名,方便好记而已,没有其他作用。2 入口网址: 每个任务爬虫开始的地址。这个网址一般是首页或者列表页。然后爬虫会从这个页面开始采集。3 爬取间隔时间: 每隔任务(爬虫)运行的间隔时间。4 列表页面url正则/内容页面url正则: 爬虫进入第一个网址(入口网址)后需要区分哪些是需要采集的内容页面。所以需要设置匹配的内容页面url正则表达式。 爬取还需要知道如何进行翻页,寻找更多的内容页面,所以需要设置列表页面url的正则表达式。 例如:抓取“且听风吟”整站的内容 打开网站首页www.qtfy.cc。发现所有的列表页面网址都为https://www.qtfy.cc/page/数字,而内容页面网址都为https://www.qtfy.cc/ysyl/数字.html 列表页面 内容页面 所以正则表达式如下: 列表页面url正则:/page/[1-9]d*$内容页面url正则:/[1-9]d*.html$ 如果只需要采集前三页更新的内容,只需要把列表页面的正则表达式改为/page/[1-3]$。 配置这两个参数时可以打开《正则表达式在线测试》页面测试。5 文章标题(xpath)/文章内容(xpath): 进入内容页面后,爬虫要选择抓取的内容,比如文章的标题和文章的正文。所以需要设置xpath来告诉爬虫。 例如: 打开且听风吟的一个页面,如:https://www.qtfy.cc/ysyl/14352.html。通过浏览器查看页面源代码,如图: 可以看到,文章的标题是包含在 这个元素中的元素中的。所以标题的xpath规则为://h1[@class=”mscctitle”]/a同样,通过上图可以看见:内容是包含在 中的,所以内容的xpath规则为://div[@class=”content-text”] 配置完成可以打开《XPath在线测试》页面测试。 6 内容起始字符串/内容结束字符串: 一般的网站都会有广告,或者一些其他的东西混在内容里面,所以我们需要过滤掉这些内容,只保存我们需要的部分。而这部分无用的东西(广告、分享按钮、标签等)大部分都是在文章的开头或者结束部分,并且内容是固定的。所以我们可以通过简单的字符串过滤掉。 例如《且听风吟》的每篇文章的内容部分开头就有一段广告,如上图。 通过《XPath在线测试》页面测试我们上一步配置的内容xpath规则,可以得到文章内容,如下图: 可以看到,真正的内容是从 之后开始的。 所以内容起始字符串设置为: 因为文章内容后面并没有多余的部分,所以后面不用过虑,内容结束字符串设置为空就可以了。7 文章图片: 采集插件可以自动将文章内出现的图片保存到本地,默认按年月分文件夹保存,并会将图片的标签设置为文章的标题。如果不需要保存到本地可以选择“不做处理”。8 文章分类: 选择要保存到的分类,和wordpress一样,可以选择多个分类。9 文章标签: 每个任务可以单独设置标签,多个标签用|分隔。10 发布方式: 可以选择“立即发布”或者“放入草稿箱”。 四、高级选项爬取线程数: 这个选项根据自己的主机配置来设置。如果是在独立主机上,可以设置成多线程采集,比如同时开10个线程。如果是在虚拟主机上,不要设的太大,不然CPU占用太高被封站。抓取延时: 每个页面采集过后的延时,防止采集过快。这个参数也是为了防止网站虚拟主机和被采集网站因为采集太快而禁止访问。 五、最后 配置完之后,剩下的就是等待插件执行了,如果执行到一半想要终止程序,可以切换插件运行状态,在“任务管理”页面的顶部。
源码当先
百度云
百度云

WordPress付费插件:Erphpdown9.6.4 vip会员+推广提成+收费下载 银联/支付宝/微信支付/贝宝paypal/有赞云支付

会员推广下载专业版  WordPress插件(erphpdown)是模板兔开发的一款针对虚拟资源收费下载的插件,经过完美测试运行于wordpress 3.1.x-4.x版本。后续模板兔会增加更多实用的功能。 模板兔已针对此插件开发了一个前端用户中心,基本适用于任何主题(不排除有的主题使用错位的可能)。本插件无域名限制。功能介绍已经在程序中集成官方支付宝(担保交易/双功能接口/即时到帐)接口、银联、paypal、财付通、官方微信支付(扫码支付)、个人免签约支付(点击申请接口)、**椒支付接口(个人免签)、马支付(个人免签)、有赞云支付(个人免费,接口申请方法)集成mycred积分插件,mycred积分兑换成erphpdown货币(另付费功能)购买此扩展充值卡充值(管理员后台生成充值卡卡号卡密,可以放在第三方自动发卡平台出售,然后购买用用卡密来进行网站充值)(另付费功能)购买此扩展设置用户提现手续费比率设置用户推广消费提成比率设置货币昵称(例如:模板币)设置充值比例(例如:1元=10模板币)查询所有消费记录查询所有充值记录查看与处理取现申请列表查看全部收益与推广推广用户消费获得提成(这对管理员没必要)用户充值与扣费查询用户余额、充值记录、消费记录发布收费下载资源(支持外链,可设置解压密码,通过email发送给购买用户)发布收费查看内容(支持全文内容收费查看以及部分内容收费查看)管理与、投稿者、订阅者权限分配(以上某些功能是管理员专有权限)前端短代码调用、前端用户个人中心下载路径加密(内链)申请提现VIP会员(包月、包季、包年、永久)特权(VIP专享、VIP半价、VIP八折、VIP免费)一次购买,永久下载colorbox灯箱弹窗特效以及Ajax无跳转购买前端个人中心(可直接充值、查看消费等)
源码当先
百度云
百度云

Discuz帖子内界面美化插件3.62商业版,仿微信对话框

最新【商】帖内美化 3.62 商业版dz插件分享,一款基于dz论坛帖子内界面美化功能插件
源码当先
百度云
百度云

仿微信聊天im酷聊版app源码 即时通讯app源码+钱包红包发现等功能+安装教程

微信聊天im酷聊版app源码即时通讯app源码+钱包红包发现等功能+安装教程简单仿im聊天app源码,界面看上去虽然简单,但压缩包有1.14G,教程也非常详细,有兴趣的会员下载自行研究吧。
源码当先
百度云
百度云

【视频教程】太阳城大富二开超详细搭建教程 大富通用搭建教程

分享一套通用大富视频搭建教程,很详细的教程了,包括环境。大富基本通用。
源码当先
百度云
百度云

【爆点H5游戏】区块链竞猜游戏+已对接码支付

【爆点H5游戏】区块链竞猜游戏+已对接码支付源码介绍:1、linux系统,环境php7.2+apache2.4+mysq5.6安装扩展Swoole2、上传源码到网站根目录下解压3、修改数据库配置文件/application/database.php4、后台:域名/simple/index/login5、账号admin 密码admin888
源码当先
百度云
百度云

最新好运来YL美化修复版+WAP手机端+开奖视频+修复采集+完整安装教程

本次带来一款修复过的2019年最新XC版本程序,带真人,对接后正常使用!程序本身系统cai本站已经修复的七七八八,绝大多数正常使用!带开奖视频+走势也正常!详细看截图!程序的一些非常严重的BUG基本修复!基本没发现什么大问题!带非常详细的安装教程!需要的朋友可以下载体验!
源码当先
百度云
百度云

【菠菜源码】荣鼎彩全套源码PC+WAP+后台+开奖器 后台控杀,采集已对接,直接可用

【菠菜源码】荣鼎彩全套源码PC+WAP+后台+开奖器 后台控杀,采集已对接,直接可用安装与开奖文字简单教程:推荐搭建工具:UPUPW PHP版本 5.4首先第一步打开数据库新建一个数据库 然后导入数据库.sql4个文件夹修改数据库连接admin---inc.phpwap----inc.phpweb----inc.php开奖---config.js 在1471行修改后台默认号码admin密码123456安全码1开奖已经对接好了这里要注意一下,最近有人说开奖用不了,其实最近的程序每一套的开奖都对接好了的,你们需要把开奖/config.js里面的127.0.0.4 修改为你网站前台域名再把127.0.0.2 修改为你的后台域名 然后再修改数据库链接信息host:'127.0.0.1',默认是127.0.0.1user:'root',password:'数据库密码',database:'数据库表名'环境推荐1 :phpstudy(IIS+ MYSQL+PHP5.4NTS)+nodejs5.5.0+navicat for mysql 11.0(破解版) phpstudy apache版问题很多 会经常崩溃环境推荐2 :UPUPW kangle版+nodejs5.5.0+navicat for mysql 11.0(破解版)UPUPW比较稳定
源码当先
百度云
百度云

最新大富双玩法二次开发美化版源码 WAP手机端自适应+完整运营级对接采集 附视频教程

大富已经被玩烂了,这又是一个网友分享给我的大富二次开发版,界面有些改动,不卡顿!还是修复的20分钟一期,也还是双玩法,采集可以对接本站的免费API接口,带有视讯功能,修复了不少问题!无限接近运营级 !应该是目前最好的一个版本了!安装方法还是一样!带有视频教程!欢迎下载体验!测试环境:WIN+宝塔+APACHE+PHP5.6+MYSQL5.6+伪静态(必须)
源码当先
百度云
百度云

2019最新H5红包扫雷源码修复版 基于thinkphp开发 无需授权版无任何加密

红包扫雷源码2019最新H5红包扫雷修复版源码无需授权版基于Thinkphp开发最新赚钱项目[欧乐红包扫雷源码]微信H5红包扫雷源码后台说明1比如说。系统会不断的发包。2然后有人抢我们可以控制他中雷。剩下不中雷的机器人会抢3也就是说10元的包。系统有可能赚10+中一个雷就10元。两个就204玩家可以上庄系统模仿人抢略而且机器人是先把不中的抢了玩家发包也有几率出没有雷的包。机器人可以把它发的包都抢了
源码当先
百度云
百度云
⬅️ 1...30443045304630473048...3150

添加微信,反馈问题

微信及时反馈问题,方便沟通,请备注 ❤️

搜索榜单

1

骚老板资源网整站源码 打包数据高达2GB

629

2

(自适应手机版)响应式餐饮美食企业网站源码 餐饮品牌连锁机构织梦模板

561

3

绿色风格网络公司源码 php网络建站公司源码

541

4

Zblog仿918回忆模特写真网带整站数据图库系统源码

433

5

一款笑话类网站源码 简约清爽的织梦笑话网站模板

377

6

【梦幻XY单机服务端】梦幻古龙一键安装游戏客户端附安装搭建教程工具

332

最新资源

1

网狐系列529娱乐U3D电玩游戏组件

2

牛王大联盟无授权组件+机器人+UI解密可二开 附视频教程

3

集结号海螺捕鱼游戏源码+搭建工具文档

4

网狐荣耀/kk娱乐完整组件

5

网狐创胜系列/通用过授权文件+使用教程

6

网狐电玩系列/乐游电玩城/免微信免短信登陆

友情链接:
免费APISSL在线检测在线pingAPI版本项目 查看更多
网站地图 法律声明
本站所存储的源码数据均为转载,不提供在线播放和下载服务。本站为非盈利性,不收取费用,所有内容不用于商业行为,仅供学习交流使用。如有侵权,请联系15001904@qq.com
  • 联系微信,反馈问题

  • 点此立刻反馈