侧边栏壁纸
  • 累计撰写 793 篇文章
  • 累计创建 1 个标签
  • 累计收到 1 条评论
标签搜索

目 录CONTENT

文章目录

爬虫

Dettan
2021-04-10 / 0 评论 / 0 点赞 / 192 阅读 / 1,048 字
温馨提示:
本文最后更新于 2022-07-23,若内容或图片失效,请留言反馈。部分素材来自网络,若不小心影响到您的利益,请联系我们删除。
robots.txt
爬虫jar包
java -jar C:\Users\liu\Documents\WorkSpace\sprider-flow\spider-flow-web\target\spider-flow.jar
快速入门 | spider-flow
该节点用于请求HTTP/HTTPS页面或接口 请求方法:GET、POST、PUT、DELETE等方法 延迟时间:单位是毫秒,意思是爬取之前延迟一段时间在执行抓取 超时时间:网络请求的超时时间,单位也是毫秒 代理:请求时设置的代理,格式为host:port 如 192.168.1.26:8888 编码格式:用来设置页面的编码格式默认为UTF-8,当解析出现乱码时,可以修改此值 跟随重定向:默认是跟随30x重定向,当不需要此功能时,可以取消勾选 TLS证书验证:此项默认是勾选的,当出现证书一类的异常可以取消勾选此项尝试 自动管理Cookie:请求时自动设置Cookie(自己手动设置的与之前请求的Cookie都会设置进去) 自动去重:勾选时会对url进行去重处理,如果重复则跳过。 重试次数:当请求发生异常或状态码不为200时会进行重试 重试间隔:重试期间的间隔时间(单位为毫秒) 参数:用来设置GET、POST等方法的参数设置 参数名:参数key值 参数值:参数value值 参数描述:仅仅用来描述该项参数(相当于备注/注释)无实际意义 Cookie:用来设置请求Cookie Cookie名:Cookie key值 Cookie值:Cookie value值 描述:仅仅用来描述该项Cookie(相当于备注/注释)无实际意义 Header:用来设置请求头 Header名:Header key值 Header值:Header value值 描述:仅仅用来描述该项Header(相当于备注/注释)无实际意义 Body:请求类型(默认是none) raw(Body项设置为raw) Content-Type:text/plain,application/json 内容:请求体内容(String类型) TIP 此图形会返回一个HttpResponse对象,以 resp 存入变量中 该节点用于定义变量之后,可以与表达式配套使用,实现动态设置各项参数(如动态请求分页地址) 该节点主要用于调试,测试时会把输出打印到页面中,另外也可以用来自动保存到数据库或文件 输出到数据库:勾选时需要填写数据源、表名称,且 输出项 要与列名对应 输出到CSV文件:勾选时需要填写CSV文件路径, 输出项 会作为表头 输出全部参数:一般用来调试,可以输出所有变量到界面上 输出项:输出项的名字 输出值:输出的值,可以是常量,可以是表达式 次数或集合:当此项有值(值为集合或数字)时,后续节点(包括本节点)会循环执行 循环变量:默认为item,与for(Object item : collections) 中的item意义相同 循环下标:当循环时,会产生下标(从0开始)以该值存入变量中,与for(int i =0; i ,selectOne返回 Map ,insertofPk返回主键值 仅仅是注释,毫无其它作用 主要用于调用其他流程 主要用于调用一些关联性不大,无需返回值的函数,如下载文件,保存文件等 用来流转至下一个节点 线粗细:用来调整线的粗细 线样式:用来调整线的样式 线颜色:用来调整线的颜色 流转特性:目前可勾选的是传递变量(默认勾选) 流转条件:当表达式返回true时将流向下一个节点,否则不流转,不填时默认流转 ...
https://www.spiderflow.org/course/quick-start.html#%E8%AE%A4%E8%AF%86%E5%90%84%E4%B8%AA%E8%8A%82%E7%82%B9

0

评论区