CSkin博客
标题: 【仿火车头采集器】 C#源码开源 [打印本页]
作者: 王龙 时间: 2019-9-9 15:27
标题: 【仿火车头采集器】 C#源码开源
说明:
菜鸟作品,不喜勿喷
前两年自己花了很久想仿制一款火车头采集器
然后也付出了很多努力,最终未能修成正果
代码一直在电脑中吃灰,本着无私奉献的精神
免费开源,给有需要的人参考和完善
软件功能大部分都已实现- 任务新建和编辑
- 网址采集
- 标签编辑
- 数据采集
- 数据发布
- 发布配置的修改,编辑和测试
- 发布模块的修改和编辑
效果截图:
主窗口任务窗口
采集内容
网址采集
发布选择
多级网址采集
浏览器获取信息
标签编辑(这个部分耗时比较久)
接下来是发布部分
发布配置
发布模块
发布测试
开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)5.23
[窗口]主界面布局
[窗口]信息提示窗口
5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善
5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件
5.26
[优化]分组增删改重写,改用sqlite3
5.27
[窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)
5.28
[控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成
5.29
[优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取
5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正
5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)
6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)
6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址
6.4-6.9暂停开发六天
6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成
6.12
-16[辅助]xml生成实体类工具开发
论坛帖子长度限制,更多请查看博客园
案例源码下载(回复可见):
PS:
代码未完全完成,测试时发现的bug均已全部修复
由于代码未进行大量测试,可能还存在过多问题,望见解
新手开发,仅供参考
作者: 王龙 时间: 2019-9-9 15:27
本帖最后由 王龙 于 2019-9-9 15:30 编辑
沙发,占层,备用,
作者: 王龙 时间: 2019-9-9 15:28
自己额外再占用一个楼层备用
作者: 鄭智文 时间: 2019-9-9 22:26
感謝辛苦付出
作者: zxd36383 时间: 2019-9-9 22:39
东西不错,我最近也在研究这方面的自动学习
作者: 秀秀儿 时间: 2019-9-10 08:31
回复破隐,学习一下
作者: fuzhouses 时间: 2019-9-10 08:48
感謝辛苦付出。
作者: 山水美 时间: 2019-9-10 09:01
数据采集,我理解成可以抓爬公开的网页数据,对吗?
作者: 王龙 时间: 2019-9-10 09:20
和火车头是一样的
作者: yansian1987 时间: 2019-9-10 09:29
楼主辛苦了
作者: QW去 时间: 2019-9-10 09:47
感谢楼主分享
作者: onedayismyway 时间: 2019-9-10 11:27
赞一个,支持吃吃吃吃吃
作者: jhyjhy213 时间: 2019-9-10 14:59
感谢分享
作者: nygula 时间: 2019-9-10 16:57
新手开发,仅供参考
作者: tazxzn 时间: 2019-9-10 17:51
谢谢分享 辛苦了
作者: xuyoyo 时间: 2019-9-10 22:42
这东西不错呀。。。
作者: zakailynn 时间: 2019-9-11 08:04
感謝辛苦付出。
作者: jike 时间: 2019-9-11 09:55
学习一下
作者: 山水美 时间: 2019-9-11 17:37
我试了下,随便找了一个发布空气污染的网站,没有效果(没有看到数据被采集下来)啊,是不是我的尝试方法有问题?
1、双击任务列表树种的子分组中的test子项,弹出修改编辑窗体,看到里面有个网址,用新的网址覆盖原网址。保存退出。
2、单击菜单栏下面的开始按钮,什么效果也没出来。好像没有运行耶???
作者: 05303988681 时间: 2019-9-12 10:00
谢谢分享~
作者: sddm 时间: 2019-9-14 11:44
PS:
代码未完全完成,测试时发现的bug均已全部修复
由于代码未进行大量测试,可能还存在过多问题,望见解
新手开发,仅供参考
作者: amao229 时间: 2019-9-15 22:18
感谢分享,谢谢!
作者: liuxingan 时间: 2019-9-16 08:53
看看,学习一下
作者: sulen 时间: 2019-9-17 22:18
回复就可以看到源码吗
作者: xyy0716 时间: 2019-9-18 09:49
学下你的思路 z最近也在学习这个
作者: humanster 时间: 2019-9-18 17:21
沙发,占层,备用,
作者: zyzlb3373 时间: 2019-9-19 14:20
刚刚注册,学习一下,辛苦啦~
作者: M188 时间: 2019-9-22 22:09
感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢
作者: data 时间: 2019-9-24 09:02
新人,研究一下
作者: kingzgh 时间: 2019-9-24 20:29
谢谢 分享
作者: superteax 时间: 2019-9-25 17:55
好东西,下载来看看
作者: cpktest 时间: 2019-9-27 08:41
bucuo 楼主辛苦了
作者: msxujixi 时间: 2019-9-27 10:38
感謝辛苦付出
作者: wqfzqgk 时间: 2019-9-27 21:00
感谢,非常感谢
作者: AKCJX 时间: 2019-9-28 11:04
感谢分享
作者: 独孤唐 时间: 2019-9-30 11:20
辛苦楼主
作者: 喝喝茶 时间: 2019-9-30 11:36
谢谢楼主分享
作者: qq744980696 时间: 2019-9-30 18:40
嗯嗯呃呃呃呃呃呃呃呃呃呃呃呃呃呃呃鹅鹅鹅鹅鹅鹅饿
作者: wcw.csharp 时间: 2019-10-1 17:02
看起来很不错,喜欢
作者: liwenxxx99 时间: 2019-10-10 13:29
xuexiyixia
作者: dd9999 时间: 2019-10-10 14:34
这是什么?功能?
作者: 移通小白白 时间: 2019-10-12 08:17
感谢LZ对论坛做出的贡献~
作者: 飞雪唉 时间: 2019-10-14 09:47
感谢大佬的分享
作者: zhaoxg 时间: 2019-10-14 11:40
多谢楼主分享
作者: 小金鳞 时间: 2019-10-14 13:34
xiangkankan
作者: qq6358 时间: 2019-10-14 14:51
这是什么软件
作者: 胡雪 时间: 2019-10-17 17:26
重庆时时彩 数据采集,重庆欢乐生肖 我理解成可以抓爬公开的网页数据,北京pk10 对吗?
作者: 明哥 时间: 2019-10-25 22:00
不错啊,喜欢,楼主厉害
作者: jacksonwong 时间: 2019-10-27 12:57
感谢分享!
作者: zoook114 时间: 2019-10-30 00:18
好好学一下
作者: vvjack 时间: 2019-10-31 17:36
看着不错,下来学习一下
作者: fzcm 时间: 2019-11-1 18:00
感謝辛苦付出
作者: nlf17318 时间: 2019-11-4 14:26
看看,学习下
作者: buzhidao 时间: 2019-11-7 19:08
这是啥时候的
作者: 风雷之冰 时间: 2019-11-12 09:51
感谢辛苦付出和无私分享
作者: bigboy2014 时间: 2019-11-13 22:14
很不错的
作者: bonabarenfei 时间: 2019-11-24 16:47
感谢螺主感谢螺主感谢螺主
作者: chenyaowu 时间: 2019-11-25 09:04
感谢LZ的分享,新手学习了
作者: geekcat2018 时间: 2019-11-26 02:07
打撒奥奥奥奥
作者: ogre_zl 时间: 2019-11-26 08:40
看截图很强大啊
作者: feelsyt 时间: 2019-12-1 11:53
好东西,下来学习学习
作者: nihao1 时间: 2019-12-2 17:56
HAOHAOHAPHAOJAO
作者: XGA 时间: 2019-12-3 21:55
感谢楼主分享,么么哒
作者: jsgncj1996 时间: 2019-12-4 01:20
感谢!!!!!!学习
作者: dailman 时间: 2019-12-4 14:11
楼主辛苦了
作者: 26754885 时间: 2019-12-4 16:31
nicenicenice
作者: vieking 时间: 2019-12-5 17:01
不错,学习下
作者: loongx 时间: 2019-12-5 20:46
感谢付出,学习了
作者: 难为水数据 时间: 2019-12-9 08:18
我来负责测试吧,未完成事宜我尽量试着完成以下
作者: xmcx80 时间: 2019-12-9 18:37
不错,学习,加精
作者: cb0282 时间: 2019-12-11 14:36
回复破隐,学习一下
作者: cb0282 时间: 2019-12-11 14:36
回复破隐,学习一下!!!
作者: Hawk 时间: 2019-12-20 21:17
感謝辛苦付出
作者: kdwyc 时间: 2019-12-23 14:12
学习一下
作者: xuss11 时间: 2019-12-24 14:46
学习一下
作者: Aleen 时间: 2019-12-24 21:27
东西不错,我最近也在研究这方面
作者: LK_YL 时间: 2019-12-25 11:32
学习一下
作者: LK_YL 时间: 2019-12-25 11:32
想学习一下
作者: 4866212a 时间: 2019-12-25 14:10
niuibo66666666666666
作者: 4866212a 时间: 2019-12-25 14:10
大佬66666666666666
作者: 8400684 时间: 2019-12-31 16:26
6666666666666666666
作者: letto881 时间: 2019-12-31 16:29
感谢,学习学习
作者: andan 时间: 2020-1-1 16:39
沙发,占层,备用,
作者: kovin 时间: 2020-1-3 14:28
感谢楼主的付出
作者: xiazhangch 时间: 2020-1-4 11:28
顶顶,试一试看一看情况
作者: 灰少 时间: 2020-1-8 14:55
看看 有没有用
作者: 灰少 时间: 2020-1-8 14:55
看看 有没有用
作者: wolikefly 时间: 2020-1-22 20:21
谢谢,非常棒
作者: a13838975978 时间: 2020-2-6 19:05
感谢楼主
作者: a13838975978 时间: 2020-2-6 19:05
感谢楼主 学习一下
作者: 常飞 时间: 2020-2-11 18:40
感谢分享,LZ辛苦了~
作者: tjy13128 时间: 2020-2-13 16:05
感谢分享,学习下
作者: hackercn 时间: 2020-2-17 18:49
自己额外再占用一个楼层备用
作者: link2006 时间: 2020-2-18 00:31
很好,谢谢分享
作者: XiaoYaoRY 时间: 2020-2-18 00:34
感谢大佬的开源文件
作者: XiaoYaoRY 时间: 2020-2-18 00:35
感谢大佬的开源
作者: XiaoYaoRY 时间: 2020-2-18 00:36
楼主辛苦了
作者: 大壮他哥。 时间: 2020-2-21 22:11
感谢分享,LZ辛苦了~
作者: 木易 时间: 2020-2-23 22:48
感谢感谢
作者: Luxor 时间: 2020-2-24 09:01
谢谢分享
欢迎光临 CSkin博客 (http://bbs.cskin.net/) |
Powered by Discuz! X3.2 |