CSkin博客

标题: 【仿火车头采集器】 C#源码开源 [打印本页]

作者: 王龙    时间: 2019-9-9 15:27
标题: 【仿火车头采集器】 C#源码开源
说明:
菜鸟作品,不喜勿喷
前两年自己花了很久想仿制一款火车头采集器
然后也付出了很多努力,最终未能修成正果
代码一直在电脑中吃灰,本着无私奉献的精神
免费开源,给有需要的人参考和完善
软件功能大部分都已实现
效果截图:
主窗口
任务窗口

采集内容



网址采集

发布选择


多级网址采集

浏览器获取信息

标签编辑(这个部分耗时比较久)



接下来是发布部分
发布配置

发布模块

发布测试


开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)5.23
[窗口]主界面布局
[窗口]信息提示窗口

5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善


5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件

5.26
[优化]分组增删改重写,改用sqlite3


5.27
[窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)

5.28
[控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成

5.29
[优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取

5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正

5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)

6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)

6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址

6.4-6.9暂停开发六天

6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成

6.12
-16[辅助]xml生成实体类工具开发

论坛帖子长度限制,更多请查看
博客园

案例源码下载(回复可见):

PS:
代码未完全完成,测试时发现的bug均已全部修复
由于代码未进行大量测试,可能还存在过多问题,望见解
新手开发,仅供参考


作者: 王龙    时间: 2019-9-9 15:27
本帖最后由 王龙 于 2019-9-9 15:30 编辑

沙发,占层,备用,
作者: 王龙    时间: 2019-9-9 15:28
自己额外再占用一个楼层备用
作者: 鄭智文    时间: 2019-9-9 22:26
感謝辛苦付出
作者: zxd36383    时间: 2019-9-9 22:39
东西不错,我最近也在研究这方面的自动学习
作者: 秀秀儿    时间: 2019-9-10 08:31
回复破隐,学习一下
作者: fuzhouses    时间: 2019-9-10 08:48
感謝辛苦付出。
作者: 山水美    时间: 2019-9-10 09:01
数据采集,我理解成可以抓爬公开的网页数据,对吗?
作者: 王龙    时间: 2019-9-10 09:20
山水美 发表于 2019-9-10 09:01
数据采集,我理解成可以抓爬公开的网页数据,对吗?

和火车头是一样的
作者: yansian1987    时间: 2019-9-10 09:29
楼主辛苦了
作者: QW去    时间: 2019-9-10 09:47
感谢楼主分享
作者: onedayismyway    时间: 2019-9-10 11:27
赞一个,支持吃吃吃吃吃
作者: jhyjhy213    时间: 2019-9-10 14:59
感谢分享
作者: nygula    时间: 2019-9-10 16:57
新手开发,仅供参考
作者: tazxzn    时间: 2019-9-10 17:51
谢谢分享 辛苦了
作者: xuyoyo    时间: 2019-9-10 22:42
这东西不错呀。。。
作者: zakailynn    时间: 2019-9-11 08:04
感謝辛苦付出。
作者: jike    时间: 2019-9-11 09:55
学习一下
作者: 山水美    时间: 2019-9-11 17:37
我试了下,随便找了一个发布空气污染的网站,没有效果(没有看到数据被采集下来)啊,是不是我的尝试方法有问题?
1、双击任务列表树种的子分组中的test子项,弹出修改编辑窗体,看到里面有个网址,用新的网址覆盖原网址。保存退出。
2、单击菜单栏下面的开始按钮,什么效果也没出来。好像没有运行耶???
作者: 05303988681    时间: 2019-9-12 10:00
谢谢分享~
作者: sddm    时间: 2019-9-14 11:44
PS:
代码未完全完成,测试时发现的bug均已全部修复
由于代码未进行大量测试,可能还存在过多问题,望见解
新手开发,仅供参考
作者: amao229    时间: 2019-9-15 22:18
感谢分享,谢谢!
作者: liuxingan    时间: 2019-9-16 08:53
看看,学习一下
作者: sulen    时间: 2019-9-17 22:18
回复就可以看到源码吗
作者: xyy0716    时间: 2019-9-18 09:49
学下你的思路 z最近也在学习这个
作者: humanster    时间: 2019-9-18 17:21
沙发,占层,备用,
作者: zyzlb3373    时间: 2019-9-19 14:20
刚刚注册,学习一下,辛苦啦~
作者: M188    时间: 2019-9-22 22:09
感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢感谢
作者: data    时间: 2019-9-24 09:02
新人,研究一下
作者: kingzgh    时间: 2019-9-24 20:29
谢谢 分享
作者: superteax    时间: 2019-9-25 17:55
好东西,下载来看看
作者: cpktest    时间: 2019-9-27 08:41
bucuo 楼主辛苦了

作者: msxujixi    时间: 2019-9-27 10:38
感謝辛苦付出
作者: wqfzqgk    时间: 2019-9-27 21:00
感谢,非常感谢
作者: AKCJX    时间: 2019-9-28 11:04
感谢分享
作者: 独孤唐    时间: 2019-9-30 11:20
辛苦楼主
作者: 喝喝茶    时间: 2019-9-30 11:36
谢谢楼主分享
作者: qq744980696    时间: 2019-9-30 18:40
嗯嗯呃呃呃呃呃呃呃呃呃呃呃呃呃呃呃鹅鹅鹅鹅鹅鹅饿
作者: wcw.csharp    时间: 2019-10-1 17:02
看起来很不错,喜欢
作者: liwenxxx99    时间: 2019-10-10 13:29
xuexiyixia
作者: dd9999    时间: 2019-10-10 14:34
这是什么?功能?
作者: 移通小白白    时间: 2019-10-12 08:17
感谢LZ对论坛做出的贡献~
作者: 飞雪唉    时间: 2019-10-14 09:47
感谢大佬的分享
作者: zhaoxg    时间: 2019-10-14 11:40
多谢楼主分享
作者: 小金鳞    时间: 2019-10-14 13:34
xiangkankan
作者: qq6358    时间: 2019-10-14 14:51
这是什么软件
作者: 胡雪    时间: 2019-10-17 17:26
重庆时时彩 数据采集,重庆欢乐生肖 我理解成可以抓爬公开的网页数据,北京pk10 对吗?

作者: 明哥    时间: 2019-10-25 22:00
不错啊,喜欢,楼主厉害
作者: jacksonwong    时间: 2019-10-27 12:57
感谢分享!
作者: zoook114    时间: 2019-10-30 00:18
好好学一下
作者: vvjack    时间: 2019-10-31 17:36
看着不错,下来学习一下
作者: fzcm    时间: 2019-11-1 18:00
感謝辛苦付出
作者: nlf17318    时间: 2019-11-4 14:26
看看,学习下
作者: buzhidao    时间: 2019-11-7 19:08
这是啥时候的
作者: 风雷之冰    时间: 2019-11-12 09:51
感谢辛苦付出和无私分享
作者: bigboy2014    时间: 2019-11-13 22:14
很不错的
作者: bonabarenfei    时间: 2019-11-24 16:47
感谢螺主感谢螺主感谢螺主
作者: chenyaowu    时间: 2019-11-25 09:04
感谢LZ的分享,新手学习了
作者: geekcat2018    时间: 2019-11-26 02:07
打撒奥奥奥奥
作者: ogre_zl    时间: 2019-11-26 08:40
看截图很强大啊
作者: feelsyt    时间: 2019-12-1 11:53
好东西,下来学习学习
作者: nihao1    时间: 2019-12-2 17:56
HAOHAOHAPHAOJAO
作者: XGA    时间: 2019-12-3 21:55
感谢楼主分享,么么哒
作者: jsgncj1996    时间: 2019-12-4 01:20
感谢!!!!!!学习
作者: dailman    时间: 2019-12-4 14:11
楼主辛苦了
作者: 26754885    时间: 2019-12-4 16:31
nicenicenice
作者: vieking    时间: 2019-12-5 17:01
不错,学习下
作者: loongx    时间: 2019-12-5 20:46
感谢付出,学习了
作者: 难为水数据    时间: 2019-12-9 08:18
我来负责测试吧,未完成事宜我尽量试着完成以下
作者: xmcx80    时间: 2019-12-9 18:37
不错,学习,加精
作者: cb0282    时间: 2019-12-11 14:36
回复破隐,学习一下
作者: cb0282    时间: 2019-12-11 14:36
回复破隐,学习一下!!!
作者: Hawk    时间: 2019-12-20 21:17
感謝辛苦付出
作者: kdwyc    时间: 2019-12-23 14:12
学习一下
作者: xuss11    时间: 2019-12-24 14:46
学习一下
作者: Aleen    时间: 2019-12-24 21:27
东西不错,我最近也在研究这方面

作者: LK_YL    时间: 2019-12-25 11:32
学习一下
作者: LK_YL    时间: 2019-12-25 11:32
想学习一下
作者: 4866212a    时间: 2019-12-25 14:10
niuibo66666666666666
作者: 4866212a    时间: 2019-12-25 14:10
大佬66666666666666
作者: 8400684    时间: 2019-12-31 16:26
6666666666666666666
作者: letto881    时间: 2019-12-31 16:29
感谢,学习学习
作者: andan    时间: 2020-1-1 16:39

沙发,占层,备用,
作者: kovin    时间: 2020-1-3 14:28
感谢楼主的付出
作者: xiazhangch    时间: 2020-1-4 11:28
顶顶,试一试看一看情况
作者: 灰少    时间: 2020-1-8 14:55
看看 有没有用
作者: 灰少    时间: 2020-1-8 14:55
看看 有没有用
作者: wolikefly    时间: 2020-1-22 20:21
谢谢,非常棒
作者: a13838975978    时间: 2020-2-6 19:05
感谢楼主
作者: a13838975978    时间: 2020-2-6 19:05
感谢楼主 学习一下
作者: 常飞    时间: 2020-2-11 18:40
        感谢分享,LZ辛苦了~
作者: tjy13128    时间: 2020-2-13 16:05
感谢分享,学习下
作者: hackercn    时间: 2020-2-17 18:49
自己额外再占用一个楼层备用

作者: link2006    时间: 2020-2-18 00:31
很好,谢谢分享
作者: XiaoYaoRY    时间: 2020-2-18 00:34
感谢大佬的开源文件
作者: XiaoYaoRY    时间: 2020-2-18 00:35
感谢大佬的开源
作者: XiaoYaoRY    时间: 2020-2-18 00:36
楼主辛苦了
作者: 大壮他哥。    时间: 2020-2-21 22:11
        感谢分享,LZ辛苦了~
作者: 木易    时间: 2020-2-23 22:48
感谢感谢
作者: Luxor    时间: 2020-2-24 09:01
谢谢分享




欢迎光临 CSkin博客 (http://bbs.cskin.net/) Powered by Discuz! X3.2