作者: 王龙
查看: 111264|回复: 206

[源码] 【仿火车头采集器】 C#源码开源

  [复制链接]
王龙 发表于 2019-9-9 15:27:10 | 显示全部楼层 |阅读模式
查看: 111264|回复: 206
说明:
菜鸟作品,不喜勿喷
前两年自己花了很久想仿制一款火车头采集器
然后也付出了很多努力,最终未能修成正果
代码一直在电脑中吃灰,本着无私奉献的精神
免费开源,给有需要的人参考和完善
软件功能大部分都已实现
  • 任务新建和编辑
  • 网址采集
  • 标签编辑
  • 数据采集
  • 数据发布
  • 发布配置的修改,编辑和测试
  • 发布模块的修改和编辑

效果截图:

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源
主窗口

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源
任务窗口

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

采集内容

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源



网址采集

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

发布选择

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源


多级网址采集

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

浏览器获取信息

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

标签编辑(这个部分耗时比较久)

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源



接下来是发布部分
发布配置

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

发布模块

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

发布测试

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源


开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)5.23
[窗口]主界面布局
[窗口]信息提示窗口

5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善


5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件

5.26
[优化]分组增删改重写,改用sqlite3


5.27
[窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)

5.28
[控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成

5.29
[优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取

5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正

5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)

6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)

6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址

6.4-6.9暂停开发六天

6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成

6.12
-16[辅助]xml生成实体类工具开发

论坛帖子长度限制,更多请查看
博客园

案例源码下载(回复可见):
游客,如果您要查看本帖隐藏内容请回复

PS:
代码未完全完成,测试时发现的bug均已全部修复
由于代码未进行大量测试,可能还存在过多问题,望见解
新手开发,仅供参考

评分

参与人数 2金钱 +6 收起 理由
飞雪唉 + 3 感谢分享,LZ辛苦了~
乔克斯 + 3 感谢LZ对论坛做出的贡献~

查看全部评分

回复 论坛版权

使用道具 举报

 楼主| 王龙 发表于 2019-9-9 15:27:27 | 显示全部楼层
本帖最后由 王龙 于 2019-9-9 15:30 编辑

沙发,占层,备用,
 楼主| 王龙 发表于 2019-9-9 15:28:35 | 显示全部楼层
自己额外再占用一个楼层备用
鄭智文 发表于 2019-9-9 22:26:00 | 显示全部楼层
感謝辛苦付出
zxd36383 发表于 2019-9-9 22:39:30 | 显示全部楼层
东西不错,我最近也在研究这方面的自动学习
秀秀儿 发表于 2019-9-10 08:31:42 | 显示全部楼层
回复破隐,学习一下
fuzhouses 发表于 2019-9-10 08:48:48 | 显示全部楼层
感謝辛苦付出。
山水美 发表于 2019-9-10 09:01:53 | 显示全部楼层
数据采集,我理解成可以抓爬公开的网页数据,对吗?
 楼主| 王龙 发表于 2019-9-10 09:20:27 | 显示全部楼层
山水美 发表于 2019-9-10 09:01
数据采集,我理解成可以抓爬公开的网页数据,对吗?

和火车头是一样的
yansian1987 发表于 2019-9-10 09:29:33 | 显示全部楼层
楼主辛苦了
您需要登录后才可以回帖 登录 | 加入CSkin博客

本版积分规则

QQ|申请友链|小黑屋|手机版|Archiver|CSkin ( 粤ICP备13070794号

Powered by Discuz! X3.2  © 2001-2013 Comsenz Inc.  Designed by ARTERY.cn
GMT+8, 2024-3-19 14:46, Processed in 0.614883 second(s), 35 queries , Gzip On.

快速回复 返回顶部 返回列表