功能项 | 功能描述 |
---|---|
元搜索采集 | 从百度、谷歌、必应采集 ,参见 SI-16 SI-26 |
网站爬虫采集 | 从网站爬取数据,自动智能识别标题、正文、时间,自动过滤广告和导航栏 ,参见 SI-18 SI-28 |
论坛采集 | 自带多个模板,支持定制模板 ,参见 SI-17 SI-27 |
百度贴吧采集 | 通过关键词搜索并采集百度贴吧内容 ,参见 SI-22 SI-32 |
微信公众号采集 | 通过关键词搜索并采集微信公众号符合条件的内容 ,参见 SI-23 SI-33 |
本地文件采集 | 在本地计算机采集文件,支持ZIP、RAR压缩文件(无密码) |
数据处理 | 清洗、整合、标准化等处理 |
全文提取 | 支持一百多种文件文件格式,提取全文文本 |
标题与正文智能提取 | 无需配置模板,智能识别与提取标题和正文,自动去除导航栏、广告等无效信息 |
全文检索 | 支持所有文本内容的全文搜索 |
全文检索 | 在全文中搜索、自动摘要等 |
智能分类 | 自动识别语义,按照设置样本对文件进行分类 |
自然段整合 | 跨文章将相似自然段整合一起 |
知识库设置 | 将经验知识、案例知识、有价值文字设置为知识库 |
正则表达式抽取 | 输入正则表达式,根据模式自动抽取符合规律的未知内容 |
独特优势 |
(1) 内置精准语义引擎的按需采集型软件,采集下来的文章几乎100%符合需求,而不是像市场同行一样95%数据都是垃圾文档
(2) 无需配置模板,自动提取标题、时间和正文,自动过滤导航栏和广告 (3) 任务驱动型,按需采集型,和市场同行传统软件思路大不同 |
服务项 | 服务描述 |
---|---|
SDK | 有,免费提供,包括JAVA、C++、C# |
示例源码 | 有,免费提供 |
技术指导 | 有,免费提供 |
定制开发 | 可,议价 |
项目承建 | 可,议价 |
场景项 | 场景描述 |
---|---|
竞争情报保障 | 设置竞争情报课题,持续监控竞争情报信息 |
专题情报保障 | 设置专题情报课题,持续监控竞争情报信息 |
知识库保障 | 构建知识库,将案例知识、经验知识、有价值文字设置为知识库 |
舆情监控 | 监控自媒体、社交媒体 |
智库建设 | 辅助智库建设,提供数据采集与分析系统 |
示例项 | 示例图片 |
---|---|
采集设置 | ![]() |
任务设置 | ![]() |
采集结果 | ![]() |
全文检索 | ![]() |