大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝1.中国也有自己的大数据综合搜索引擎Transwarp New Search2.New Search青出于蓝而胜于蓝( 二 )


NewSearch支持标准SQL、SQL扩展搜索语义 , 以及Oracle、DB2L方言 , 配套星环自己的安全管控平台Guardian和大数据管理平台Manager , 方便安全管理和运维管理 。
在全文检索方面 , NewSearch支持pdf/word/excel等常用格式文档的存储和搜索 , 提供中、维、藏、英、法、日、韩、德、西、葡等多种语言分词器 , 支持文章相似度匹配、关键字提取、摘要提取等自然语言处理功能 。
NewSearch时空数据库模块支持包括点、线、多边形、集合类型在内的OGC定义的标准图形类型 , 支持基于WMTS协议的瓦片服务 , 支持伴随分析、轨迹相似度匹配等时空数据库算法 。
另外 , NewSearch在大数据量、大集群环境下的性能表现优异 , 相对于开源的Elasticsearch(ES)有了明显的改善:
在硬件投入成本有限时 , 用户希望要尽可能提高资源利用率 , 因此集群单节点支持实例量就显得至关关重要 。 NewSearch单节点支持单实例50TB , 远超过开源ES单节点单实例10TB 。
当用户的数据总量达到百TB-PB量级时 , 采用开源ES软件当实例超过100个节点时 , 会出现连环失联等稳定性问题 。 而星环科技的NewSearch产品为大集群专门调优参数 , 能大幅缓解节点失联等问题 , 而采用最新一代的NewSearch , 支持节点或实例达到200个以上节点时 , 依然能有更好的稳定性 。
大数据搜索对高可用要求高,应能保证99%以上的SLA服务水平协议,在有节点异常情况下可自动快速恢复,当需要人工运维介入时能提供工具快速诊断和修复集群 。 开源ES软件TB数量级节点重启一般需要数小时 , 而星环科技的NewSearch , TB数量级节点重启只需几分钟 。 下图所示为NS在不同存量数据规模情况下的重启耗时 , 其中cold和hot的区别在于是否排除操作系统pageCache影响 。

大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝1.中国也有自己的大数据综合搜索引擎Transwarp New Search2.New Search青出于蓝而胜于蓝
文章图片
对于数据维度高,需要做多表关联分的业务 , 星环科技的NewSearch一改开源ES不直接支持多表关联操作的做法 , 满足一个查询结果需要从两个或两个以上表中提取字段数据的多表关联查询的需求 。
对于短平快查询 , 开源ES支持最大并发量一般在700-800 , 且受GC影响 , 查询性能有毛刺 。 而星环科技的NewSearch一代产品查询流程优化 , 减少一次rpc , 响应时间减少30% , 而且通过offheap、automerge、cooling等技术减少heap占用 , 受GC影响变小 。
最新一代NewSearch , 进行了线程池优化和lucene优化 , 内存占用继续减小1/3 , 受GC波动更小 , 既满足短平快查询秒级需求 , 又能满足查询高峰期高并发量 。 如下图所示 , 单机存量数据为4.5T的情况下 , NewSearch通过对堆外内存的高效使用 , 大幅度减少了堆内存的占用 , 明显降低了GC压力 。

大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝1.中国也有自己的大数据综合搜索引擎Transwarp New Search2.New Search青出于蓝而胜于蓝
文章图片
用户的查询主要针对最近N天内的数据,对再老的数据查询频度相对不高 。 面对这一需求 , 开源ES没有对冷热数据做特别处理 , 而星环科技的NewSearch对冷热数据做了优化 , 提升了查询性能 。
当集群规模很大 , 表格分片较多的情况下 , 开源ES由于其自身PP架构和平衡策略的局限 , 会造成DDL操作延迟非常高 , 造成明显的使用卡顿和集群高负载 。 而NewSearch的中心式架构能够明显优化这方面的性能 , 测试对比如下图 。

大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝1.中国也有自己的大数据综合搜索引擎Transwarp New Search2.New Search青出于蓝而胜于蓝
文章图片
当每天的增量数据增加时,用户对入库性能就会提出特别的要求 。 如何保证入库数据的性能呢?开源ES的数据入库性能随着数据量增大会逐渐变小 。 星环科技的NewSearch一代产品优化存储格式 , 性能提升10%-20%;而二代产品加入bloomfilter索引 , 将入库性能随着数据量增大的影响尽可能减小 , 入库性能继续提高30%-70% 。 另外 , 支持bulkload功能 , 通过BulkLoad的方式快速导入海量数据 。
如下图所示 , 是NewSearch在使用TPC-DS标准数据进行批量写入测试中的性能表现和ES的对比 , 单位为单节点/MB/秒 。

大数据搜索不只开源Elastic,星环科技自研New Search青出于蓝1.中国也有自己的大数据综合搜索引擎Transwarp New Search2.New Search青出于蓝而胜于蓝
文章图片
除了综合搜索产品的技术、性能之外 , 星环科技在大数据基础软件方面 , 可圈可点的地方还可多 , 如星环科技被认为是大数据领域产品线最丰富的企业 , 产品涉及大数据领域众多应用需求和场景 , 在国内有更多成功的案例 , 也能为中国用户提供更好的本地化服务与支持等 。
随着开源软件在全球范围内不断发展壮大 , 开源软件的影响日益扩大 , 并成为软件产业发展不可忽视的重要力量 。 开源软件在全球的发展证明了这种模式不仅是商业模式 , 而且也是研发模式、推广模式、产业化的模式 。