ftp上传-昨天,腾讯云重新定义了向量数据库

摘要:未来企业之间的竞争将愈加会集在数据上,谁能够更好地运用数据,谁就有或许在未来的竞争中取胜。而看好AI,就应该看好向量数据库,这是腾讯云的逻辑。——腾讯云数据库副总经理罗云
昨日,腾讯云在北京举行发布会,宣告从头界说向量数据库,并发布了国内首个AI原生的向量数据库Tencent Cloud VectorDB。
先来快速了解下腾讯云从头界说向量数据库的考虑维度:

图片来自,发布会现场拍照。
腾讯云提出,向量数据库不只应该支撑自然言语查询,更应将AI算法深度交融至核算层、存储层和数据库引擎中,然后提高AI原生运用的开发功率。
关于腾讯云对向量数据库的从头界说,你有什么观点?在老鱼看来,是具有立异性的,该界说把AI与数据库技能深度交融,涉及到自然言语查询,以及深度结合AI的数据算子和存储优化,这些都为处理大规划非结构化数据带来了新的或许性。
此次从头界说的价值表现在两个方面。首先,这供给了一种全新的AI运用开发处理计划。经过自然言语查询和AI算法的深度结合,能够极大进步开发功率。其次,ftp上传,运用存储优化和AI的辅助,能够明显下降存储本钱并进步数据处理功率。
向量数据库及其中心作业原理
在ChatGPT火起来之前,或许90%的吃瓜大众都不知道向量数据库为何物?现在,假如你还不知道向量数据库,那就out啦。由于,简直一切由大言语模型(LLM)驱动的 AI产品或技能都运用了向量数据库,向量数据库是AI的基础设施。
那么,向量数据库终究是什么?浅显地讲,是一种协助机器学习模型在海量数据中找到类似样本的技能。这或许听起来有些笼统,那就让老鱼用一个例子来解释一下。
假定一个图书馆就是一个数据库,而书就是数据库中的数据。在传统的数据库中,咱们经过书名、作者、出版日期等关键词去查找咱们想要的书本。这个进程类似于咱们在数据库中经过关键词检索需求的数据。
但是,向量数据库的运作机制又是怎样的呢?在一个”向量”图书馆中,假定你不只想找到一本特定的书,你还想找到一切和这本书类似的书,例如内容、风格、主题都类似的书。这在传统图书馆中或许是一项极具应战的使命,由于这需求逐一浏览和比照每一本书的内容。
但是,在”向量”图书馆中,每本书都会被转换成一个向量,它像书的指纹,包含了书的一切特征信息。然后,咱们能够经过核算这些向量之间的距离或类似度,找到与特定书最类似的其他书本。这就是向量数据库的中心作业原理。
例如, “I like to eat pizza” 这句话,在咱们人类的眼中极为简略,但在核算机眼中,它会被解构成每一个单词对应的向量。如下:

风趣的是,语义类似的句子会对应到类似的向量。就像咱们常常玩的魔方,能够经过滚动、找到与方针向量近似的向量。
在实际中,向量数据库被广泛运用在AI和机器学习范畴,特别是在处理和查询很多高维向量数据的场景,如人脸识别,语音识别,产品引荐等等。经过向量数据库,咱们能够在海量数据中,快速有效地找到类似的向量,然后进步检索的功率和精度。这种能力不只极大地推动了AI技能的实用化,也使得咱们的日子变得愈加便捷和个性化。
向量数据库与大模型、生成式人工智能的逻辑关系
咱们再来看一看向量数据库与大模型以及生成式人工智能的逻辑关系。
运用开发者怎么运用向量数据库和大模型处理和查询进程?一般,这个进程包含文本切割、Embedding转换、向量存储、问题查询、向量检索、最后到大模型的推理。
老鱼尽量把复杂的技能讲得简略一些,向量数据库就像是一个拥有极为丰厚藏书的图书馆,大模型则好比一位拥有专业图书馆管理员,总能在海量的书本中迅速找到读者所需的信息。而生成式人工智能,就像是一位灵敏的作家,能根据图书馆中已有的信息创作出全新的著作。
腾讯云从头界说了向量数据库的概念,他们以为向量数据库不只是一个数据的存储库,一起也是一种关键的练习东西。
这个界说的中心在于,向量数据库能明显提高生成式人工智能的输出质量,一起拓宽了大模型的时间和空间边界,处理了大模型关于新信息的无知和或许的隐私走漏问题。
众所周知,现在的大模型,如GPT-4,其练习数据截止日期是2021年9月,那么关于尔后的作业,它是一窍不通的。但是,向量数据库有能力存储最新的信息,然后添补这个漏洞。
一起,经过在本地存储向量数据,向量数据库能有效地避免了大模型或许导致的隐私走漏风险,这无疑是今天许多企业和组织极为关心的问题。
腾讯云向量数据库能不能打?
评价一个向量数据库能不能打,一般需求考量多个关键因素:功用、牢靠性、易用性、扩展性、本钱效益,以及AI和机器学习的集成等。
1、性价比:向量数据库应当确保良好的功用,一起尽量下降存储和核算本钱。
2、成熟度与牢靠性:一个高质量的向量数据库应该供给稳定牢靠的服务,即使在面对大规划并发查询时也能保持高可用性,并且在硬件呈现故障时能够确保数据的持久性。
3、易用性:一个高质量的向量数据库应该是简略易用的,包含简略快速的数据插入、查询和删除流程,一起供给易于了解和运用的API。此外,关于各种常见的数据格式和编程言语的支撑也是必要的。
4、AI和机器学习的集成:关于AI原生向量数据库,其是否能够深度集成AI和机器学习算法,并供给丰厚的AI功用,也是评价其胜败的一个重要目标。
……
接下来,让咱们看一下腾讯云Tencent Cloud VectorDB展现的一些中心亮点数据:
高吞吐:最高支撑10亿级向量检索规划, 比较单机插件式索引规划提高10倍;具有百万级每秒查询(QPS)的峰值能力;
低推迟:P99呼应推迟20ms
高可用:根据腾讯集团大规划运营堆集,日均处理万亿次请求,现网运营可用性目标到达99.99%
弹性扩展一站式向量检索数据库 :Embedding+检索集成计划,数据嵌入AI功率提高10倍
向量化能力(embedding):多次取得权威机构认可,2021年曾登顶MS MARCO榜单第一、相关效果已发表于NLP顶会EMNLPACL。
低本钱:将腾讯云向量数据库用于大模型预练习数据的分类、去重和清洗比较传统方式能够完成10倍功率的提高,假如将向量数据库作为外部知识库用于模型推理,则能够将本钱下降2—4个数量级。
……
这些目标意味着怎样的水平?90%的吃瓜大众或许没有概念,那就让咱们深化解析一下。
腾讯云数据库副总经理罗云接受老鱼采访时,他表明,Tencent Cloud VectorDB在业界处于现已位居第一队伍领先方位,其功用和谷歌的AI检索引擎相媲美,,远超一些开源的处理计划。比如:简略的FAISS库运用或许在数十万到百万等级,而插件式+单机能够到达几百万,到亿等级就比较少了。
罗云进一步表明,Tencent Cloud VectorDB在接入层支撑自然言语查询,在核算层,经过AI算子代替企业寻觅/调优AI算法,将接入工期从1个月缩短到3天。在存储层,交融智能压缩算法,把向量存储本钱下降50%。
在接受采访时,罗云还共享了一份风趣的数据:与传统流程比较,运用Tencent Cloud VectorDB能够完成10倍的功用提高。在传统开发流程中,AI运用的开发者需求花费很多时间进行数据处理、模型选取、向量化等过程。而在Tencent Cloud VectorDB的协助下,这些过程能够大大简化,使开发者能够在更短的时间内完成作业。
罗云对向量数据库的市场前景表达了乐观的观点,跟着AI技能的快速发展,他估计向量数据库有望在NoSQL范畴或整个数据库范畴占据重要的方位。
最后,关于Tencent Cloud VectorDB的方针客户,罗云表明主要是需求运用大模型和处理很多数据的企业,特别是那些在AI,机器学习,查找和引荐体系等范畴有很多运用的公司。
而Tencent Cloud VectorDB的呈现,无疑为这些企业供给了一种新的选择。从功用、牢靠性和本钱效益来看,Tencent Cloud VectorDB有明显优势。那么,腾讯云向量数据库能否招引很多的企业用户,然后改动现有的云数据库市场竞争格式,咱们拭目以待。