Частина з циклу |
Машинне навчання та добування даних |
---|
Систе́ма керува́ння ве́кторними ба́зами да́них (СКВБД, англ. vector database management system, VDBMS) або просто ве́кторна ба́за да́них (англ. vector database) чи ве́кторне схо́вище (англ. vector store) — це база даних, яка може зберігати вектори (списки чисел фіксованої довжини), разом з іншими елементами даних. Векторні бази даних зазвичай втілюють один або декілька алгоритмів наближено найближчих сусідів[en] (ННС, англ. Approximate Nearest Neighbor, ANN),[1][2], що дає можливість здійснювати пошук базою даних за допомогою вектора запиту, знаходячи найближчі відповідні записи бази даних.
Вектори є математичними поданнями даних у високовимірному просторі. У цьому просторі кожен вимір відповідає ознаці даних, і для подання складних даних можна використовувати десятки тисяч вимірів. Положення вектора в цьому просторі подає його характеристики. Векторизувати можливо слова, фрази, цілі документи, зображення, звуки та інші типи даних.[3]
Ці вектори ознак можна обчислювати з сирих даних за допомогою методів машинного навчання, таких як алгоритми виділяння ознак, вкладання слів[4] чи мережі глибокого навчання. Мета — щоби семантично подібні елементи даних отримували близькі один до одного вектори ознак.
Векторні бази даних можливо використовувати для пошуку за подібністю[en], мультимодального пошуку[en], рекомендаційних рушіїв, великих мовних моделей (ВММ) тощо.[3]
Векторні бази даних також використовують для втілювання доповненого пошуком породжування (англ. Retrieval-Augmented Generation, RAG), методу покращення залежних від предметної області відповідей великих мовних моделей. Збирають текстові документи, що описують предметну область, і для кожного документа обчислюють вектор ознак (відомий як «вкладення»), зазвичай за допомогою мережі глибокого навчання, та зберігають у векторній базі даних. На основі запиту користувача обчислюють вектор ознак запиту, і роблять запит до бази даних для отримання найвідповідніших документів. Відтак ці документи автоматично додають до контекстного вікна великої мовної моделі, і велика мовна модель створює відповідь на запит, враховуючи цей контекст.[5]
Перелік векторних баз даних
назва | ліцензія |
---|---|
Apache Cassandra[6][7] | Apache License 2.0 |
Azure Cosmos DB[en] Vector Database Extension[8] | н/д (керована послуга) |
LlamaIndex[9] | MIT License[10] |
Milvus[11][12] | Apache License 2.0 |
MongoDB Atlas[13] | н/д (керована послуга) |
Couchbase[14][15] | невідома (попередній перегляд) |
Pinecone[16] | закритий первинний код |
Redis Cloud[17] | керована послуга, Redis Source Available License |
Postgres з pgvector[18] | PostgreSQL License[19] |
Qdrant[20] | Apache License 2.0[21] |
Weaviate[22] | BSD 3-Clause[23] |
Chroma[24][25] | Apache License 2.0[26] |
Elasticsearch[27] | Server Side Public License[en], Elastic License [28] |
Vespa[29] | Apache License 2.0[30] |
SurrealDB[31] | Business Source License[en] та Apache License (після 4 років)[32] |
Примітки
- ↑ Roie Schwaber-Cohen. What is a Vector Database & How Does it Work (англ.). Pinecone. Процитовано 18 листопада 2023.
- ↑ What is a vector database (англ.). Elastic[en]. Процитовано 18 листопада 2023.
- ↑ а б Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). 26 грудня 2023. Процитовано 11 січня 2024.
- ↑ Evan Chaki (31 липня 2023). What is a vector database?. Microsoft.
Векторна база даних — це такий тип баз даних, у якому дані зберігаються у вигляді високовимірних векторів, що є математичними поданням ознак або атрибутів.
- ↑ Lewis, Patrick; Perez, Ethan; Piktus, Aleksandra; Petroni, Fabio; Karpukhin, Vladimir; Goyal, Naman; Küttler, Heinrich (2020). Retrieval-augmented generation for knowledge-intensive NLP tasks. Advances in Neural Information Processing Systems 33 (англ.): 9459—9474. arXiv:2005.11401.
- ↑ 5 Hard Problems in Vector Search, and How Cassandra Solves Them. TheNewStack (амер.). 22 вересня 2023. Процитовано 22 вересня 2023.
- ↑ Vector Search quickstart (англ.). Процитовано 21 листопада 2023.
- ↑ Vector database - Azure Cosmos DB. learn.microsoft.com (англ.). Процитовано 10 січня 2024.
- ↑ Wiggers, Kyle (6 червня 2023). LlamaIndex adds private data to large language models. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- ↑ llama_index/LICENSE at main · run-llama/llama_index. GitHub (англ.). Процитовано 29 жовтня 2023.
- ↑ Open Source Vector Database – Milvus – LFAI & DATA (англ.). Процитовано 29 жовтня 2023.
- ↑ Liao, Ingrid Lunden and Rita (24 серпня 2022). Zilliz raises $60M, relocates to SF. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- ↑ Introducing Atlas Vector Search: Build Intelligent Applications with Semantic Search and AI Over Any Type of Data. MongoDB (амер.). 22 червня 2023.
- ↑ Couchbase aims to boost developer database productivity with Capella IQ AI tool. VentureBeat (амер.). 30 серпня 2023.
- ↑ Investor Presentation Third Quarter Fiscal 2024. Couchbase Investor Relations (амер.). 6 грудня 2023.
- ↑ Pinecone leads 'explosion' in vector databases for generative AI. VentureBeat (амер.). 14 липня 2023. Процитовано 29 жовтня 2023.
- ↑ Redis as a vector database quick start guide. Redis (англ.). Процитовано 31 січня 2024.
- ↑ pgvector. GitHub (амер.). Процитовано 27 листопада 2023.
- ↑ pgvector/License. GitHub (амер.). Процитовано 27 листопада 2023.
- ↑ Sawers, Paul (19 квітня 2023). Qdrant, an open source vector database startup, wants to help AI developers leverage unstructured data. TechCrunch (амер.). Процитовано 29 жовтня 2023.
- ↑ qdrant/LICENSE at master · qdrant/qdrant. GitHub (англ.). Процитовано 29 жовтня 2023.
- ↑ Weaviate reels in $50M for its AI-optimized vector database. SiliconANGLE (амер.). 21 квітня 2023. Процитовано 29 жовтня 2023.
- ↑ weaviate/LICENSE at master · weaviate/weaviate. GitHub (англ.). Процитовано 29 жовтня 2023.
- ↑ Palazzolo, Stephanie. Vector database Chroma scored $18 million in seed funding at a $75 million valuation. Here's why its technology is key to helping generative AI startups. Business Insider (амер.). Процитовано 16 листопада 2023.
- ↑ MSV, Janakiram (28 липня 2023). Exploring Chroma: The Open Source Vector Database for LLMs. The New Stack (амер.). Процитовано 16 листопада 2023.
- ↑ chroma/LICENSE at main · chroma-core/chroma. GitHub (англ.).
- ↑ Kerner, Sean (23 травня 2023). Elasticsearch Relevance Engine brings new vectors to generative AI. VentureBeat (англ.). Процитовано 18 листопада 2023.
- ↑ elasticsearch/LICENSE.txt at main · elastic/elasticsearch. GitHub (англ.).
- ↑ Riley, Duncan (4 жовтня 2023). Yahoo spins off AI scaling engine Vespa as an independent company. siliconANGLE (англ.). Процитовано 18 листопада 2023.
- ↑ vespa/LICENSE at master · vespa-engine/vespa. GitHub (англ.).
- ↑ Wiggers, Kyle (4 січня 2023). SurrealDB raises $6M for its database-as-a-service offering. TechCrunch (амер.). Процитовано 19 січня 2024.
- ↑ SurrealDB | License FAQs | The ultimate multi-model database. SurrealDB (англ.). Процитовано 19 січня 2024.