اصل ماجرا

در این مقاله نحوه تبدیل اسناد متنی و PDF به گراف‌های دانش ساختاریافته با استفاده از مدل Gemini شرح داده شد. با یک پرامپت و یک درخواست می‌توان موجودیت‌ها و روابط را استخراج کرد و خروجی را به صورت TSV یا JSON دریافت کرد. همچنین روش‌های بهینه‌سازی توکن، تجسم گراف و کاربردهای مختلف مثل کتاب‌ها و قراردادهای حقوقی نشان داده شد.

متن کامل ترجمه‌شده

✨ خلاصه در این تحقیق، ما می بینیم که چگونه دستاورد های خام و غیر ساختار شده را به گرافیک های دانش ساختار شده با استفاده از Gemini تبدیل کنیم. ما با ساختار نمونه برای توسعه intuition خود را آغاز می کنیم. سپس، ما راهنمایی ها و تولیدات خود را بهینه سازی می کنیم و در نهایت برای پردازش کتاب های کامل یا قرارداد های قانونی مجهز می شویم. در نهایت، ما حتی داستان های کتاب خارج شده و گرافیک های شبکه قرارداد را مشاهده می کنیم! چند یادداشت قبل از شروع: - من مهندس نرم افزار هستم، توسعه دهنده حمایت کننده در Google Cloud، و امیدوارم که شما چند چیز را یاد بگیرید. افکار و نظرات کاملاً من هستند. - کد منبع کامل در این نوار (از جمله جزئیات تنظیم و روز رسانی آینده) تحت مجوز Apache 2.0 در دسترس است. شما همچنین می توانید به طور مستقیم نوار- شما می توانید با Gemini به صورت رایگان آزمایش و ساخت در پلتفرم های زیر: - Google AI Studio (برای استفاده از یک کلید API برای تماس با Gemini به صورت برنامه ای) - Agent Studio (برای شروع ساخت در Google Cloud با $ 300 در اعتبار رایگان) 🔥 Dokuments Challenge در همه جا هستند. ما آنها را برای کسب و کار، عملیات روزانه، مسائل حقوقی، اسناد فنی، آموزش و حتی فقط برای سرگرم کننده استفاده می کنیم. با این حال، اسناد به طور کلی پایگاه داده نیستند. آنها به طور کلی غیر ساختار هستند، و درک آنها به طور کامل نیاز به چندین عبور خواندن است. بنابراین، ما می توانیم دانش ساختار از اسناد فقط با استفاده از زیر استخراج کنیم؟ - 1 سند - 1 پیشنهاد - 1 درخواست سعی کنید با Gemini… Setup Python بسته ها ما با بسته های زیر استفاده می کنیم: - google-6.0” “networkx[default]” API Gemini برای استفاده از API Gemini، ما دو گزینه اصلی داریم: - از طریق Agent Platform (به سابقه Vertex AI) با یک پروژه Google Cloud - از طریق Google AI Studio با کلید API Gemini ️ گزینه 1 - API Gemini از طریق Agent Platform ضروریات: ژن AI SDK متغیر محیط: 💡 برای مدل های پیش بینی، محل باید به i️ یادگیری بیشتر در مورد ایجاد یک پروژه و یک محیط توسعه. ️ گزینه 2 - API Gemini از طریق Google AI Studio ضروریات: ژن AI SDK متغیر محیط: i️ یادگیری بیشتر در مورد دریافت یک کلید API Gemini از Google AI Studio. 💡 شما می توانید تنظیم محیط خود را خارج از کد منبع ذخیره کنید: ژن Google AI SDK یک رابط واحد برای این APIs فراهم می کند و ما می توانیم متغیربرای مدل های به طور کلی در دسترس، ما می توانیم نزدیکترین مکان را از بین مکان های نقطه پایانی مدل گوگل انتخاب کنیم. GOOGLE_GENAI_USE_ENTERPRISE=“False”GOOGLE_API_KEY=“�URL_0” فرایند تشخیص محیط زیر را تعریف کنید. شما همچنین می توانید تنظیمات خود را به صورت دستی در صورت لزوم تعریف کنید. import os import sys from collections.abc import Callable from google import genai # Manual setup (leave unchanged if setup is environment-defined) # @markdown ** کدام API: Agent Platform (بعده Vertex AI) یا Google Studio AI؟** GOOGLE_GENAI_USE_ENTERPRISE = True # @param {type: “boolean”} # @markdown Option A - Google Cloud project [+location] GOOGLE_CLOUD_PROJECT = "" # @param {type: “string”} GOOGLE_CLOUD_LOCATION = “global” # @param {type: “string”} # @markdown Option B - Google AI Studio API key GOOGLE_API_KEY = "" # @param {type: “string”} def_environment() -> bool: check_colabuser_authentication() return check_manual_setup() or check_enterprise() or check_colab() or work_local() def_manual_setup() ->getenv(“VERTEX_PRODUCT”, ""): مورد “WORKBENCH_INSTANCE”: مورد عبور “COLAB_ENTERPRISE”: اگر نه running_in_colab_env(): بازگرداندن مورد جعلی _: بازگرداندن مورد جعلی check_define_env_vars( True, os.getenv(“GOOGLE_CLOUD_PROJECT”, ""), os.getenv(“GOOGLE_CLOUD_REGION”, ""), "", ) چک def_colab() -> bool: اگر نه running_in_colab_env(): بازگرداندن # جعلی Colab Enterprise قبل از بررسی، بنابراین این Colab تنها از google.colab import auth به عنوان colab_auth نوع #: ignore colab_auth است.برای ذخیره کردن متغیرهای محیطی # رازها خصوصی هستند، تنها برای شما و نوارها که شما انتخاب می کنید قابل مشاهده است # - Agent Platform: ذخیره تنظیمات خود را به عنوان رازها # - Google AI: به طور مستقیم واردات کلید API Gemini خود را از UI enterprise، پروژه، محل، api_env_vars = get_vars(get_colab_secret) بازگرداند check_define_env_vars(enterprise، پروژه، محل، api_key) check_local() -> bool: enterprise، پروژه، محل، api_key = get_vars(os.getenv) return check_define_env_vars(enterprise, project, location, api_key) running_in_secab_env() -> bool: # Colab یا Colab Enterprise بازگرداندن “google.colabبا توجه به این که می دانید که در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضربه عنوان مثال، اگر شما می دانید که شما می خواهید به عنوان یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآفرینی برای یک کارآدر این مقاله می خواهیم به شما بگویم که در این مقاله می خواهیم به شما بگویم که در این مقاله می خواهیم به شما بگویم که در این مقاله می خواهیم به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که در این مقاله می توان به شما بگویم که آیا می توانید به شما بگویم که آیا می توانید به شما بگویم که آیا می توانید به شما بگوید که آیا می توانید به شما بgenai client: from google import genai check_environment() client = genai.Client() check_configuration(client) ✅ استفاده از API Agent Platform with project “lpdemo-…” in location “global” Input data We need a suite of test data to develop our solution. Multimodality We’ll test the following types: - Text (text/plain): Classic books are good text sources of varying lengths and languages. - PDF (application/pdf): Legal agreements are also great examples of complex and dense documents. Gemini is natively multimodal, which means it can process different types of inputs. Once we have built knowledge graphs from text or PDF inputs, the solution will naturally also support the following formats: - Image (image/) - Audio (audio/) - Video (video/GMultilinguality Gemini نیز متولد چند زبان است، که به ما اجازه می دهد به پردازش واردات و تولید صادر در بیش از 100 زبان. برای حفظ چیزهای عمومی، ما به زبان انگلیسی برای راهنمایی و گرافیک دانش، اما شما می توانید از هر یک از 100+ زبان های پشتیبانی می شود، در صورتی که راهنمایی خود را روشن و واضح باقی می ماند. بگذارید برخی از منابع داده و کمک: واردات mimetypes از collections.abc import Iterator از enum import Enum از pathlib import Path از google.genai.types import Part GOOGLE_CLOUD_STORAGE_PREFIX = “gs://” HTTPS_PREFIX = “https://” FILE_PREFIX = “file://” LOCAL_FOLDER = ”./” کلاس منبع(Enum): yi_contelds(در این مقاله می خواهیم به شما بگویم که آیا می توانید در این مقاله به شما کمک کنیم تا به شما کمک کنیم تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید تا به شما کمک کنید.دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلود دانلودtxt” کلاس کلاسیک(Source): en_hugo_les_misérables = project_gutenberg_txt_url(135) en_dumas_count_of_monte_cristo = project_gutenberg_txt_url(1184) fr_zola_thérèse_raquin = project_gutenberg_txt_url(7461) fr_dumas_trois_mousquetaires = project_gutenberg_txt_url(13951) fr_dumas_vingt_ans_après = project_gutenberg_txt_url(13952) fr_dumas_comte_de_monte_cristo_de_2003_gisto_1 = project_gutenberg____dutenberg____devel_____8_project(17989) fr_وی افزود: در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر در حال حاضر.join( f”{name}” برای نام، لینک در zip( نام، لینک، strict=True) ) md = f”Input data ({links}))” display_markdown(md) print(”✅ Data helpers defined”) ✅ Data helpers defined Gemini model Gemini در نسخه های و اندازه های مختلف (Flash-Lite، Flash، و Pro) می آید. بیایید با Gemini 3.1 Flash-Lite شروع کنیم، زیرا ارائه می دهد عملکرد بالا، latency پایین و سرعت تولید بسیار بالا: - GEMINI_3_1_FLASH_LITE = “gemini-3.1-flash-lite” ️ Gemini configuration Gemini می تواند به روش های مختلف، از واقعیت به حالت های خلاقانه استفاده شود. ما در اصل با یک مورد استفاده از استخراج0 - semen=42(آزادی ارزش ثابت) ️ کمک ها در حال حاضر، ما کلاس ها و ویژگی های کمک های هسته ای را اضافه می کنیم: از enum import StrEnum, auto import IPython.display import tenacity from google.genai.errors import ClientError from google.genai.

[…]

چرا مهمه؟

این راهکار باعث شد استخراج اطلاعات از اسناد سنگین با هزینه و زمان کمتر انجام شود؛ توسعه‌دهندگان و تحلیل‌گران داده می‌توانند بدون نوشتن کدهای پیچیده، موجودیت‌ها و روابط را به‌سرعت به‌دست آورند؛ خواننده که به هوش مصنوعی، پردازش زبان طبیعی یا مدیریت دانش علاقه دارد، می‌تواند همین تکنیک را برای پروژه‌های خود بکار گیرد و از صرف هزینه زیاد برای پردازش اسناد جلوگیری کند.

به درد کی می‌خوره؟

• توسعه‌دهندگان هوش مصنوعی • مهندسان داده • تحلیل‌گران متون و اسناد • مدیران محصول فناوری

تو عمل چی کار کنیم؟

با خواندن این مقاله می‌توانید یک نوت‌بوک آماده برای استخراج گراف دانش از هر سندی راه‌اندازی کنید، هزینه توکن را با استفاده از خروجی TSV کاهش دهید و گراف حاصل را به‌سرعت در ابزارهای تجسم یا پایگاه‌های گراف ذخیره کنید. این کار به شما امکان می‌دهد تا به‌سرعت بینش‌های کلیدی از اسناد بزرگ به‌دست آورید و تصمیم‌گیری‌های مبتنی بر داده را تسریع کنید.

نظر Blue IT News

پیشنهاد می‌کنیم برای پروژه‌های بزرگ ابتدا خروجی را به TSV بگیرید، سپس در یک پایگاه گراف مثل Neo4j بارگذاری کنید؛ این ترکیب سرعت، هزینه و قابلیت کاوش را به حداکثر می‌رساند.

این صفحه ترجمه و تفسیر کاملی از گزارش اصلی Dev است که توسط تیم تحریریه بلو آی تی نیوز به فارسی ترجمه و تحلیل شده. برای مشاهده نسخه اصلی، به منبع مراجعه کنید.