1c пълнотекстово търсене. Пълнотекстово търсене и неговите функции

3.4.9 пълнотекстово търсене: Автоматизирано документално търсене, при което целият текст или значителни части от текста се използват като изображение за търсене на документ. Търсене на пълен текст, фр. Recherche en texte integral)

Пълен текстов индекс

Първите версии на програмите за пълнотекстово търсене включваха сканиране на цялото съдържание на всички документи в търсене на дадена дума или фраза. При използването на тази технология търсенето отне много дълго време (в зависимост от размера на базата данни), а в Интернет би било невъзможно. Съвременни алгоритмипредварително се формира т. нар. пълнотекстови индекс за търсене - речник, в който са изброени всички думи и е посочено на кои места се срещат. Ако има такъв индекс, достатъчно е да търсите точните думив него и веднага ще бъде получен списък с документи, в които се срещат.

Бележки

Вижте също


Фондация Уикимедия. 2010 г.

Вижте какво е „търсене в пълен текст“ в други речници:

    Автоматизирано извличане на информация, при което пълният текст или съществени части от текста се използват като изображение за търсене на документ. На английски: Търсене в пълен текст Вижте също: Автоматизирано извличане на информация ... ... Финансов речник

    пълнотекстово търсене- Автоматизирано документално търсене, при което пълният текст или съществени части от текста се използват като търсено изображение на документа. [GOST 7.73 96] Теми за търсене и разпространение на информация Обобщаващи термини информация ... Наръчник за технически преводач

    пълнотекстово търсене- 3.4.9 търсене в пълен текст: Автоматизирано търсене на документи, при което пълният текст или значителни части от текста се използват като изображение за търсене на документа en Търсене в пълен текст fr Recherche en texte integral Source ...

    пълнотекстово търсене- Rus: пълнотекстово търсене Eng: пълнотекстово търсене Fra: recherche en texte integral Автоматизирано търсене на документ, при което пълният му текст или значителни части от текста се използват като изображение за търсене на документ. ГОСТ 7.73 ... Речник на информацията, библиотеката и издателството

    ТЪРСЕНЕ НА ПЪЛЕН ТЕКСТ- съгласно GOST 7.73–96 „Търсене и разпространение на информация. Термини и дефиниции” е автоматизирано документално търсене, при което пълният му текст или съществени части от текста се използват като търсено изображение на документ ... Делопроизводство и архивиране в термини и определения

    Извличането на данни е клон на компютърната наука, който изучава алгоритми за търсене и обработка на информация както в структурирана (вижте напр. бази данни), така и в неструктурирана (напр. Текстов документ) данни. Търсенето на данни е неразривно свързано с концепцията ... ... Wikipedia

    Извличането на информация (IP) е процесът на търсене на неструктурирана документална информация и науката за това търсене. Съдържание 1 История 2 Извличане на информация като процес ... Wikipedia

    - (английски Information retrieval) процесът на търсене на неструктурирана документална информация, която задоволява информационните нужди (английски) руски и науката за това търсене ... Wikipedia

    GOST 7.73-96: Система от стандарти за информация, библиотечно дело и издателска дейност. Търсене и разпространение на информация. Термини и дефиниции- Терминология GOST 7.73 96: Система от стандарти за информация, библиотечно дело и издателска дейност. Търсене и разпространение на информация. Термини и определения оригинален документ: 3.2.5 автоматизирана информация система за търсене: IPS, ... ... Речник-справочник на термините на нормативната и техническата документация

Книги

  • История на Византия. Читател. Част 2. Исторически документи и изследвания (DVD), Владимир Мартов, издателство "Directmedia Publishing" пуска нова поредица "Клио", която е поредица от публикации за световната история. Отворете поредица от читатели за историята на Византия - "Историците на Византия" ... Категория: История. МултимедияИздател:

Търсачка за пълен текст

Основни характеристики на пълнотекстово търсене

  • поддръжка на транслитерация (писане на руски думи с латински букви в съответствие с GOST);
  • поддръжка на заместване (изписване на част от знаците с руски думи с латински знаци с един ключ);
  • възможността за размито търсене (буквите в намерените думи могат да се различават) с указание за прага на размиване;
  • възможност за указване на обхвата на търсене за избраните обекти с метаданни;
  • представяне на резултатите от търсенето в XML и HTML формат с подчертаване на намерените думи;
  • пълнотекстово индексиране на имената на стандартните полета ("Код", "Име" и др.) на всички езици за конфигурация;
  • извършване на търсене, като се вземат предвид синоними на руски, английски и украински езици;
  • морфологичният речник на руския език съдържа редица специфични думи, свързани с области на дейност, автоматизирани с помощта на софтуерната система 1C: Enterprise;
  • възможност за използване на допълнителни речници за пълнотекстово търсене;
  • Доставените речници включват речникови бази и речници на тезаурус и синоними на руски, украински и Английскипредоставена от Информатика.

Пълнотекстово търсене в базата данни

Механизмът за пълнотекстово търсене в данните на системата 1C:Enterprise 8 ви позволява да търсите в базата данни с посочване на оператори за търсене (AND, OR, NOT, NEAR и др.).

Механизмът за търсене в пълен текст се основава на използването на два компонента:

  • индекс на пълен текст, който се създава за текущата база данни и след това периодично се актуализира при необходимост;
  • инструменти за пълнотекстово търсене.

Създаването и актуализирането на индекс на пълен текст може да се извърши интерактивно, в режим 1C:Enterprise 8, или програмно, като се използва вграденият език. По-долу е диалоговият прозорец за управление на пълнотекстово индексиране в режим 1C:Enterprise:

За да извършите търсене на данни в база данни, например, може да се използва обработката за търсене на данни по-долу.

В представения пример са открити документи, чиито детайли съдържат стойности, започващи с "Complete" и "vent" - контрагента "Complete TD" и детайли, съдържащи различни форми на думата "fan".

Системата 1C:Enterprise 8 ви позволява селективно да включвате данните на обектите на приложението и техните подробности в пълнотекстово търсене. Възможно е също да ограничите обхвата на търсене само до определени конфигурационни обекти.

Търсене на пълен текст в системата за помощ

Помощната система 1C:Enterprise 8 също така реализира пълнотекстово търсене, което ви позволява да използвате операторите за търсене AND, OR, NOT, NEAR и т.н. В този случай намерените думи се маркират.

Софтуерен интерфейс

Използват се следните обекти на приложението:

  • Мениджър за пълнотекстово търсене
  • ListFullTextSearch
  • ItemListFullTextSearch

FullTextSearch Manager има методи за изграждане на индекс за търсене, проверка на неговата валидност и създаване на списък за търсене от типа FullTextSearchList за дадена заявка.

Мениджърът на FullTextSearch е наличен като свойство на глобалния контекст на FullTextSearch.

Списъкът FullTextSearch предоставя достъп до резултатите от търсенето. Можете също да посочите обхвата на търсенето като масив от елементи на метаданни за конфигурация.

Резултатът от търсенето е FullTextSearchListItem.

Оператори за търсене на низове

Във входния ред са разрешени следните оператори за търсене:

И (И или #) - търсене на данни, съдържащи всички думи; пример: "запис И документ" - реквизитите трябва да съдържат както "извършване", така и "документ" (като се има предвид морфологията);

ИЛИ (ИЛИ или | или,) - търсене на поне една от изброените думи; пример: "запис ИЛИ документ" - поне една от думите "запис" или "документ" трябва да присъства в детайлите;

НЕ (НЕ или ~) - търсене на данни, чиито детайли съдържат първата дума, но не и втората; пример: "затваряне НЕ месец" - ще бъдат намерени всички, съдържащи "затваряне", но не съдържащи думата "месец". Използването на "~" в началото на реда не е разрешено;

NEAR/n (NEAR/[+/-]n) - търсене на данни, съдържащи посочените думи в един атрибут, като се вземе предвид морфологията на разстояние от n думи между думите.

Знакът показва в каква посока от първата дума ще се търси втората дума ("+" - след първата; "-" - преди първата дума).

Ако знакът не е зададен, ще бъдат намерени данни, съдържащи посочените думи на разстояние n думи една от друга.

Редът на думите няма значение.

  • "сешоар БЛИЗО/3 въздух" - ще бъдат намерени данни, в които "въздух" е не повече от 3 думи преди или след "сешоар";
  • сешоар NEAR/+3 въздух - ще бъдат намерени данни, в които "въздух" е на не повече от 3 думи след "сешоар";
  • сешоар NEAR/-3 въздух - ще бъдат намерени данни, в които "въздух" е не повече от 3 думи преди "сешоар".

NEAR (NEAR) - опростен оператор за разстояние: двете думи са разположени на не повече от 8 думи една от друга; пример: "държане на БЛИЗО документ";

"" (текст в кавички) - търсене на точна фраза, съобразена с морфологията, пример: "изпращане на документ" - еквивалентно на: притежаване /1 документ;

() - групиране на думи (произволен брой нива на влагане); пример: "(осчетоводяване | извлечение) # (фактура, документ)";

* - търсене чрез заместващ знак (заместване на края на думата). Трябва да се въведе повече от 1 значим знак; пример: "docu*" - намира "документ", "документ", "документален филм" и т.н.;

# - размито търсене на думи с даден брой разлики от посочения (ако не е посочено, тогава = 1); пример: заявката "#System" ще намери "система", "система"; заявка "System#2" ще намери "sittama", "settema";

Търсете, като вземете предвид синонимите на руски, английски и украински езици. "!" поставено пред съответната дума; пример: търсенето на "!червена плочка" също ще намери "червена плочка" и "коралова плочка".

Ако не са посочени оператори (думите се въвеждат с интервал), тогава програмата търси всички думи от заявката с помощта на оператора И.

Примери

SearchList = FullTextSearch.CreateList("", 20); SearchList.GetDescription = вярно;

ArrayMD = Нов масив(); ArrayMD.Add(Метаданни.Каталози.Продукти); ArrayMD.Add(Metadata.Documents.CashReceipt);

SearchList.SearchArea = ArrayMD; SearchList.SearchString = SearchInputField; SearchList.PortionSize = Размер на порцията; SearchList.FirstPart();

If SearchList.FullCount() = 0 Then If SearchList.TooManyResults() Then Warning("Твърде много резултати, моля, прецизирайте заявката си."); EndIf; Връщане; EndIf;

Брой = SearchList.FullCount();

StrHTML = SearchList.GetDisplay(FullTextSearchDisplayType.HTMLText); Доклад(StrHTML);

За всеки индекс=0 Чрез LookupList.Count-1 Loop element = LookupList.Get(index); Доклад(елемент.Изглед); EndCycle;

Особености

Търсенето в пълен текст работи върху целия масив от данни, така че когато го използвате, е необходимо да преминете резултата през защитен филтър.

Например, в многобазова система, трябва да отрежете обекти от други бази.

Освен това такова филтриране тясно се пресича с контрола на достъпа. Известно е, че много често "дупката" в сигурността са именно механизмите за търсене.

Функционалността на новото търсене се основава на два механизма:
- пълнотекстово търсене (работи много бързо и изисква минимум компютърни ресурси);
- търсене с помощта на СУБД (в общия случай продължителността на търсенето и разходите за изчислителни ресурси са пропорционални на количеството информация в таблицата).

В текущата реализация списъкът ще се търси без употребатърсене в пълен текст в следните случаи ():
- индексът на пълен текст е деактивиран на ниво информационна база;
- обектът на основната таблица не е индексиран от индекса на пълен текст;
- в резултат на търсене с пълнотекстово търсене е получена грешка.

Ако в информационната база е активирано пълнотекстово търсене и индексът не се актуализира изобщо или частично (от моята практика на 95% от информационните бази на клиентите), тогава потребителят ще получи или ненадежден или празен резултат от търсенето по време на търсенето .

Питаме фирма 1C - как да бъдем? Как да гарантираме, че резултатите от търсенето са винаги валидни?
Получаваме отговора: Да, за да бъдат резултатите от търсенето актуални, когато е активирано пълнотекстово търсене, трябва да се уверите, че индексът за пълнотекстово търсене е актуален. Няма други опции за ефективно и актуализирано актуално търсене все още ().

И дали като цяло има "действителен индекс на пълен текст"? Зависи от броя на потребителите, интензивността на промените в информацията в базата данни и честотата на актуализиране на индекса. Обикновено актуализацията на индекса се изпълнява на всеки 60 секунди. Е, ако не бяха променени много обекти и процедурата успя да обработи всички промени за тези 60 секунди. И ако сте направили повторно публикуване на група документи или масово пренаписване на указателя? В този случай никой не може да гарантира времето, след което търсенето в индекса отново ще даде надеждни данни.
По принцип това не е особено критично, с изключение на няколко ситуации. Често срещана опция за работа на потребителите е да зададат селекция в списъка с някаква стойност, например „Контрагент“, да въведат нов или да копират съществуващ документ и да го запишат. Със старото търсене нов документнезабавно видими в списъка. Сега потребителят ще го види само след N секунди в най-добрия случай, където N е по-близо до 50-60 секунди, а не до 2-3.
Ако не забележите, че няма нов документ и предоставите информация на някого въз основа на избраните резултати, тогава тя очевидно ще бъде ненадеждна.

Беше в калъфа нормална операцияс информационна база. Какво се случва в конкретни ситуации? Ще ви дам няколко примера.
1) В работната база данни индексът на пълен текст е активиран и се актуализира често. Потребителят иска да му бъде предоставено копие на работещата база данни, за да може да анализира данните в нея.
Възстановяваме резервното копие и даваме достъп. Но търсенето в пълен текст няма да работи, защото. индексът се съхранява не в СУБД, а в отделни файлове(както във файл, така и в клиент-сървър версия). Индексът не е в dt файла.
тези. за да може потребителят да използва търсенето в списъка, пълнотекстовият индекс в тази база данни трябва да бъде изключен. Вярно е, че потребителят ще бъде леко изненадан, че търсенето ще отнеме много повече време. Или изградете отново индекса в цялата база данни.

2) (Действително за повече или по-малко големи бази). В производствената база данни индексът на пълен текст е активиран и се актуализира често. Идва краят на месеца и започва затварянето на периода. Започваме групово зареждане и прехвърляне на документи. За да намалим натоварването на системата, ние блокираме изпълнението рутинни задачи, съответно и актуализирането на индекса спира. Потребителите ще бъдат, меко казано, на загуба - защо в списъците няма нови или променени документи. Единственият изход е да деактивирате търсенето в пълен текст за информационната база и съответно да получите повече тежък товарна оборудване поради тежко търсене на всички детайли.

По този начин ми се струва, че операцията по актуализиране на индекса ще се превърне в още едно главоболие за администраторите на информационна база.
Системата, която преди гарантираше 100% точност и уместност на информацията по всяко време, сега се превръща в помощна системакоето не може да бъде напълно сигурно.
И потребителите получават още една причина да упрекват ИТ хората - "системата ви не работи правилно."



Зареждане...
Връх