1c бүрэн текст хайлт. Бүрэн текст хайлт ба түүний онцлог

3.4.9 Бүрэн текстийн хайлт: Баримт бичгийн хайлтын дүрс болгон бүхэл бүтэн текст эсвэл текстийн чухал хэсгийг ашигладаг автоматжуулсан баримтат хайлт. Бүрэн текст хайлт, fr. Текстийн салшгүй хэсэг)

Бүрэн текстийн индекс

Бүрэн текст хайлтын програмын эхний хувилбарууд нь тухайн үг, хэллэгийг хайхдаа бүх баримт бичгийн агуулгыг бүхэлд нь сканнердсан байв. Энэ технологийг ашиглах үед хайлт маш удаан үргэлжилсэн (мэдээллийн сангийн хэмжээнээс хамаарч), Интернет дээр энэ нь боломжгүй юм. Орчин үеийн алгоритмуудУрьдчилан хайхад зориулж бүтэн текстийн индекс гэж нэрлэгддэг толь бичигт бүх үгсийг жагсааж, хаана байгааг нь зааж өгдөг. Хэрэв ийм индекс байгаа бол хайхад хангалттай зөв үгсүүн дотор, дараа нь тэдгээр нь тохиолдсон баримт бичгийн жагсаалтыг нэн даруй авах болно.

Тэмдэглэл

бас үзнэ үү


Викимедиа сан. 2010 он.

Бусад толь бичгүүдээс "Бүрэн текст хайлт" гэж юу болохыг харна уу:

    Баримт бичгийн хайлтын зураг болгон текстийн бүрэн текст эсвэл чухал хэсгийг ашигладаг автоматжуулсан мэдээлэл хайх. Англи хэлээр: Бүрэн текст хайх Мөн үзнэ үү: Автомат мэдээлэл хайх ... ... Санхүүгийн толь бичиг

    бүрэн текст хайлт- Бүрэн текст эсвэл текстийн чухал хэсгийг баримт бичгийн хайлтын зураг болгон ашигладаг автомат баримтат хайлт. [ГОСТ 7.73 96] Сэдвүүдийг хайх, мэдээлэл түгээх Нэр томьёо мэдээллийг нэгтгэх ... Техникийн орчуулагчийн гарын авлага

    бүрэн текст хайлт- 3.4.9 Бүрэн текстийн хайлт: Баримт бичгийн бүрэн текст эсвэл чухал хэсгийг баримт бичгийн хайлтын дүрс болгон ашигладаг автоматжуулсан баримтат хайлт en Бүрэн текст хайх fr Recherche en texte integral Эх сурвалж ...

    бүрэн текст хайлт- Rus: full text search Eng: full text search Fra: recherche en texte integral Баримт бичгийн хайлтын зураг болгон түүний бүрэн текст эсвэл текстийн чухал хэсгийг ашигладаг автоматжуулсан баримт хайлт. ГОСТ 7.73 ... Мэдээлэл, номын сан, хэвлэлийн толь бичиг

    БҮТЭН TEXT ХАЙХ- ГОСТ 7.73–96 "Мэдээлэл хайх, түгээх. Нэр томьёо, тодорхойлолт" нь баримт бичгийн хайлтын дүрс болгон түүний бүрэн текст эсвэл текстийн чухал хэсгийг ашигладаг автомат баримтат хайлт юм ... Нэр томьёо, тодорхойлолтоор оффисын ажил, архив

    Мэдээлэл хайлт гэдэг нь бүтэцлэгдсэн (жишээ нь: мэдээллийн санг үзнэ үү) болон бүтэцгүй (жишээ нь: өгөгдлийн сан гэх мэт) аль алинд нь мэдээлэл хайх, боловсруулах алгоритмыг судалдаг компьютерийн шинжлэх ухааны салбар юм. Текст баримт) өгөгдөл. Өгөгдлийн хайлт нь ойлголттой салшгүй холбоотой ... ... Википедиа

    Мэдээллийн эрэл хайгуул (IP) нь бүтэцгүй баримтат мэдээллийг хайх үйл явц бөгөөд энэ хайлтын шинжлэх ухаан юм. Агуулга 1 Түүх 2 Мэдээлэл олж авах үйл явц ... Википедиа

    - (Англи хэлээр мэдээлэл хайх) мэдээллийн хэрэгцээг хангах бүтэцгүй баримтат мэдээллийг хайх үйл явц (Англи хэл) Орос хэл, энэ хайлтын талаарх шинжлэх ухаан ... Wikipedia

    ГОСТ 7.73-96 Мэдээлэл, номын сан, хэвлэлийн стандартын систем. Мэдээлэл хайх, түгээх. Нэр томьёо ба тодорхойлолт- Нэр томьёо ГОСТ 7.73 96: Мэдээлэл, номын сан, хэвлэлийн стандартын тогтолцоо. Мэдээлэл хайх, түгээх. Нэр томьёо, тодорхойлолт Эх баримт бичиг: 3.2.5 автоматжуулсан мэдээлэл хайлтын систем: IPS, ...... Норматив, техникийн баримт бичгийн нэр томъёоны толь бичиг-лавлах ном

Номууд

  • Византийн түүх. Уншигч. 2-р хэсэг. Түүхэн баримт бичиг, судалгаа (DVD), Владимир Мартов, "Directmedia Publishing" хэвлэлийн газар дэлхийн түүхийн цуврал нийтлэл болох "Clio" хэмээх шинэ цувралыг гаргалаа. Византийн түүхийн талаар уншигчдын цувралыг нээнэ үү - "Византийн түүхчид" ... Ангилал: Түүх. МультимедиаНийтлэгч:

Бүрэн текст хайлтын систем

Бүрэн текст хайлтын үндсэн шинж чанарууд

  • галиглах дэмжлэг (ГОСТ-ийн дагуу латин үсгээр орос үгсийг бичих);
  • орлуулах дэмжлэг (тэмдэгтүүдийн хэсгийг нэг товчлууртай латин үсгээр орос үгээр бичих);
  • бүдэг бадаг хайх боломж (олдсон үгсийн үсэг өөр байж болно);
  • сонгосон мета өгөгдлийн объектуудын хайлтын хамрах хүрээг тодорхойлох чадвар;
  • олсон үгсийг тодруулсан XML болон HTML форматаар хайлтын үр дүнг танилцуулах;
  • бүх тохиргооны хэл дээрх стандарт талбаруудын нэрийг ("Код", "Нэр" гэх мэт) бүрэн текстээр индексжүүлэх;
  • орос, англи, украин хэлний синонимуудыг харгалзан хайлт хийх;
  • орос хэлний морфологийн толь бичиг нь 1С: Enterprise програм хангамжийн системийг ашиглан автоматжуулсан үйл ажиллагааны чиглэлтэй холбоотой хэд хэдэн тодорхой үгсийг агуулдаг;
  • нэмэлт бүрэн текст хайлтын толь бичгүүдийг ашиглах чадвар;
  • Хүргүүлсэн толь бичигт орос, украин, синоним үгсийн толь бичгүүд, толь бичгүүд багтсан болно. АнглиМэдээлэл зүйгээс өгсөн.

Мэдээллийн сангаас бүрэн текст хайх

1C: Enterprise 8 системийн өгөгдөлд бүрэн текст хайх механизм нь хайлтын операторуудын (AND, OR, NOT, NEAR гэх мэт) мэдээллийн сангаас хайх боломжийг олгодог.

Бүрэн текст хайх механизм нь хоёр бүрэлдэхүүн хэсгийг ашиглахад суурилдаг.

  • одоогийн мэдээллийн санд зориулж үүсгэсэн, шаардлагатай бол үе үе шинэчлэгддэг бүрэн текстийн индекс;
  • бүрэн текст хайлтын хэрэгсэл.

Бүрэн текстийн индексийг үүсгэх, шинэчлэх ажлыг интерактив хэлбэрээр, 1С: Enterprise 8 горимд эсвэл суулгасан хэлийг ашиглан програмын аргаар хийж болно. 1С: Аж ахуйн нэгжийн горимд бүрэн текстийн индексжүүлэлтийг удирдах харилцах цонхыг доор харуулав.

Өгөгдлийн сангаас өгөгдөл хайхын тулд, жишээлбэл, доорх Data Search боловсруулалтыг ашиглаж болно.

Үзүүлсэн жишээн дээр дэлгэрэнгүй мэдээлэл нь "Бүрэн" ба "Агааржуулалт" -аас эхэлсэн утгыг агуулсан баримт бичиг олдсон - эсрэг тал "Бүрэн TD" болон "сэнс" гэсэн үгийн янз бүрийн хэлбэрийг агуулсан дэлгэрэнгүй мэдээлэл.

1C: Enterprise 8 систем нь програмын объектуудын өгөгдөл, тэдгээрийн дэлгэрэнгүй мэдээллийг бүрэн текст хайлтанд сонгон оруулах боломжийг олгодог. Мөн хайлтын хамрах хүрээг зөвхөн заасан тохиргооны объектоор хязгаарлах боломжтой.

Тусламжийн систем дэх бүрэн текст хайлт

1C: Enterprise 8 тусламжийн систем нь мөн AND, OR, NOT, NEAR гэх мэт хайлтын операторуудыг ашиглах боломжийг олгодог бүрэн текст хайлтыг хэрэгжүүлдэг. Энэ тохиолдолд олсон үгсийг тодруулсан болно.

Програм хангамжийн интерфейс

Дараах хэрэглээний объектуудыг ашигладаг.

  • Бүрэн текст хайлтын менежер
  • ListFullTextSearch
  • ItemListFullTextSearch

FullTextSearch Manager нь хайлтын индекс үүсгэх, түүний хүчинтэй эсэхийг шалгах, өгөгдсөн асуулгад зориулж FullTextSearchList төрлийн хайлтын жагсаалтыг үүсгэх аргуудтай.

FullTextSearch Менежер нь FullTextSearch глобал контекстийн өмч хэлбэрээр байдаг.

FullTextSearch List нь хайлтын үр дүнд хандах боломжийг олгодог. Та хайлтын хамрах хүрээг тохиргооны мета өгөгдлийн элементүүдийн массив болгон зааж өгч болно.

Хайлтын үр дүн нь FullTextSearchListItem юм.

Мөрийн операторуудыг хайх

Оролтын мөрөнд дараах хайлтын операторуудыг ашиглахыг зөвшөөрнө.

AND (AND or #) - бүх үгийг агуулсан өгөгдлийг хайх; жишээ: "бүртгэл ба баримт бичиг" - дэлгэрэнгүй мэдээлэл нь "хэрэгжүүлэх" ба "баримт бичиг" (морфологийг харгалзан) хоёуланг нь агуулсан байх ёстой;

OR (OR эсвэл | or,) - жагсаасан үгсийн дор хаяж нэгийг хайх; жишээ нь: "бичлэг OR баримт бичиг" - "бичлэг" эсвэл "баримт бичиг" гэсэн үгсийн дор хаяж нэг нь дэлгэрэнгүй мэдээлэлд байх ёстой;

NOT (NOT or ~) - дэлгэрэнгүй мэдээлэл нь эхний үгийг агуулсан боловч хоёр дахь үг биш өгөгдлийг хайх; жишээ: "хаалтын NOT сар" - "хаах" гэсэн үг агуулсан боловч "сар" гэсэн үг агуулаагүй бүгдийг олох болно. Мөрийн эхэнд "~" хэрэглэхийг хориглоно;

NEAR/n (NEAR/[+/-]n) - үг хоорондын n үгийн зайд морфологийг харгалзан нэг шинж чанарт заасан үгсийг агуулсан өгөгдлийг хайх.

Энэ тэмдэг нь эхний үгнээс аль чиглэлд хоёр дахь үгийг хайхыг заадаг ("+" - эхний үгийн дараа; "-" - эхний үгийн өмнө).

Хэрэв тэмдгийг заагаагүй бол бие биенээсээ n үгийн зайд заасан үгсийг агуулсан өгөгдлийг олох болно.

Үгсийн дараалал хамаагүй.

  • "үс хатаагч NEAR/3 air" - "үс хатаагч"-аас өмнө эсвэл дараа нь "агаар" нь 3-аас илүүгүй үгтэй өгөгдөл олдох болно;
  • үс хатаагч NEAR/+3 air - "үс хатаагч" -ын дараа "агаар" нь 3-аас илүүгүй үгтэй өгөгдлийг олох болно;
  • үс хатаагч NEAR/-3 air - "үс хатаагч"-аас өмнө "агаар" нь 3-аас илүүгүй үг байх өгөгдлийг олох болно.

NEAR (NEAR) - хялбаршуулсан зайны оператор: хоёр үг нь бие биенээсээ 8 үгээс холгүй байрладаг; жишээ нь: "NEAR баримтыг барих";

"" (хашилт дахь текст) - морфологийг харгалзан яг тодорхой хэллэг хайх, жишээ нь: "баримт бичгийг илгээх" -тэй тэнцэх: барих /1 баримт бичиг;

() - үгийн бүлэглэл (ямар ч тооны үүрлэх түвшин); жишээ нь: "(нийтлэл | мэдэгдэл) # (нэхэмжлэх, баримт бичиг)";

* - орлуулагч тэмдэг ашиглан хайх (үгний төгсгөлийг орлуулах). 1-ээс илүү чухал тэмдэгт оруулах шаардлагатай; жишээ нь: "docu*" - "баримт бичиг", "баримт бичиг", "баримтат" гэх мэтийг олдог;

# - заасан үгнээс өгөгдсөн тооны зөрүүтэй үгсийн тодорхой бус хайлт (хэрэв заагаагүй бол = 1); жишээ нь: "#Систем" асуулга нь "систем", "систем" -ийг олох болно; "Систем # 2" асуулга нь "sittama", "settema" -г олох болно;

Орос, англи, украин хэлний синонимуудыг харгалзан хайлт хийнэ үү. "!" харгалзах үгийн өмнө байрлуулсан; жишээ нь: "!улаан хавтан"-ыг хайж олоход мөн "улаан хавтан" болон "шүрэн хавтанцар"-ыг олох болно.

Хэрэв ямар ч оператор заагаагүй бол (үгүүдийг хоосон зайгаар бичдэг) програм нь AND операторыг ашиглан асуулгын бүх үгийг хайдаг.

Жишээ

SearchList = FullTextSearch.CreateList("", 20); SearchList.GetDescription = үнэн;

ArrayMD = Шинэ массив(); ArrayMD.Add(Metadata.Catalogs.Products); ArrayMD.Add(Metadata.Documents.CashReceipt);

SearchList.SearchArea = ArrayMD; SearchList.SearchString = SearchInputField; SearchList.PortionSize = PortionSize; SearchList.FirstPart();

Хэрэв SearchList.FullCount() = 0 бол SearchList.TooManyResults() бол Анхааруулга("Хэт олон илэрц байгаа тул асуулгаа сайжруулна уу."); EndIf; Буцах; EndIf;

Count = SearchList.FullCount();

StrHTML = SearchList.GetDisplay(FullTextSearchDisplayType.HTMLText); Тайлан (StrHTML);

Индекс бүрийн хувьд=0 By LookupList.Count-1 Loop element = LookupList.Get(index); Тайлан(element.View); Төгсгөлийн мөчлөг;

Онцлог шинж чанарууд

Бүрэн текстийн хайлт нь бүх өгөгдлийн массив дээр ажилладаг тул үүнийг ашиглахдаа үр дүнг хамгаалалтын шүүлтүүрээр дамжуулах шаардлагатай.

Жишээлбэл, олон суурьтай системд та бусад сууринаас объектуудыг таслах хэрэгтэй.

Үүнээс гадна ийм шүүлтүүр нь хандалтын хяналттай нягт огтлолцдог. Аюулгүй байдлын "нүх" нь ихэвчлэн хайлтын механизм байдаг нь мэдэгдэж байна.

Шинэ хайлтын функц нь хоёр механизм дээр суурилдаг.
- бүрэн текст хайлт (маш хурдан ажилладаг бөгөөд хамгийн бага тооцоолох нөөц шаарддаг);
- DBMS ашиглан хайлт хийх (ерөнхий тохиолдолд хайлтын үргэлжлэх хугацаа ба тооцоолох нөөцийн өртөг нь хүснэгтэд байгаа мэдээллийн хэмжээтэй пропорциональ байна).

Одоогийн хэрэгжилтэд жагсаалтыг хайх болно ашиглахгүйгээрДараах тохиолдолд бүрэн текст хайх ():
- бүрэн текстийн индексийг түвшинд идэвхгүй болгосон мэдээллийн бааз;
- үндсэн хүснэгтийн объектыг бүтэн текстийн индексээр индексжүүлээгүй;
- бүрэн текст хайлтыг ашиглан хайлтын үр дүнд алдаа гарсан.

Хэрэв мэдээллийн санд бүтэн текст хайлт идэвхжсэн бөгөөд индекс огт эсвэл хэсэгчлэн шинэчлэгдээгүй бол (миний практикт Хэрэглэгчийн мэдээллийн сангийн 95% нь) хайлтын явцад хэрэглэгч найдваргүй эсвэл хоосон хайлтын үр дүнг хүлээн авах болно. .

Бид 1С фирмээс асууж байна - яаж байх вэ? Хайлтын үр дүн үргэлж хүчинтэй байгаа эсэхийг хэрхэн баталгаажуулах вэ?
Бид хариултыг авна: Тийм ээ, бүрэн текст хайлтыг идэвхжүүлсэн үед хайлтын үр дүн шинэчлэгдэхийн тулд та бүтэн текст хайлтын индекс шинэчлэгдсэн эсэхийг шалгах хэрэгтэй. Үр дүнтэй, шинэчлэх өөр сонголт байхгүй. Одоогоор хайлт хийгээгүй байна ().

Мөн ерөнхийдөө "бодит бүтэн текстийн индекс" байгаа эсэх? Хэрэглэгчийн тоо, мэдээллийн сан дахь мэдээллийн өөрчлөлтийн эрчим, индексийн шинэчлэлтийн давтамж зэргээс шалтгаална. Ерөнхийдөө индексийн шинэчлэлтийг 60 секунд тутамд хийдэг. За, хэрэв тийм ч олон объект өөрчлөгдөөгүй бол процедур нь эдгээр 60 секундын дотор бүх өөрчлөлтийг боловсруулж чадсан. Хэрэв та хэсэг баримт бичгийг дахин байршуулах эсвэл лавлахыг бөөнөөр нь дахин бичсэн бол? Энэ тохиолдолд индекс дэх хайлт дахин найдвартай мэдээлэл өгөх хугацааг хэн ч баталж чадахгүй.
Зарчмын хувьд энэ нь цөөн хэдэн нөхцөл байдлаас бусад тохиолдолд тийм ч чухал биш юм. Хэрэглэгчдийн ажиллах нийтлэг сонголт бол жагсаалтад "Харилцагч тал" гэх мэт утгаараа сонголтыг тохируулах, шинийг оруулах эсвэл одоо байгаа баримт бичгийг хуулж, бичих явдал юм. Хуучин хайлтаар шинэ баримт бичигжагсаалтад шууд харагдана. Одоо хэрэглэгч үүнийг хамгийн сайндаа N секундын дараа л харах болно, N нь 2-3 биш харин 50-60 секундэд ойрхон байна.
Хэрэв та шинэ баримт бичиг байхгүй гэдгийг анзаарахгүй, сонгосон үр дүнгийн дагуу хэн нэгэнд мэдээлэл өгвөл энэ нь найдваргүй болох нь ойлгомжтой.

Энэ нь хэрэгт байсан хэвийн үйл ажиллагаамэдээллийн баазтай. Тодорхой нөхцөл байдалд юу тохиолддог вэ? Би танд хэдэн жишээ хэлье.
1) Ажлын мэдээллийн санд бүрэн текстийн индексийг идэвхжүүлж, байнга шинэчилж байдаг. Хэрэглэгч түүн дээрх өгөгдөлд дүн шинжилгээ хийх боломжтой байхын тулд ажлын мэдээллийн сангийн хуулбарыг түүнд байршуулахыг хүсдэг.
Бид нөөцлөлтийг сэргээж, нэвтрэх эрхийг олгодог. Гэхдээ бүтэн текст хайлт ажиллахгүй, учир нь. индекс нь DBMS-д хадгалагддаггүй, харин тусдаа файлууд(файл болон дотор үйлчлүүлэгч-сервер хувилбар). Индекс dt файлд байхгүй байна.
тэдгээр. Хэрэглэгч жагсаалтын хайлтыг ашиглахын тулд энэ мэдээллийн сан дахь бүтэн текстийн индексийг унтраасан байх ёстой. Үнэн бол хайлт илүү удаан үргэлжлэх болно гэдэгт хэрэглэгч бага зэрэг гайхах болно. Эсвэл бүх мэдээллийн санд индексийг дахин бүтээнэ үү.

2) (Их эсвэл бага том суурийн хувьд бодит). Үйлдвэрлэлийн мэдээллийн санд бүрэн текстийн индексийг идэвхжүүлж, байнга шинэчилдэг. Сарын төгсгөл ирж, хугацааны хаалт эхэлдэг. Баримт бичгийг бөөнөөр нь ачих, шилжүүлэх ажлыг эхлүүлж байна. Системийн ачааллыг багасгахын тулд бид гүйцэтгэлийг хаадаг ердийн ажлууд, тус тус индексийг шинэчлэх нь зогсдог. Жагсаалтад яагаад шинэ эсвэл өөрчилсөн баримт бичиг байхгүй байна вэ гэж хэрэглэгчид бага зэрэг хэлэхэд алдагдал хүлээх болно. Цорын ганц гарц бол мэдээллийн баазын бүрэн текст хайлтыг идэвхгүй болгох, үүний дагуу илүү ихийг авах явдал юм хүнд ачаалалбүх нарийн ширийн зүйлийг маш их хайсны улмаас тоног төхөөрөмж дээр .

Тиймээс индексийг шинэчлэх үйл ажиллагаа нь мэдээллийн сангийн администраторуудын бас нэг толгойны өвчин болж байх шиг байна.
Мэдээллийг хэзээ ч 100 хувь үнэн зөв, хамааралтай болохыг баталгаажуулж байсан систем одоо тусламжийн системЭнэ нь бүрэн итгэлтэй байж чадахгүй.
Хэрэглэгчид мэдээллийн технологийн хүмүүсийг зэмлэх өөр нэг шалтгаан олж авдаг - "таны систем зөв ажиллахгүй байна".



Ачааж байна...
Топ