Search     or:     and:
 LINUX 
 Language 
 Kernel 
 Package 
 Book 
 Test 
 OS 
 Forum 
 iakovlev.org 
 Languages
 С
 GNU С Library 
 Qt 
 STL 
 Threads 
 C++ 
 Samples 
 stanford.edu 
 ANSI C
 Libs
 LD
 Socket
 Pusher
 Pipes
 Encryption
 Plugin
 Inter-Process
 Errors
 Deep C Secrets
 C + UNIX
 Linked Lists / Trees
 Asm
 Perl
 Python
 Shell
 Erlang
 Go
 Rust
 Алгоритмы
NEWS
Последние статьи :
  Тренажёр 16.01   
  Эльбрус 05.12   
  Алгоритмы 12.04   
  Rust 07.11   
  Go 25.12   
  EXT4 10.11   
  FS benchmark 15.09   
  Сетунь 23.07   
  Trees 25.06   
  Apache 03.02   
 
TOP 20
 Part 4...346 
 Part 3...338 
 Secure Programming for Li...322 
 Steve Pate 3...252 
 Stein-MacEachern-> Час...206 
 Kamran Husain...205 
 Стивенс 1...205 
 Trees...194 
 2.0-> Linux IP Networking...186 
 Perl + Apache...179 
 Ethreal 4...157 
 Go Web ...132 
 Intel 386...123 
 Mod_perl 1...120 
 Ethreal 1...98 
 Steve Pate 1...97 
 Стивенс 4...96 
 K&R 2...90 
 Python...88 
 ffmpeg->tutorial...84 
 
  01.04.2021 : 3078306+ посещений 

iakovlev.org

Индексация поиска

Я оптимизировал поиск. Отныне он индексированный.

Индекс представляет из себя динамический многомерный массив следующей структуры:


 слово_N1 , индекс_файла_N1 , частота_N1 , индекс_файла_N2 , частота_N3 ,  ...
 слово_N2 , индекс_файла_N3 , частота_N3 , индекс_файла_N4 , частота_N4 ,  ...
 ...
 
слово_N1 - уникальное слово на весь контент сайта
индекс_файла_N1 - порядковый номер файла в файловом массиве
частота_N3 - число попаданий слова в файле

В нижеследующем скрипте показано, как за один проход происходит сканирование статических файлов, в которых находится контент сайта, и генерируется индекс, который потом сбрасывается на диск. И последующий поиск ведется теперь уже не по контенту,который разбросан по множеству файлов, а по одному-единственному файлу-индексу.

Теперь поиск на сайте состоит из двух видов :
1. с маской ИЛИ , которая установлена по умолчанию
2. с маской И

В первом случае находятся все файлы, в которых находится хотя бы одно слово из набора слов, заданных в поисковой строке.Результаты выводятся по релевантности. Во втором случае находятся только те файлы, в которые одновременно входят все слова, входящие в поисковую строку. Как вы понимаете, второй вариант является частным случаем от первого.

Код,генерирующий индекс :


 foreach $sf (@FILES)
 {
 		open(FILE,"$sf");
 		@LINES = < FILE>;
 		close(FILE);
 		$string = join(' ',@LINES);
 		$string =~ s/\n//g;		 # выкинем каретку 	
 		$string =~ s/<.+?>//gs;  # выкинем теги
 		$string =~ s/[,.=\-\[\]!{}()#%&;:*"'`~\\0?]//g;  # выкинем не-буковки
 		@words = split (/ /, $string); # бьем файл на слова
 		foreach $massiv3 (@massiv3)
 		{
 			$massiv3=0;
 		}
 		foreach $word (@words)
 		{
 			$found=0;	
 			if ($word =~ m/.{3,}/) # по крайней мере слово не менее 3 символов
 			{	
 				if(exists $hash{$word}) # есть такая буква - 
 				{
 					$ii=$hash{$word};
 					if($massiv3[$ii]!=1)# добавляем в список новую пару : файл - количество
 					{
 							$massiv2[$ii]+=1;
 							$massiv[$ii][$massiv2[$ii]]=$i;
 							$massiv2[$ii]+=1;
 							$massiv[$ii][$massiv2[$ii]] =1;
 							$massiv3[$ii]=1;
 					}
 					else # увеличиваем счетчик для данного слова в данном файле
 					{
 						$massiv[$ii][$massiv2[$ii]] +=1;
 					}
 				}	
 				else # создаем новый массив для нового слова			
 				{
 						$mc=$massiv_count;
 						$massiv[$mc][0]=$word; 
 						$massiv[$mc][1]=$i;
 						$massiv[$mc][2]=1;
 						$massiv2[$mc]=2; # позиция индекса в строке массива
 						$massiv3[$mc]=1; # переключатель курсора
 						%hash = (%hash, $word , $mc);
 						$massiv_count++; # главный индекс базового массива
 				}
 			}
 		}	
 
 	$i++;
 }
 
Похоже , тут есть что оптимизировать :-)

Оставьте свой комментарий !

Ваше имя:
Комментарий:
Оба поля являются обязательными

 Автор  Комментарий к данной статье