|
|
Изображения | All Albums | Справка | Пользователи | Календарь | Сообщения за день | Поиск |
База Знаний Тематика: технические вопросы, нанотехнологии, инновации Температура кипения: низкая Запас прочности: практический опыт Степень защиты: жесткая модерация |
Опции темы | Поиск в этой теме | Опции просмотра |
03.08.2008, 16:40 | #1 | |
Генералиссимус
енот-старожил
|
индексация поисковыми системами
Цитата:
там ваш тезис о том чот на каждое ключевое слово по боту (crawler) не подтверждается, что не удивительно ибо бессмысленная трата вычислительных ресурсов |
|
03.08.2008, 17:15 | #2 | |
:))))
енот-старожил
|
Цитата:
и в конце будет слово, а перевод в машинный фомат и машинный поиск -- промежуточный этап. Продвинется развитие техники -- изменится и метод шифрования и технология поика. Но! Ключевые слова были и останутся, ибо из них состоит человеческий язык, и запрос (заказ) на поиск даётся на человеческом языке, а потом уже переводится на "ботный" и обратно.
__________________
Скауты не сдают позиций ! |
|
03.08.2008, 17:28 | #3 | |
:))))
енот-старожил
|
Цитата:
один бот , наверное, может запускаться и на несколько сот слов в соответствии с классификацией информации в данной поисковой системе. Факт, что одновременно шерстят по форуму несколько ботов, и каждый, очевидно, собирает своё "ключевое", а не сканирует всё подряд, тянет домой, а там другие сортируют улов. Или не так? ) ***А Вы можете глянуть, что они там в мешки к себе запихивают?
__________________
Скауты не сдают позиций ! |
|
04.08.2008, 01:34 | #4 | |
Генералиссимус
енот-старожил
|
Цитата:
нет это не так если бы вы были знакомы с програмированием то поняли бы что по предложенной вами схеме затраты вычислительных ресурсов и траффика много выше |
|
04.08.2008, 01:43 | #5 | |
Генералиссимус
енот-старожил
|
Цитата:
К чему весь это спич ? |
|
04.08.2008, 01:44 | #6 | |
Генералиссимус
енот-старожил
|
Цитата:
а если его слова ключего там не будет, зря старался ? вы занимались кодингом ? |
|
04.08.2008, 07:09 | #7 | |||
:))))
енот-старожил
|
Цитата:
Цитата:
Цитата:
С чего начинается поиск. Или что и кто ищет по форумам? ***Может, всё это "ключевое" вынести из "Животных" ? А там определимся, о чём же всё-таки мы говорим, не понимая друг друга.
__________________
Скауты не сдают позиций ! |
|||
04.08.2008, 07:16 | #8 | |
:))))
енот-старожил
|
Цитата:
а не его техническом исполнении -- ручном или машинном. Так четыре действия арифметики составляют суть работы ЭВМ разных поколений. Или мытьё посуды -- ручное и машинное. )) ***Я говорю об общем, Вы -- о частном. )
__________________
Скауты не сдают позиций ! |
|
04.08.2008, 18:33 | #9 | |||
Генералиссимус
енот-старожил
|
Цитата:
выгонят тогда такого кодера ибо 99.999% машинных ресурсов и трафика будет расходоватсья в пустую ----- Цитата:
насчет одного бота на одно слово - это именно техническое исполнение ну даже если принцип вы неверно его укказали ---- Цитата:
это неверно, на самом деле основа всех эвм - логические операции not, and, or, xor Последний раз редактировалось SoapMaker; 04.08.2008 в 18:37.. |
|||
04.08.2008, 18:38 | #10 |
:))))
енот-старожил
|
SoapMaker,
= Снесите эту нашу "перекличку" с этой ветки куда в уголок. Животных забиваем без лицензии.
__________________
Скауты не сдают позиций ! |
04.08.2008, 18:57 | #11 | |
:))))
енот-старожил
|
Цитата:
думали и говорили. )) Согласна, поговорим о разных системах индексациях информации и её поиске в разных хранилищах (БД) текстов, словосочетаний и слов.
__________________
Скауты не сдают позиций ! |
|
27.09.2008, 02:57 | #12 | |
Ведущий пиздецолог бригады
енот-старожил
|
Цитата:
Основа цифровых автоматов, коими являются ЭВМ или компьютеры, являются бинарные операции. Например операция сдвига регистра не относится к логическим.
__________________
А ведь вас предупреждали!! "Россия существует для того, чтобы перерабатывать солнечный свет в человеческое горе" (Пелевин) |
|
27.09.2008, 03:22 | #13 | ||
Ведущий пиздецолог бригады
енот-старожил
|
Цитата:
ПРавда, Гугль хранит индексы совсем в другом виде, используя очень эффективный принцип, позволяющий сжать инфу весьма неплохо ( всего 16 бит на весовые данные слова) и может очень хорошо ранжировать ресусы сети. Зачем? Хватит того понимания, думаю, что топовые поисковые машины в непрерывном режиме в иечение дня индексируют сотни миллионов страниц веба и обрабатывают пару десятков мильонов запросов за день.Поисковик засылает своего спайдера (паука) для краулинга - построения и фиксации списка полезных слов. Сначала паук лезет на найболее крупные сайты и серваки мира, индексирует все слова там, а затем по ссылкам с него переходит на другие сервера, охватывая краулингом все большие куски вэб-пространства. Например Гугль начинает поиск, выпуская сначала трех пауков, каждый из которых одноременно может следить за 300 ресурсами. В пике это дает скорость обработки около 100 страниц в секунду (или около 600 кБ\сек) Короче, это долго и нудно рассказывать.. Релевантность, дата, пропуск междометий, поиск самых популярных слов, поиск самых хешных ( распространенных по букве) слов, теги из HTML-языка, на которые в первую очередь обращает внимание паук и собственно само построение индекса.. Чушь полная, на самом деле..
__________________
А ведь вас предупреждали!! "Россия существует для того, чтобы перерабатывать солнечный свет в человеческое горе" (Пелевин) Последний раз редактировалось zz-tOp; 27.09.2008 в 03:26.. |
||
27.09.2008, 12:20 | #14 | |
:))))
енот-старожил
|
Цитата:
Вы подтвердили правильность моего тезиса: ищут по ключевым словам (понятиям) от Ноева потопа и до наших дней, меняется только технология поиска информации, но не формулирование задачи.
__________________
Скауты не сдают позиций ! Последний раз редактировалось Kati-Gusta; 27.09.2008 в 12:24.. |
|
27.09.2008, 14:17 | #15 | ||||
.
енот-старожил
|
Цитата:
Зизи-джан, не на лице,а на мозге Цитата:
ибо и АйТишнеги правы в том, что отбор поиска производит не спайдер-бот,который только предуготовляет технологическую цепочку обработку инфы Цитата:
с тем ,чтобы по запросу -быть востребованным уже интересантом, коим могедбыть как юзер так и аналитическая машина Цитата:
|
||||
27.09.2008, 15:47 | #16 | |
Генералиссимус
енот-старожил
|
Цитата:
тоесть вы утверждаете что каждый "бот" ищет какое то конкретное слово (набор слов) даже если на сайте его нет ? |
|
27.09.2008, 15:50 | #17 | |
Генералиссимус
енот-старожил
|
Цитата:
они гребут всю информацию подрят (просто Кати утверждала что далеко не всю а только целевую из определенного "словаря") |
|
27.09.2008, 16:35 | #18 | ||
:))))
енот-старожил
|
Цитата:
ищет одну лексическую единицу -- это расточительно. Но допускаю, что поиск ведётся по его парадигме вкупе с парадигмами синонимического ряда. Возможна и схема поиска по принципу УДК. Цитата:
определять оператор -- где и что искать. Кстати, Вы помните тьму ботов, когда Вы поменяли площадку? Как мне кажется, то и был чёс-разведка. Нас пробовали на зуб и определяли частотность наших интересов и по какие "слова-ягоды" запускать в дальнейшем поиск. ***А Вы можете определить, что выбирают боты с наших страниц? Что уносят с собой?
__________________
Скауты не сдают позиций ! |
||
27.09.2008, 16:41 | #19 | |
агент мосада
енот-старожил
|
Цитата:
Снимаю шляпу...
__________________
русский аспед: "не кто не кого не облаживал" |
|
27.09.2008, 16:44 | #20 | |
Генералиссимус
енот-старожил
|
Цитата:
боты не ищут информацию, они ее собирают |
|
27.09.2008, 16:46 | #21 | |
Генералиссимус
енот-старожил
|
Цитата:
|
|
27.09.2008, 16:46 | #22 | |
:))))
енот-старожил
|
Цитата:
Да, не бот, а человек должен выбирать, где и что искать. Но предварительно прочёсываются с помощью ботов все доступные сайты. Например, "чёрножопый" можно найти и на политическом сайте и на порносайте, а вот "бандеровцев" и "белополяков" -- только на политических и исторических...
__________________
Скауты не сдают позиций ! |
|
27.09.2008, 18:56 | #23 | |
Погонщик Лугандонцев
енот-старожил
Регистрация: 18.01.2007
Адрес: Счастье-Пески-Волноваха-Мариуполь
Сообщений: 42,136
Репутация 922 [+/-]
|
Цитата:
|
|
27.09.2008, 18:58 | #24 | |
:))))
енот-старожил
|
Цитата:
__________________
Скауты не сдают позиций ! |
|
27.09.2008, 19:10 | #25 |
Погонщик Лугандонцев
енот-старожил
Регистрация: 18.01.2007
Адрес: Счастье-Пески-Волноваха-Мариуполь
Сообщений: 42,136
Репутация 922 [+/-]
|
Брт собирает всю инфу, а отдельная утилита обрабатывает, индексирует и сжимает контент. Без участия чуловека саффсем.
|
27.09.2008, 19:33 | #26 | |
:))))
енот-старожил
|
Цитата:
можешь? =========== И! Какую информацию собирает робот? По каким признакам идёт отбор? Кто задаёт поиск, т.е. вносит эти признаки в задачу для робота? И что, робот гребёт с сайта всё подряд, тянет это нечто на рабочее место домой, а там сидит робот-сортировщик и отбирает зёрна от плевел? ***Даже если и так -- через затылок чесать ухо, то это не отменяет моего тезиса, что запросом, постановкой задачи на машинный (и любой) поиск и отбором принесённой информации на релевантность должен на входе-выходе заниматься человек, сведущий в теме запроса. ( И это не отменяет первоначального моего тезиса, что вначале было Слово и им, Словом, и человеком всё и завершается. ) ) Хочу донести до разума ближних сермяжную истину: техника -- только инструмент, орудие для труда рук и головы человека. А принципы труда рук и головы человека не меняются никак, да. ))
__________________
Скауты не сдают позиций ! |
|
27.09.2008, 19:58 | #27 | |
:))))
енот-старожил
|
Цитата:
Индексация -- тоже интересная тема. До эры машинизации, полагаю, информация тоже ж как-то кодировалась, как-то хранилась и находилась. Как? Какие кто знает системы? Как ориентировались архивисты или хранители Александрийской и Британской библиотек в океанах информации? Подозреваю, что те системы индексации информационных носителей и информации сохранились и по сей день, ибо невозможно в одночасье перевести все фонды на иную, машинную индексацию... Как, допустим, найти нужное в международном или отечественном патентном фонде?
__________________
Скауты не сдают позиций ! |
|
28.09.2008, 09:51 | #28 |
Генералиссимус
енот-старожил
|
Kati-Gusta,
не знаю как вас переубедить агрессивное невежество просто хотите забится на 100 $ что мой тезис верен (то что бот грабит всю текстовую информацию со страницы) а ваш тезис неверен (что избирательно грабит ключевые слова только одно или несколько) |
28.09.2008, 10:04 | #29 | |
:))))
енот-старожил
|
Цитата:
Не обидели. Вы просто не поняли о чём я говорю, зациклившись на технологической частности процесса поиска. Я говорю о круге, а Вы о точке внутри этого круга (это образно! образное сравнение! ).
__________________
Скауты не сдают позиций ! |
|
28.09.2008, 10:07 | #30 |
Генералиссимус
енот-старожил
|
Kati-Gusta,
ну так обозначьте четко свой тезис а то наводите туман в стиле Либова |
29.09.2008, 02:37 | #31 |
Ведущий пиздецолог бригады
енот-старожил
|
Чтобы предоставить полезные данные, поисковики сохраняют не только информацию из слова и его URL адрес, но и могут сохранить данные о количестве (частоте) упоминаний слова на странице, присвоить слову "вес", .
Это далее поможет выдавать поисковые листинги (результаты) на основе весового ранжирования по данному слову, с учетом его местонахождения (в ссылках, мета тегах, титуле страницы и т.п.). У каждого коммерческого поисковика есть своя формула для вычисления "веса" ключевых слов при индексации. Это одна из причин, почему по одному и тому же поисковому запросу поисковики выдают совсем разные результаты (Гугль и Яндекс, например)
__________________
А ведь вас предупреждали!! "Россия существует для того, чтобы перерабатывать солнечный свет в человеческое горе" (Пелевин) |
29.09.2008, 08:42 | #32 | |
:))))
енот-старожил
|
SoapMaker,
Цитата:
__________________
Скауты не сдают позиций ! |
|
29.09.2008, 23:23 | #33 | ||
Генералиссимус
енот-старожил
|
Kati-Gusta,
я тут 3 дня назад придумал слово ghjeznslkl и разместил его на еноте http://moemnenie.info/forum/showthread.php?t=9712 сегодня оно уже в гугле http://www.google.ru/search?hl=ru&q=...e&lr=&aq=f&oq= что доказывает верность моего тезиса то что бот грабит всю текстовую инфу с сайта. и абсолютную неверность вашего Цитата:
-- непонимаю просто к чеу такая упертость и отказ признать свою неправоту по такому безобидному вопросу ? Последний раз редактировалось SoapMaker; 29.09.2008 в 23:32.. |
||
30.09.2008, 00:05 | #34 | |
:))))
енот-старожил
|
Цитата:
"втыка" (вполне серьёзно!). Резюме: Гугль тралит всё подряд, без всяких запросов и вскидок на релевантность. Сбрасывает всё в трюмы. Вопрос: это каких объёмов должен быть БД и когда его чистят, и чистят ли от всякого хлама? И ещё: в какую ячейку и под каким шифром занесли Вашу кракозяблу? С чем её состыковать? Понятно. Гугль иформацию не классифицирует по смыслу. Классификация графическая, не семантическая. Не жильцы! )) А что Яндекс? А частные поисковики, работающие по запросам? Тоже гребут всё подряд? А насколько это экономично? ***Мыловар! Очень интересно, спасибо! "Буду думать" (с) ***Мой тезис пока не отвергнут: Потом к нему вернёмся. (спасибо за затравку!)
__________________
Скауты не сдают позиций ! |
|
30.09.2008, 00:18 | #35 | ||
Генералиссимус
енот-старожил
|
Цитата:
Цитата:
-- дисковое пространстово счас относительно недорогое а так конечно объемы гугловских баз это многие петабайты данных |
||
30.09.2008, 00:25 | #36 | |
:))))
енот-старожил
|
Цитата:
Но! Как из всей это мегакучи выбрать нужное? По каким признакам? (Сбор и хранение -- дёшево, а выборка?)
__________________
Скауты не сдают позиций ! |
|
Здесь присутствуют: 1 (пользователей: 0 , гостей: 1) | |
|
|