Экспертные системы

Вопросы баз знаний, надсистем и искусственных интеллектов

Модератор: al_mt

Аватара пользователя
trix
Сообщения: 288
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Экспертные системы

Сообщение trix » 22 дек 2010 13:11

Чибрикин Илья писал(а):Давайте все-таки обсудим сущности второго уровня. Трудности работы с документом я уже обвякал.
чтобы что-то обсуждать, надо знать, что и как вы там внутри пишете.
посмотреть ряд документов и понять, что там повторяется. что там формализовано.

просто так, от балды, можно разве что имена файлов выделять, даты, почтовые адреса, ссылки на сайты, цены, названия населенных пунктов... в общем, инуитивный datamining

кстати, язык запросов Lucene гораздо мощнее, чем то, что гугль дает простым пользователям.
например, там можно задавать запросы на частоту упоминания и многое другое.

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 13:28

Да но он требует исходных данных в XML или других гипертекстовых вещах. А что делать с файловой помойкой из ворда экселя и картинок в растре?

Аватара пользователя
trix
Сообщения: 288
Зарегистрирован: 15 апр 2010 11:21
Откуда: Санкт-Петербург

Re: Экспертные системы

Сообщение trix » 22 дек 2010 13:34

Чибрикин Илья писал(а):Да но он требует исходных данных в XML или других гипертекстовых вещах. А что делать с файловой помойкой из ворда экселя и картинок в растре?
все что можно устойчиво выделить регэкспом из текста -- кандидат на подсущность, и таких вещей можно найти изрядно и в вордовском файлике.
картинки в растре нуждаются в отдельных алгоритмах обработки. это самая сложная часть.

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 13:40

Кто-нибудь помнить мысль Великого Переслегина о профилях?

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 13:46

Я только сейчас осознал. Что мы воспримаем как единую и неделимую сущность в передаче информации? Млую смысловую форму:
1. Абцаз-другой текста.
2. Анекдот
3. Притчу
4. Картинку.
Т.е документ состоит из стуруктурных единиц а внутри-то малые смысловые формы.

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 14:30

Минимальная смысловая единица текста - мем.
Бюджет - "дофигищщща"
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 14:35

ОНО!!!!!
Мы должны идексировать текст в терминах мемов!!!
Одновременно не мешало бы определить мем хотябы для самих себя.

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 14:53

С т.з. экспертной системы "Мем - минимальная фраза имеющая смысл".
С т.з. тэгирования "Мем = множество связанных тегов", в том числе "Мем = тэг".

"Нефть" - тэг, но не мем.
Однако тэг "нефть" входит в множество мемов:
"Нефть" -> "добывают" -> "суровые сибирские мужЫки"
"Нефть" -> "бабло" -> "побеждает зло"
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 15:14

Мем - это Минимальная Единица Мысли. Т.е. некий блок текста, (ограничимся текстом) который может быть носителем ЭМОЦИЙ.
Пример - анекдот.

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 15:22

Эмоции мему носить совершенно не обязательно.
Обязательно другое - однозначность самого в себе. Т.е. в отрыве от контекста мем имеет совершенно однозначное физическое отражение. В идеале разумеется :)
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 16:01

Пусть так. Вопрос - существуют какие-либо формальные критерии, которые позволяют выделять мемы в тексте?

bigBUG
Сообщения: 4145
Зарегистрирован: 20 апр 2010 21:52

Re: Экспертные системы

Сообщение bigBUG » 22 дек 2010 16:08

Автоматическая обработка смыслов. Ого.
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Аватара пользователя
ko4evnik
Сообщения: 13360
Зарегистрирован: 11 апр 2010 16:25

Re: Экспертные системы

Сообщение ko4evnik » 22 дек 2010 16:08

Чибрикин Илья писал(а):Пусть так. Вопрос - существуют какие-либо формальные критерии, которые позволяют выделять мемы в тексте?
гляньте что пишут люди тут:
http://community.livejournal.com/dot15926/profile
Разработка методов (видов практик жизненного цикла, продуктов, акторских ролей, инструментов и знаний) языкоориентированного онтологического программирования на базе 4D-онтологии ISO 15926.

Идея в том, что где-то на пересечении теории категорий и математической логики (формальная семантика), онтологической инженерии (соотносимые с реальностью языковые типы) и языкоориентированной (нотации) программной инженерии (алгоритмы/действия) мы можем получить весьма нетривиальные результаты в компактификации знания. Для этой цели нужно создать инструментальную платформу.

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 16:16

В данном тексте я понял только предлоги.
А вообще - формальная фильтрация мем (смыслов) из текста - это да, то что нужно.
Можно попробоывать поиграться вручную. Армению не догоним, но хоть согреемся.

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 16:20

Автоматическая (полуручная) КАТАЛОГИЗАЦИЯ СМЫСЛОВ. Слово "обработка" так затасканно, что уже ничего не значит по сути.
Это в сущности то, что заказали AL-MT. Дав дофигищща бюджету. Но нам не обломиться.

Аватара пользователя
ko4evnik
Сообщения: 13360
Зарегистрирован: 11 апр 2010 16:25

Re: Экспертные системы

Сообщение ko4evnik » 22 дек 2010 16:25

Чибрикин Илья писал(а): Т.е. я правильно понимаю, что в основе любого преобразования должна лежно лежать именно превращение исходной помойки в жестко стандартизованный вид?
сначала вы повышаете "дискретность"/"делимость" - "кучу переплетенных корней переводите в более менее раздельные чурбачки". а "стандартизированность чурбачков" - это уже вторичное следствие.
Чибрикин Илья писал(а): Возможно ли автоматизировать этот процесс, кочевник вот говорит что сугубо возможно...
да, но "автоматизированный" далеко не равно "автоматический". :)
полностью избежать ручных операций мне не удавалось.
Чибрикин Илья писал(а): Но что интересно, так это представление результата. Базу по кораблям я видел, насколько я понимаю там самое интересное - построение системы связей.
Я прав? Или я лев?
прав.

там был простой набор связей. количественно около десятка. и были они исключительно бинарные. А.link.B = link (A,B).

но даже это дало большой прирост в поисковой производительности. до любой точки в графе можно было добраться в пяток кликов.

Аватара пользователя
ko4evnik
Сообщения: 13360
Зарегистрирован: 11 апр 2010 16:25

Re: Экспертные системы

Сообщение ko4evnik » 22 дек 2010 16:28

al_mt писал(а):Вариант:
Один эксперт расставляет тэги. Робот, смотрит и пытается подражать (как раз алгоритм использованный при разборке маши и медведов).
робота можно заменить блондинкой. в Больших Лавках обычно много блондинок...

Аватара пользователя
ko4evnik
Сообщения: 13360
Зарегистрирован: 11 апр 2010 16:25

Re: Экспертные системы

Сообщение ko4evnik » 22 дек 2010 16:31

Чибрикин Илья писал(а):Автоматическая (полуручная) КАТАЛОГИЗАЦИЯ СМЫСЛОВ.
кстати по разметке: http://ailev.livejournal.com/890935.html
как бы текущее состояние дел на разных направлениях.

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 16:59

ko4evnik писал(а):
al_mt писал(а):Вариант:
Один эксперт расставляет тэги. Робот, смотрит и пытается подражать (как раз алгоритм использованный при разборке маши и медведов).
робота можно заменить блондинкой. в Больших Лавках обычно много блондинок...
...не все 25-летние блондинки с 5-м размером являются экспертами в области геологии... :roll:
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 17:14

Давайте от блондинок перейдем к катологизации мемов или смыслов.
Вроде бы когда делали Машу и медведя занимались чем-то похожим...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 17:22

Например. Известно, что распределение слов в тексте подчиняется гиперболическому закону. (Разумеется, речь идет о словах без их грамматических модификаций). Будут ли ключевые слова выбиваться на фоне общего распределния?

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 17:30

Именно этим и занимались. Прямо тик-в-тик. Упёрлось всё в одну проблему. Наскоком не решить даже в демонстрационном виде.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 22 дек 2010 17:36

Не догоняю. Какую проблему?

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 22 дек 2010 17:47

Объём работы большой. Т.е. этим надо сидеть и заниматься.
Я на работе с более простой задачей зашиваюсь...
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 23 дек 2010 09:41

А Вы строили распределение слов по тексту? Что-нибудь получалось?

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 23 дек 2010 11:21

Понятие мема строится на свойстве репликации, способности распространятся по инфицированным мозгам:
http://lurkmore.ru/%D0%9C%D0%B5%D0%BC

Чибрикин Илья
Сообщения: 11061
Зарегистрирован: 14 апр 2010 08:36

Re: Экспертные системы

Сообщение Чибрикин Илья » 23 дек 2010 13:30

Получается что надо строить предопределенный список мемов и вручную маркировать тексты по схеме "комета" - "ядро", т.е. сам мем и "хвост" - рассуждения.
Я вот поглядел свежим взором на один наш отчет. 56 страниц. Все - данные по относительным фазовым проницаемостям. Т.е. 1 тег.
Примерно как описание корабля (зачеркнуто) линкора легко бьется на теги-мемы: размеры, броня, двигательная установка, вооружение, наличие Кармника на борту и т.д.

Аватара пользователя
al_mt
Сообщения: 11327
Зарегистрирован: 19 апр 2010 10:30
Откуда: Таганрог

Re: Экспертные системы

Сообщение al_mt » 23 дек 2010 16:11

Каждый "опечатанный" или "албанец" имеет определённый смысл.
Т.е. система не сможет самостоятельно понять все опечатанные албанцы, но если албанец был встречен экспертом хотя бы однажды, то будет адекватно тегирован по всем текстам.
- Суперинтендант, у Вас есть список всех Тайных Обществ?
- Конечно...

Аватара пользователя
GalS
Сообщения: 89
Зарегистрирован: 20 апр 2010 19:55
Откуда: Усть-Илимск

Re: Экспертные системы

Сообщение GalS » 05 янв 2011 16:49


bigBUG
Сообщения: 4145
Зарегистрирован: 20 апр 2010 21:52

Re: Экспертные системы

Сообщение bigBUG » 05 янв 2011 18:02

Вот вы говорите экспертные системы... трясти надо))
Много тренировки + хорошее обновляемое дерево и вуаля - угадываем черта в ступе - http://ru.akinator.com/
идёт на дно военный крейсер
он на поверхности едва
и только слышно роковое
е два © bu6lik

Аватара пользователя
ko4evnik
Сообщения: 13360
Зарегистрирован: 11 апр 2010 16:25

Re: Экспертные системы

Сообщение ko4evnik » 05 янв 2011 23:55

http://www-03.ibm.com/innovation/us/watson/

http://www.ixbt.com/news/all/index.shtml?14/13/73
...
Система Watson, названная в честь основателя корпорации IBM Томаса Уотсона (Thomas J. Watson), была построена группой ученых IBM, которые стремились тем самым решить сложнейшую задачу – создать компьютерную систему, способную на уровне человека отвечать на вопросы, изложенные на естественном языке, причем быстро, точно и достоверно. Формат викторины «Jeopardy» является исключительно трудным, поскольку предлагаемые участникам подсказки вынуждают их анализировать тонкие смысловые оттенки, учитывать иронию, разгадывать загадки и преодолевать другие сложности, т.е. заниматься теми видами деятельности, которых люди традиционно выполняют лучше, чем компьютеры.
...
Левенчук ее тоже хвалит, утверждает что лет через несколько будут промышленные образцы к примеру для медицины...

Дмитрий Одинец
Сообщения: 9687
Зарегистрирован: 15 апр 2010 23:33
Откуда: Донецк

Re: Экспертные системы

Сообщение Дмитрий Одинец » 05 янв 2011 23:58

У американцев медицина очень сильно формализованная, м.б. поэтому им проще.

polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Экспертные системы

Сообщение polartoad » 18 янв 2011 13:24

Суперкомпьютер IBM победил американских игроков в "Свою игру"
http://lenta.ru/news/2011/01/14/watson/
Суперкомпьютер IBM Watson победил в предварительном раунде американской телевикторины Jeopardy! - аналоге российской "Своей игры", пишет ZDNet.
Watson, названный так в честь бывшего главы компании Джона Уотсона (John Watson), выиграл у двух бывших чемпионов этой игры Кена Дженнингса и Бреда Руттера. По итогам игры Watson набрал 4400 долларов, в то время как Дженнингс и Рутер - 3400 и 120 долларов соответственно. Отметим, что финальная игра против этих же участников выйдет в эфир американского телевидения в марте.

О намерении IBM разработать суперкомпьютер для игры в Jeopardy! стало известно в апреле 2009 года. Перед разработчиками системы стояла задача создать компьютер, который сможет отвечать на вопросы, заданные ведущим, наравне с игроками.

В Jeopardy!, как и в "Своей игре", три участника отвечают на вопросы из различных областей знания, задаваемые ведущим. Особенностью игры является тот факт, что ответы также должны звучать в форме вопросов. Видеоролики, записанные в рамках предварительного раунда журналистом ZDNet можно посмотреть здесь и здесь.

polartoad
Сообщения: 2374
Зарегистрирован: 19 апр 2010 20:14

Re: Экспертные системы

Сообщение polartoad » 14 апр 2011 23:04

http://www.membrana.ru/particle/16033
Диковинный продукт вызревает ныне в Сан-Франциско. Это карта мирового прогресса с подсказками. Какая технология «выстрелит», а какая окажется напрасной тратой сил? В какую идею стоит вложить средства? Авторы карты полагают, что она поможет в поиске ответов на эти вопросы.
Молодая американская компания Quid на протяжении вот уже 18 месяцев занята странным, на первый взгляд, делом — она составляет карту «генома» технологического прогресса во всём мире. Как объясняет Technology Review, Quid уже собрала информацию для оценки перспектив 35 тысяч фирм и исследовательских групп, работающих в области новых технологий, и, очевидно, останавливаться на этом не собирается.
Провести анализ по всем этим компаниям вроде бы по силам только армии экспертов. Но Quid считает иначе: она создала программу, которая по определённым алгоритмам систематизирует знания об этих компаниях, их продуктах и экспериментах.
В поле зрения программы от Quid попадают патенты, новости, веб-странички фирм, лабораторий, организаций, их пресс-релизы, исследовательские публикации, списки сотрудников и заявленные трудовые вакансии, документы о правительственных грантах, посты в «Твиттере» и так далее. Из всего этого софт извлекает ключевые слова и фразы, способные охарактеризовать главные идеи проектов (рабочих групп, стартапов), их принадлежность к той или иной области знаний, к той или иной технологической сфере.
Эти ключевые фразы (сотни на компанию) можно считать генами. Соответственно оказывается, что у каждой компании — свой уникальный набор технологических генов, но притом у разных компаний может быть немало и общих генов.
При сопоставлении таких генетических кодов порой обнаруживаются связи, ранее ускользавшие от внимания. Наглядная визуализация в таком случае помогает найти закономерности. При этом пучки линий работают по «принципу гравитации» — чем больше между компаниями нитей похожести, тем сильнее они притягиваются друг к другу. Так схожие предприятия и проекты образуют крупные кластеры (инженерия, финансы, физика, информатика, биохимия, дизайн...), которые, в свою очередь дробятся на участки.
Сопоставление «всего со всем» — конёк программ. База данных Quid растёт на 120 тысяч документов ежедневно. Ни один человек не может прочитать их все, а значит, не в силах найти какие-то закономерности, совпадения и пересечения — на это способны только компьютеры. Именно они извлекают из этих клубков взаимосвязей что-то полезное. Разумеется, руководствуясь правилами, придуманными людьми.
Где возникают перспективные инновации? Каковы тенденции в развитии техники? Кто это финансирует? Подобную информацию с радостью оценят венчурные капиталисты, которым хотелось бы снизить риск при вложении средств во что-то новое.
И хотя далеко не всё из области технологий или финансов раскрывается в Сети, даже публичной информации достаточно, чтобы делать интересные выводы. Особенно если знать, на что смотреть.
Quid очень интересуют компании и организации, занимающие позиции на стыках областей. Здесь часто происходят интересные вещи, потенциально способные обернуться прорывами. Тут опять аналогия с природой: самые интересные организмы — гибриды, наследующие гены от заметно различных родителей. Что выйдет в итоге, жизнеспособная особь или тупиковая ветвь эволюции? Заранее сказать трудно, но такие инновационные смеси, по мнению Quid, это то, на что стоит обращать внимание инвесторам и промышленным партнёрам.
Скажем, что может быть общего у биофармацевтической отрасли, социальных медиа, таргетинга рекламы, игровой индустрии и геномики? Но в «белом поле» где-то между этими столь различными узлами оказалось несколько компаний и проектов.
Так, американская компания Insilicos разработала программы для распознавания диагностических биомаркеров в образцах, анализа белков и так далее. Эти задачи потребовали мощных средств обработки графики, что автоматически пододвинуло компанию Nvidia, вообще-то занимающуюся электроникой, чуть ближе к сектору «биология, медицина и фармацевтика». Для Nvidia это намёк на новое направление усилий.
Молодой проект Foldit заимствовал технологии игровой индустрии для решения сугубо научной задачи. Он предлагает всем желающим посоревноваться в... складывании белков.
Для добровольцев это лишь состязание по сборке пазла, а конечный продукт — оптимальные методы складывания того или иного белка, которые востребованы в фарминдустрии. Единичные группы исследователей с такой задачей не справились бы, ведь тут нужно оценить слишком много вариантов, а тысячи людей в Сети решают эту проблему буквально играючи.
Другой пример пересечения тем: платформы для контекстного анализа, вроде той, что имеется у компании Proximic, изначально придуманные для таргетинга рекламы, были творчески переосмыслены компанией Selventa, которая с помощью такого аппарата проводит статистический анализ реакции на новые препараты у тысяч пациентов и выявляет закономерности. А они оказываются очень важными для партнёров «Сельвенты» — компаний из сфер фармацевтики, биотехнологий и медицинской диагностики.
Другая молодая фирма Vivo адаптировала идеи социальных блог-платформ для создания сети обмена знаниями (результатами опытов, идеями) среди исследователей.
Большие белые пятна между крупными конгломератами компаний на технологической карте — это области, где потенциально может родиться что-то совершенно гениальное. Увидеть это и обратить внимание можно только после автоматического анализа тысяч документов. Так в поле зрения программы попадают оригиналы, занимающиеся технологической гибридизацией.
Ещё один яркий пример — компания superDimension. Она придумала бронхоскопию по мотивам спутниковой навигации GPS. На груди пациента размещаются три электромагнитных прибора, играющие роль спутников, а функцию навигатора выполняет зонд, проникающий в лёгкие.
С помощью техники superDimension врач может контролировать положение зонда с высокой точностью, а сам катетер удаётся провести намного глубже в бронхи, нежели с другой техникой, и притом без повреждений стенок лёгких.
И это лишь одна точка на «генетической карте» мировых технологий, а их на ней уже многие тысячи. Самое же интересное начинается, если в каком-то белом пятне начинают вырастать одна точка за другой.
Так у нас на глазах начинает формироваться новый сектор рынка, привлекающий инженерные силы и денежные средства. И хотя расположение компании вдали от проторённых дорог не является гарантией успеха, такие первопроходцы по сути являются самыми преданными сторонниками прогресса.
Интересно, что Quid не только анализирует тысячи проектов, но и занимается анализом проекта собственного. Компания продолжает совершенствовать свою программу, уточняет алгоритмы отбора данных. По словам Гоерли, на основе карт, выстроенных Quid, уже сейчас можно делать кое-какие прогнозы. Но в будущем они должны стать ещё более точными и глубокими.
Для своего проекта Quid соединила приёмы и методы из математики, экономики, техники и лингвистики. Можно смело сказать, что сама Quid тоже родилась в одном из белых пятен на мировой карте прогресса. А это значит, что можно надеяться на успех необычного предприятия. Пока у Quid всего восемь клиентов. Но они уже используют первые данные от программы «технического генома планеты» для принятия решений в области финансирования новых проектов.

Ответить

Вернуться в «Золотая рыбка»