1) есть большое количество файлов(статей) на разные темы
2) их можно классифицировать кучей придуманных иерархических классификаторов.
3) делать выборки статей задавая условия по значениям этих
классификаторов - там статьи по истории ссср относящиеся к экономике. Статьи по малоэтажному строительству + статистика.
бывает ... но не дам ... так как это только малая часть чего моя программа делает и не для библиотек книжных, а для ИТ предназначена ... хотя впихнуть можно что угодно
а вот ты себе как это представляешь ?
кидаешь в программку файлик, она его оценивает "это текст про телепузиков , содержит много порнографических текстов, хотя и считается ориентированым на детей" ?
или таки некая БД, к которой ты присоединяешь файл, САМ его описываешь по набору
ключевых слов ?
Если первый вариант - то это из области фильмов "про хакеров", где компьютер умеет все, в процессе заражения вирусом испытывает страшные мучения, а для взлома любого пароля точно известно время на подбор пароля, а при скорости печати от 900 ударов по клавишам в минуту 30
минут достаточно для взлома пароля любой сложности...
Если второй - это достаточно тривиальная задача в качестве контрольной, ну максимум курсовой работы для студента 3-го курса... (написать такую базенку).
объяснять лениво, да и способ не очень удобен, но при желании можно сделать шаблон и втыкать туда статьи
почитайте что такое "скомпилированный html файл" гденить в гугле