Чтение частей Шекспира

стандартных блоков

Это может не сказать Вам, создал ли Фрэнсис Бэкон действительно пьесы Шекспира, но общая компьютерная программа, разработанная для сжатия больших файлов, может разобраться, кто написал что с большим, чем 90%-я точность.К компьютеру первый монолог Гамлета является просто вереницей знаков — но та вереница все еще содержит информацию. Сколько информации — то, что определяет «энтропию» вереницы, по существу минимальное число битов должно было закодировать вереницу. Если вереница не бесконечно длинна, невозможно вычислить, это — точная энтропия.

Но программа, сжимающая файлы, обеспечивает удобную оценку: длина сжатого файла, содержащего вереницу. Путем оценки энтропии сложные программы сжатия могут идентифицировать язык и даже автора незнакомой прозы. Теперь, математики Дарио Бенедетто и Эмануэле Кальоти и физик Витторио Лорето из университета Рима показали, что стандартное программное обеспечение в свободном доступе может добиться цели также.Исследователи использовали общую программу, названную gzip.

Gzip заменяет оригинальный файл каталогом стандартных блоков несколько знаков долго и инструкций для соединения блоков назад. Уловка к выслеживанию текстов должна сжать файл, содержащий более длинный известный текст, сопровождаемый более коротким неопознанным текстом. Если известные и неопознанные тексты подобны, таковы как игра Шекспира, и сонет, gzip сделает немного лучшую работу по сжатию сложного файла, потому что оба требуют примерно подобных стандартных блоков.Для испытания программы исследователи собрали 90 текстов 11 итальянских авторов и измерили их длину, когда сжато.

Они использовали короткую часть одного текста как «неопознанный» образец. Тогда они приложили этот образец к каждому из других 89 файлов и измерили сжатую длину каждого.

Когда длина сложного файла изменилась мало от того из его оригинального сжатия, файл «признавал» неопознанный текст, поскольку требовалось относительно немного дополнительных стандартных блоков. Исследователи повторили этот процесс 90 раз, беря «идентифицированный» образец из различного текста каждый раз, и в 93% случаев, метод правильно показал, написал ли тот же автор и известные и неопознанные тексты, исследователи сообщают в выпуске 28 января Physical Review Letters.

Результаты демонстрируют энергию программ сжатия классифицировать язык, говорит Уильям Тихэн, программист в Уэльском университете в Бангоре, британские программы Сжатия могли бы когда-нибудь служить основанием для программного обеспечения, которые автоматически категоризируют огромные числа документов или точно добывают огромные находки данных — такие как Всемирная паутина — для документов, обсуждая определенную тему, говорит Тихэн.

2 комментария

Добавить комментарий