Показать HN: Meow – формат файла изображения, который я создал, потому что PNG и JPEG отстой для ИИ ( github.com/kuberwastaken ) Один из самых важных контекстов, которые ИИ LLM может получить из изображений, – это их метаданные, но они крайне недоиспользуются. И хотя PNG и JPEG предлагают метаданные, они слишком легко удаляются при обмене и крайне ограничены для рабочих процессов на основе ИИ и предлагают минимальные записи метаданных для вещей, которые действительно полезны. Кроме того, эти форматы устарели (1995 и 1992 гг.) – пора нам обновиться для нашей эпохи ИИ. Встречайте MEOW (Metadata-Encoded Optimized Webfile) – формат файла изображения с открытым исходным кодом, который по сути является PNG на стероидах и который я также люблю называть мурлыкающим форматом файла.
Вместо того, чтобы хранить метаданные вместе с изображением, где они могут быть потеряны, MEOW КОДИРУЕТ их непосредственно внутри пикселей изображения с помощью стеганографии LSB — скрывая данные в наименее значимых битах, где ваши глаза не могут заметить разницу, это также не приводит к значительному увеличению размера изображения. Поэтому, если вы используете любую форму сжатия без потерь, она остается.
Я заметил, что большинство «инновационных» форматов файлов изображений умерли из-за отсутствия принятия, но MEOW полностью СОВМЕСТИМ С PNG. Вы можете буквально переименовать файл .MEOW в .PNG и открыть его в обычном просмотрщике изображений.
Вот что зашито в каждом пикселе:
– Карты обнаружения краев — заранее вычисленные границы, благодаря которым ИИ не тратит время на выяснение того, где начинаются и заканчиваются объекты.
– Данные анализа текстуры — структура поверхности, шероховатость, свойства материала уже нанесены на карту.
– Показатели сложности — сообщают моделям ИИ, сколько вычислительной мощности требуется различным регионам.
– Карты веса внимания – выделяют области, на которых модели должны сосредоточить свои вычисления (например, лица, текст, важные объекты)
– Данные о взаимосвязях объектов – пространственные связи между обнаруженными элементами.
– Пространство для проверки на будущее – зарезервированные биты для всего, что захочет добавить ИИ (или комментарии для обучения LORA или маркировки)
Конечно, все это можно редактировать и настраивать, при этом оно выдерживает сжатие, распространение и даже циклы скриншотов и репостов :p
При конвертации ЛЮБОГО формата изображения в .meow он автоматически генерирует большинство специфичных для ИИ функций и данных из того, что он видит на изображении, что значительно улучшает его работу.
Буду рад услышать ваши мысли, предложения или идеи по этому поводу 🙂
Почему просто не JXL? Он имеет несколько каналов, может хранить любые метаданные, работает с потерями/без потерь.
Source: news.ycombinator.com