Что сложнее: распознавание речи или машинное зрение?

Вопросы облаку 22 апреля 2021

Одной из самых сложных технических задач в области искусственного интеллекта считается распознавание речи. И дело тут не только в огромных вычислительных мощностях, которых оно требует, — эту проблему успешно решают современные облачные технологии. Нетривиальность задачи распознавания речи в том, что, помимо узнавания слов и фиксации озвученных фактов, нейросеть должна глубоко понимать язык и обнаруживать связь сказанного с реальным миром. Для этого нейросеть необходимо обучать на тысячах и десятках тысяч часов записей.

И даже этого все еще недостаточно: человеческая речь полна глубоких смыслов, коннотаций, шуток и метафор, которые машине пока недоступны. Поэтому хотя алгоритмы искусственного интеллекта распознают сказанное с 95—98% точностью и уже используются в большинстве крупных компаний для обслуживания клиентов, говорить о том, что машина по-настоящему понимает человеческую речь, пока очень рано.

С этой точки зрения алгоритмы машинного зрения продвинулись куда дальше. Хотя точность распознавания объектов почти такая же, как и точность распознавания голоса, качество отличается. Современные инструменты машинного зрения не только фиксируют наличие объекта, но и могут определить, что именно «видят», проанализировать его состояние и даже интерпретировать контекст. Пусть и несколько хуже, чем человек.