语义识别
通过Google Now上面的应用搜索框,你可以问一些看起来非常炫酷的问题。
一些日常生活类信息查询,比如纽约到旧金山的航班,比如未来3天北京的天气,现在东京时间几点。这种问答系统涉及到自然语言处理的方方面面,难度极大。
虽然在学术上,NLP(自然语言处理)在各种领域,比如语法分析、实体识别,经过几十年的努力,都取得了90%以上的准确率。但在实际产品情境下,用户口语化表述更加多样,会产生歧义,和学术界经常用于评测系统的语言测试集差别很大。
并且,问答系统是多个子NLP系统串联成流水线的产物,比如词性分析的输出可能作为语法分析的输入,语法分析的输出可能作为实体识别的输入。在这么一个流水线系统中,早期的错误会被传播到流水线之后的步骤,并被放大。
因此单个子系统上很小的错误,在最终都会被放大,严重影响最终对用户查询的理解。
一般的问答系统,都会针对当前领域进行专门优化,研究用户问得最多的是哪些问题,并尽量倚重规则(甚至正则表达式),并加强用户引导,减少用户自然语言的歧义。
Google Now语音搜索还支持一些百科类问题,比如现在的美国总统是谁,喜马拉雅山的高度是多少,或者中国的人口是多少。
Google毕竟是搜索出身,坐拥整个互联网的信息,千千万万的网页中已经包含了“奥巴马是美国总统”,“中国的人口是13亿”这样的陈述,对于Google来说,问题会简化成如何匹配用户的问题到千千万万网页中的某一句话,而不仅仅是给出Top几十的匹配网页,这在屏幕小的手机上、甚至手表上对用户体验的影响至关重要。
学术界的一般做法,是首先识别用户是问哪个类型的问题(What? When? Which? Where? etc.),然后利用信息检索的策略先在千万网页中筛选出一些和用户问题最相关的候选网页,之后根据问题类型,去这些候选网页中摘出最能直接回答用户提问的语句。赢了Jeopardy!(可以理解为老美的开心辞典这样的知识问答类节目)人类冠军的IBM Watson系统,也采用了类似的设计思路。这样的方法可以确保以自动化而非人力的方法提高问题的覆盖率,而不用像某果需要招聘很多问题编辑来应对越来越多热心群众对Siri的无情调戏。
Google近几年来,在语义分析、知识图谱方面都投入了大力气,大家也渐渐能在Google Now以及普通搜索中看到对这类技术的整合。
所以,Google Now并入大Search组,得到更多的技术支持,绝对是一件大大的好事呢!
本文来源:不详 作者:佚名