FacebookRosettaAI发现并理解模因中的文本

导读光学字符识别 (OCR) 是一种常用技术，可从图像(例如扫描的页面)中提取文本，而无需手动转录的耗时负担。尽管这项技术很棒，但 Facebook

光学字符识别 (OCR) 是一种常用技术，可从图像(例如扫描的页面)中提取文本，而无需手动转录的耗时负担。尽管这项技术很棒，但 Facebook 正在寻求更好的东西：从图像中提取文本并理解文本的能力。这就是该公司的 Rosetta 机器学习系统的用武之地。

Facebook 解释了为什么它需要从图像中提取文本，包括使用屏幕阅读器为视障人士阅读内容的能力;这些数据对于提供更好的照片搜索结果也很有用。OCR 技术显然受限于这些目的，因为它提供文本但仅此而已。

另一方面，人工智能能够检索文本，然后理解它的含义。Facebook 在其 Code 网站上最近的一篇文章中解释说，Facebook 将其 Rosetta AI 构建为一个大型机器学习系统。

使用该系统，Facebook 能够从图像(例如模因)以及 Facebook 和 Instagram 上共享的视频中提取文本。人工智能使用分类器进行训练，以根据图像/视频和文本来感知图像/视频的上下文。

该系统涉及两个步骤，第一步是检测可能包含文本的区域，第二步是使用卷积神经网络 (CNN) 进行文本识别。Facebook 使用一种基于名为 Faster R-CNN 的对象检测网络的方法，将文本检测和识别结合到一个同步动作中。

Facebook 在其网站上提供了大量细节，包括提供示例图像和图表以补充其数据。总之，该公司表示，它还致力于将文本识别系统扩展到其他没有拉丁字母数据集的语言。