王者大秦宣太后特效果:google怎么提取pdf里的文字的?文字识别?

来源:百度文库 编辑:神马品牌网 时间:2024/04/29 02:14:11
谢谢
其实我从技术上问的这个问题,
google一下filetype:pdf paper
这样结果全是PDF打头的页
你打开PDF文件时google还active着呢!
它还会在PDF里把关键字标记了.

我是说有一个PDF文件在网络某站上时,
google怎么能读到上面的文字?
有些PDF可能是图片

以“HTML 版”显示
不管原pdf文档是文字版还是图片版,Acrobat都可以进行识别(OCR识别),如果你用adobe acrobat就知道了。我想google自然知道这些,google还肯定熟悉.pdf内在格式,所以提取或识别pdf文档的文字对google并不算难