诛仙造化天道怎么获得:我想把pdf转换成txt怎么办有谁给我详细讲一下几种格式的原理与不同也行

来源:百度文库 编辑:神马品牌网 时间:2024/04/29 05:09:44
我用了pdf2txt转换结果只有标题和下划线出来了
到底是怎么回事是不是pdf之间还不一样

你不能成功转换的原因可能为:
1 PDF对中文支持不好(可能性不大)
2 可能你看到的文字不是以字符的形式存储的,而是以图片的形式存储的,那么PDF2TXT自然不能识别它为文本

关键是插入PDF的是文本还是图像,例如有些电子书经过扫描后生成PDF文件,看到的文字其实都是已经被转换成图片形式了的

转换方法,用文字识别软件将PDF里面的这些图片上的文字识别出来,例如尚书几号啊等等,你可以在网上搜索一下

好多网友都问过PDF转换为DOC(word文件)的问题,本人经过尝试发现可以利用Office 2003中的Microsoft Office Document Imaging组件来实现这一要求最为方便。第一步:先用Adobe Reader打开想转换的PDF文件,接下来选择“文件→打印”菜单,在打开的“打印”窗口中将“打印机”栏中的“名称”设置为“Microsoft Office Document Image Writer”,确认后将该PDF文件输出为MDI格式的虚拟打印文件。
注:如果没有找到“Microsoft Office Document Image Writer”项,使用Office 2003安装光盘中的“添加/删除组件”更新安装该组件,选中 Office 工具 Microsoft DRAW转换器。

第二步:运行Microsoft Office Document Imaging,并利用它来打开刚才保存的MDI文件,选择“工具→将文本发送到Word”菜单,在弹出的窗口中选中“在输出时保持图片版式不变”,确认后系统会提示“必须在执行此操作前重新运行OCR。这可能需要一些时间”,不管它,确认即可。

注:对PDF转DOC的识别率不是特别完美,转换后会丢失原来的排版格式,所以转换后还需要手工对其进行排版和校对工作。

以上仅在word2003中试过,其它版本还不是很清楚,可以自己试一下。
参考资料:http://www.chinaocr.net/show_hdr.php?xname=TVKUIV0&dname=CJQ0JV0&xpos=52

转成doc后,用另存为就可以换成txt了