[ 
https://issues.apache.org/jira/browse/TIKA-4303?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=17877635#comment-17877635
 ] 

lqangi commented on TIKA-4303:
------------------------------

The output of version 2.7.0 is as follows, and the content is still missing in 
version 3.0

=====
2024年8月29日
14:08
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
2024年8月29日
zhongwen
14:08
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
2024年8月29日
中文标题
14:08
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
中文标题
使用突出显示和标记,轻松进行后续工作。
共享笔记本以便与其他人进行协作。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
来自 
<[https://support.microsoft.com/zh-cn/office/%E5%9C%A8-onenote-%E4%B8%AD%E5%88%9B%E5%BB%BA%E7%AC%94%E8%AE%B0%E6%9C%AC-6be33cf9-f7c3-4421-9d74-469a259952d3]>
向笔记本中键入信息或从其他应用和网页插入信息。
2024年8月29日
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
记录手写笔记或绘制创意。
从任何设备访问笔记本。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
14:08
中文标题
使用突出显示和标记,轻松进行后续工作。
共享笔记本以便与其他人进行协作。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
向笔记本中键入信息或从其他应用和网页插入信息。
2024年8月29日
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
记录手写笔记或绘制创意。
从任何设备访问笔记本。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
14:08
中文标题
使用突出显示和标记,轻松进行后续工作。
共享笔记本以便与其他人进行协作。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
向笔记本中键入信息或从其他应用和网页插入信息。
2024年8月29日
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
记录手写笔记或绘制创意。
从任何设备访问笔记本。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
14:08
中文标题
使用突出显示和标记,轻松进行后续工作。
共享笔记本以便与其他人进行协作。
Type information into a notebook or insert information from other apps and web 
pages.
OneNote is a digital notebook that automatically saves and syncs notes as you 
work.
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
Follow up easily with highlights and tags.
向笔记本中键入信息或从其他应用和网页插入信息。
2024年8月29日
Take handwritten notes or draw ideas.
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
Access the notebook from any device.
OneNote 是一款数字笔记本,可在工作时自动保存并同步笔记。
Share notebooks to collaborate with others.
记录手写笔记或绘制创意。
从任何设备访问笔记本。

......
====

> Unable to extract Chinese content in onenote
> --------------------------------------------
>
>                 Key: TIKA-4303
>                 URL: https://issues.apache.org/jira/browse/TIKA-4303
>             Project: Tika
>          Issue Type: Bug
>          Components: parser
>    Affects Versions: 2.8.0, 2.9.2
>            Reporter: lqangi
>            Priority: Major
>         Attachments: Chinese-notes.one, tika-parsing-chinese-notes-result.png
>
>
> When I tried to extract the contents of onenote file containing Chinese using 
> tika, the Chinese part of the file could not be extracted, only the 
> non-Chinese content was extracted.
> In addition, some of the extracted content is duplicate, as described in 
> [TIKA-3970|https://issues.apache.org/jira/browse/TIKA-3970], it seems to 
> extract the historical version of the data along with the extraction, I don't 
> know if this issue (TIKA-3970) has been fixed (I see that the code has been 
> committed on github, But it doesn't seem to have completely solved the 
> problem yet)
> The software versions I use are as follows:
> Tika: 2.8.0
> Onenote: Microsoft® OneNote® LTSC MSO (16.0.14332.20761)
>  
> In order to reproduce this problem, just use the 2.8.0 version of Tika App to 
> open the attachment "Chinese-Notes.one" and check whether the Chinese content 
> in the file is extracted.



--
This message was sent by Atlassian Jira
(v8.20.10#820010)

Reply via email to